Excel чисел закона распределения

Содержание

  1. Равномерное непрерывное распределение в EXCEL
  2. Математическое ожидание и дисперсия
  3. Генерация случайных чисел
  4. Оценка среднего и стандартного отклонения
  5. Генерация дискретного случайного числа с произвольной функцией распределения в EXCEL
  6. Задача
  7. Экспоненциальное распределение. Непрерывные распределения в EXCEL
  8. Экспоненциальное распределение в MS EXCEL
  9. Графики функций
  10. Генерация случайных чисел
  11. Задачи

Равномерное непрерывное распределение в EXCEL

history 8 ноября 2016 г.

Рассмотрим равномерное непрерывное распределение. Вычислим математическое ожидание и дисперсию. Сгенерируем случайные значения с помощью функции MS EXCEL СЛЧИС() и надстройки Пакет Анализа, произведем оценку среднего значения и стандартного отклонения.

Равномерно распределенная на отрезке [a; b] случайная величина имеет плотность распределения (вероятности) :

Функция распределения определяется следующим образом:

Равномерное непрерывное распределение (англ. Continuous uniform d istribution или Rectangular distribution ) часто встречается на практике.

Пример1. Например, известно, что гейзер извергается каждые 50 минут. Найти вероятность, того что турист увидит извержение, если будет ждать у гейзера 20 минут. В соответствии с вышеуказанными формулами вероятность увидеть извержение в течение времени наблюдения равна 20/50=0,4, т.е. 40%.

Пример2. Симметричный волчок после раскручивания падает набок. Вертикальная ось волчка после падения указывает на определенный угол от 0 до 360 градусов. Найти вероятность, того что ось волчка укажет на сектор от 90 до 180 градусов. Вероятность равна (180-90)/(360-0)=0,25.

В файле примера приведены графики плотности распределения вероятности и интегральной функции распределения .

Математическое ожидание и дисперсия

Математическое ожидание для равномерного непрерывного распределения вычисляется по формуле =(a+b)/2.

Генерация случайных чисел

Случайные числа, имеющие равномерное непрерывное распределение на отрезке [0; 1), можно сгенерировать с помощью функции MS EXCEL СЛЧИС() . В функции нельзя задать нижнюю и верхнюю границу интервала, но записав формулу =СЛЧИС()*(b-a)+a можно сгенерировать равномерно распределенные числа на любом интервале [a; b).

Примечание : Чтобы сгенерировать случайные числа, имеющие равномерное дискретное распределение , воспользуйтесь функцией СЛУЧМЕЖДУ() .

Сгенерировать случайные числа, извлеченные из непрерывного равномерного распределения, можно также с помощью надстройки Пакет анализа .

Сгенерируем массив из 50 чисел из диапазона [3,3; 7,5). Для этого в окне Генерация случайных чисел установим следующие параметры (см. файл примера лист Генерация ):

Как видно из рисунка выше, в поле Случайное рассеивание установлен необязательный параметр равный 2. Параметр Случайное рассеивание может принимать значение от 1 до 32767. Если установить этот параметр, то MS EXCEL будет каждый раз генерировать один и тот же массив чисел, соответствующий этот значению. Этот подход удобен для генерации одинаковых массивов, например, на различных компьютерах.

Оценка среднего и стандартного отклонения

Нижнюю и верхнюю границу интервала возьмем [3,3; 7,5) и разместим их в ячейках B4:B5 . Сгенерируем 50 чисел ( выборку ) и поместим их в диапазоне С14:С63 .

Математическое ожидание этого распределения =(B4+B5)/2 и равно 5,4. Стандартное отклонение распределения равно =КОРЕНЬ(((B5-B4)^2)/12)=1,21

Чтобы оценить математическое ожидание воспользуемся значениями выборки =СУММ(C14:C63)/СЧЁТ(C14:C63) .

Оценить стандартное отклонение можно с помощью формулы =СТАНДОТКЛОН.В(C14:C63) в MS EXCEL 2010 или =СТАНДОТКЛОН(C14:C63) для более ранних версий.

Чтобы оценить дисперсию используйте формулу =ДИСП.В(C14:C63) в MS EXCEL 2010 или =ДИСП(C14:C63) для более ранних версий. Также можно использовать формулу =СТАНДОТКЛОН.В(C14:C63)^2 .

СОВЕТ : О других распределениях MS EXCEL можно прочитать в статье Распределения случайной величины в MS EXCEL .

Источник

Генерация дискретного случайного числа с произвольной функцией распределения в EXCEL

history 18 июня 2015 г.

Задана произвольная функция распределения дискретной случайной величины. Сгенерируем случайное число из этой генеральной совокупности. Также рассмотрим функцию ВЕРОЯТНОСТЬ() .

Перед прочтением данной статьи рекомендуется освежить в памяти понятие Функция распределения случайной величины .

Часто случайная величина моделируется определенным распределением. Например, вес куска мыла, изготавливаемого на фабрике, может быть распределен по нормальному закону , а число автомобилей, прибывающих на стоянку в определенный период времени — распределению Пуассона .

Однако, бывают ситуации, когда форма распределения неизвестна, известно лишь, что дискретная случайная величина принимает некие значения с определенной вероятностью. Назовем такую функцию распределения «произвольной» функцией распределения , т.е. которая не соответствует известным законам распределения, а задана пользователем из опыта.

Зададим вероятности, что дискретная случайная величина Х примет определенное значение, с использованием таблицы (см. файл примера ).

Для вычисления Функции распределения используем функцию ВЕРОЯТНОСТЬ() .

Формула =ВЕРОЯТНОСТЬ($A$7:$A$10;$B$7:$B$10;$A$7;A7) вернет Функцию распределения . Того же результата можно добиться с помощью формулы =СУММ($B$6:B7) .

Функция ВЕРОЯТНОСТЬ() удобна тем, что она выполняет проверку:

  • сумма вероятностей в столбце В должна быть равна 1;
  • вероятность для каждого значения должна быть в пределе от 0 до 1;
  • количество значений должно соответствовать вероятностям (в нашем случае 4 значениям случайной величины сопоставлены 4 значения вероятности).

Для генерации случайного числа создадим дополнительный столбец E .

Этот столбец практически совпадает со значениями функции распределения, но он начинается с 0 и не содержит 1.

Теперь запишем формулу для генерации случайного числа:

Разберем ее работу:

  • Функция СЛЧИС() возвращает равномерно распределенное случайное число в интервале от 0 до 1 (см. эту статью ). Результат соответствует вероятности (ось y на графике функции распределения);
  • Функция ПОИСКПОЗ () возвращает позицию из диапазона Е7:Е10 , в которой содержится наименьшее значение СЛЧИС() . Т.е. если СЛЧИС() вернула 0,5, то результат функции будет 3 (т.к. наименьшее число, которое ПОИСКПОЗ() см. в статье Функция ПОИСКПОЗ() в MS EXCEL ;
  • Функция ИНДЕКС () возвращает значение из диапазона A7:A10, у которого позиция совпадает с найденной функцией ПОИСКПОЗ() . Подробнее о функции ИНДЕКС () см. в статье Функция ИНДЕКС() в MS EXCEL .

Почему это работает? Рассмотрим интервал между 0,3 и 0,8, который равен половине интервала вероятностей (т.е. равен 0,5). На графике плотности вероятности видно, что этот интервал соответствует числу 2. Следовательно, результат функции СЛЧИС() будет в среднем в 50% случаях соответствовать именно этому числу.

Чтобы убедиться в этом, вычислим математическое ожидание нашего распределения =СУММ(F7:F10) . Оно равно 1,8. Теперь сгенерируем массив случайных чисел в столбце W и вычислим оценку среднего (математического ожидания). В файле примера видно, что оценка, вычисленная по формуле =СРЗНАЧ(W6:W55) , близка к истинному значению 1,8.

Задача

Для 50% покупателей время обслуживания 14 минут, для 25% — 8 минут и для оставшихся 25% — 11. Используя функцию СЛЧИС() сделать генератор, который будет случайно выдавать значения в этом интервале.

Решением вышеуказанной задачи является формула = ВПР(СЛЧИС();<0;14:0,5;11:0,75;8>;2)

Если случайное число меньше 0,5 (50%), то время обслуживания составляет 14 минут, если от 0,5 до 0,75 (25%), то 11 минут, если от 0,75 до 1, то 8 минут (см. файл примера ).

Примечание : Про функцию ВПР() можно прочитать здесь .

СОВЕТ : О других распределениях MS EXCEL можно прочитать в статье Распределения случайной величины в MS EXCEL .

Источник

Экспоненциальное распределение. Непрерывные распределения в EXCEL

history 8 ноября 2016 г.

Рассмотрим Экспоненциальное распределение, вычислим его математическое ожидание, дисперсию, медиану. С помощью функции MS EXCEL ЭКСП.РАСП() построим графики функции распределения и плотности вероятности. Сгенерируем массив случайных чисел и произведем оценку параметра распределения.

Экспоненциальное распределение (англ. Exponential distribution ) часто используется для расчета времени ожидания между случайными событиями. Ниже описаны ситуации, когда возможно применение Экспоненциального распределения :

  • Промежутки времени между появлением посетителей в кафе;
  • Промежутки времени нормальной работы оборудования между появлением неисправностей (неисправности возникают из-за случайных внешних влияний, а не по причине износа, см. Распределение Вейбулла );
  • Затраты времени на обслуживание одного покупателя.

Плотность вероятности Экспоненциального распределения задается следующей формулой:

График плотности распределения вероятности и интегральной функции Экспоненциального распределения выглядит следующим образом (см. ниже).

Экспоненциальное распределение тесно связано с дискретным распределением Пуассона . Если Распределение Пуассона описывает число случайных событий, произошедших за определенный интервал времени, то Экспоненциальное распределение должноописывать длину интервала времени между двумя последовательными событиями.

Приведем пример. Предположим, что число машин, прибывающих на парковку днем, описывается распределением Пуассона со средним значением равным 15 машин в час (параметр распределения λ =15). Вероятность того, что на стоянку в течение часа приедет k машин равно:

Т.к. в среднем в час на стоянку приезжает 15 машин, то среднее время между 2-мя приезжающими машинами равно 1час/15машин=0,067. Т.к. среднее время между 2-мя событиями равно обратному значению параметра экспоненциального распределения , то параметр λ =15 , а плотность соответствующего экспоненциального распределения равна:

Экспоненциальное распределение в MS EXCEL

В MS EXCEL, начиная с версии 2010, для Экспоненциального распределения имеется функция ЭКСП.РАСП() , английское название — EXPON.DIST(), которая позволяет вычислить плотность вероятности (см. формулу в начале статьи) и интегральную функцию распределения (вероятность, что случайная величина X, распределенная по экспоненциальному закону , примет значение меньше или равное x). Вычисления в последнем случае производятся по следующей формуле:

Экспоненциальное распределение имеет обозначение Exp ( λ ).

Примечание : До MS EXCEL 2010 в EXCEL была функция ЭКСПРАСП() , которая позволяет вычислить кумулятивную (интегральную) функцию распределения и плотность вероятности . ЭКСПРАСП() оставлена в MS EXCEL 2010 для совместимости.

В файле примера на листе Пример приведены несколько альтернативных формул для вычисления плотности вероятности и интегральной функции экспоненциального распределения :

  • =1-EXP(- λ *x) ;
  • =ГАММА.РАСП(x;1;1/ λ ;ИСТИНА) , т.к. экспоненциальное распределение является частным случаем Гамма распределения ;
  • =ВЕЙБУЛЛ.РАСП(x;1;1/ λ ;ИСТИНА) , т.к. экспоненциальное распределение является частным случаем распределения Вейбулла ;

Примечание : Для удобства написания формул в файле примера создано Имя для параметра распределения — λ .

Графики функций

В файле примера приведены графики плотности распределения вероятности и интегральной функции распределения .

Примечание : Для построения функции распределения и плотности вероятности можно использовать диаграмму типа График или Точечная (со сглаженными линиями и без точек). Подробнее о построении диаграмм читайте статью Основные типы диаграмм .

Генерация случайных чисел

Для генерирования массива чисел, распределенных по экспоненциальному закону , можно использовать формулу =-LN(СЛЧИС())/ λ

Функция СЛЧИС() генерирует непрерывное равномерное распределение от 0 до 1, что как раз соответствует диапазону изменения вероятности (см. файл примера лист Генерация ).

Если случайные числа содержатся в диапазоне B14:B213 , то оценку параметра экспоненциального распределения λ можно сделать с использованием формулы =1/СРЗНАЧ(B14:B213) .

Задачи

Экспоненциальное распределение широко используется в такой дисциплине как Техника обеспечения надежности (Reliability Engineering). Параметр λ называется интенсивность отказов , а 1/ λ среднее время до отказа .

Предположим, что электронный компонент некой системы имеет срок полезного использования, описываемый Экспоненциальным распределением с интенсивностью отказа равной 10^(-3) в час, таким образом, λ = 10^(-3). Среднее время до отказа равно 1000 часов. Для того чтобы подсчитать вероятность, что компонент выйдет из строя за Среднее время до отказа, то нужно записать формулу:

Т.е. результат не зависит от параметра λ .

В MS EXCEL решение выглядит так: =ЭКСП.РАСП(10^3; 10^(-3); ИСТИНА)

Задача . Среднее время до отказа некого компонента равно 40 часов. Найти вероятность, что компонент откажет между 20 и 30 часами работы. =ЭКСП.РАСП(30; 1/40; ИСТИНА)- ЭКСП.РАСП(20; 1/40; ИСТИНА)

СОВЕТ : О других распределениях MS EXCEL можно прочитать в статье Распределения случайной величины в MS EXCEL .

Источник


Даны определения Функции распределения случайной величины и Плотности вероятности непрерывной случайной величины. Эти понятия активно используются в статьях о статистике сайта

www.excel2.ru

. Рассмотрены примеры вычисления Функции распределения и Плотности вероятности с помощью функций MS EXCEL

.

Введем базовые понятия статистики, без которых невозможно объяснить более сложные понятия.

Генеральная совокупность и случайная величина

Пусть у нас имеется

генеральная совокупность

(population) из N объектов, каждому из которых присуще определенное значение некоторой числовой характеристики Х.


Примером генеральной совокупности (ГС) может служить совокупность весов однотипных деталей, которые производятся станком.

Поскольку в математической статистике, любой вывод делается только на основании характеристики Х (абстрагируясь от самих объектов), то с этой точки зрения

генеральная совокупность

представляет собой N чисел, среди которых, в общем случае, могут быть и одинаковые.


В нашем примере, ГС — это просто числовой массив значений весов деталей. Х – вес одной из деталей.

Если из заданной ГС мы выбираем случайным образом один объект, имеющей характеристику Х, то величина Х является

случайной величиной

. По определению, любая

случайная величина

имеет

функцию распределения

, которая обычно обозначается F(x).

Функция распределения


Функцией распределения

вероятностей

случайной величины

Х называют функцию F(x), значение которой в точке х равно вероятности события X

F(x) = P(X


Поясним на примере нашего станка. Хотя предполагается, что наш станок производит только один тип деталей, но, очевидно, что вес изготовленных деталей будет слегка отличаться друг от друга. Это возможно из-за того, что при изготовлении мог быть использован разный материал, а условия обработки также могли слегка различаться и пр. Пусть самая тяжелая деталь, произведенная станком, весит 200 г, а самая легкая — 190 г. Вероятность того, что случайно выбранная деталь Х будет весить меньше 200 г равна 1. Вероятность того, что будет весить меньше 190 г равна 0. Промежуточные значения определяются формой Функции распределения. Например, если процесс настроен на изготовление деталей весом 195 г, то разумно предположить, что вероятность выбрать деталь легче 195 г равна 0,5.

Типичный график

Функции распределения

для непрерывной случайной величины приведен на картинке ниже (фиолетовая кривая, см.

файл примера

):

В справке MS EXCEL

Функцию распределения

называют

Интегральной

функцией распределения

(

Cumulative

Distribution

Function

,

CDF

).

Приведем некоторые свойства

Функции распределения:


  • Функция распределения

    F(x) изменяется в интервале [0;1], т.к. ее значения равны вероятностям соответствующих событий (по определению вероятность может быть в пределах от 0 до 1);

  • Функция распределения

    – неубывающая функция;
  • Вероятность того, что случайная величина приняла значение из некоторого диапазона [x1;x2): P(x

    1
    <=X
    2

    )=F(x

    2

    )-F(x

    1

    ).

Существует 2 типа распределений:

непрерывные распределения

и

дискретные распределения

.

Дискретные распределения

Если случайная величина может принимать только определенные значения и количество таких значений конечно, то соответствующее распределение называется

дискретным

. Например, при бросании монеты, имеется только 2 элементарных исхода, и, соответственно, случайная величина может принимать только 2 значения. Например, 0 (выпала решка) и 1 (не выпала решка) (см.

схему Бернулли

). Если монета симметричная, то вероятность каждого исхода равна 1/2. При бросании кубика случайная величина принимает значения от 1 до 6. Вероятность каждого исхода равна 1/6. Сумма вероятностей всех возможных значений случайной величины равна 1.


Примечание

: В MS EXCEL имеется несколько функций, позволяющих вычислить вероятности дискретных случайных величин. Перечень этих функций приведен в статье

Распределения случайной величины в MS EXCEL

.

Непрерывные распределения и плотность вероятности

В случае

непрерывного распределения

случайная величина может принимать любые значения из интервала, в котором она определена. Т.к. количество таких значений бесконечно велико, то мы не можем, как в случае дискретной величины, сопоставить каждому значению случайной величины ненулевую вероятность (т.е. вероятность попадания в любую точку (заданную до опыта) для

непрерывной случайной величины

равна нулю). Т.к. в противном случае сумма вероятностей всех возможных значений случайной величины будет равна бесконечности, а не 1. Выходом из этой ситуации является введение так называемой

функции плотности распределения p(x)

. Чтобы найти вероятность того, что непрерывная случайная величина Х примет значение, заключенное в интервале (а; b), необходимо найти приращение

функции распределения

на этом интервале:

Как видно из формулы выше

плотность распределения

р(х) представляет собой производную

функции распределения

F(x), т.е. р(х) = F’(x).

Типичный график

функции плотности распределения

для непрерывной случайно величины приведен на картинке ниже (зеленая кривая):


Примечание

: В MS EXCEL имеется несколько функций, позволяющих вычислить вероятности непрерывных случайных величин. Перечень этих функций приведен в статье

Распределения случайной величины в MS EXCEL

.

В литературе

Функция плотности распределения

непрерывной случайной величины может называться:

Плотность вероятности, Плотность распределения, англ. Probability Density Function (PDF)

.

Чтобы все усложнить, термин

Распределение

(в литературе на английском языке —

Probability

Distribution

Function

или просто

Distribution

)

в зависимости от контекста может относиться как

Интегральной

функции распределения,

так и кее

Плотности распределения.

Из определения

функции плотности распределения

следует, что p(х)>=0. Следовательно, плотность вероятности для непрерывной величины может быть, в отличие от

Функции распределения,

больше 1. Например, для

непрерывной равномерной величины

, распределенной на интервале [0; 0,5]

плотность вероятности

равна 1/(0,5-0)=2. А для

экспоненциального распределения

с параметром

лямбда

=5, значение

плотности вероятности

в точке х=0,05 равно 3,894. Но, при этом можно убедиться, что вероятность на любом интервале будет, как обычно, от 0 до 1.

Напомним, что

плотность распределения

является производной от

функции распределения

, т.е. «скоростью» ее изменения: p(x)=(F(x2)-F(x1))/Dx при Dx стремящемся к 0, где Dx=x2-x1. Т.е. тот факт, что

плотность распределения

>1 означает лишь, что функция распределения растет достаточно быстро (это очевидно на примере

экспоненциального распределения

).


Примечание

: Площадь, целиком заключенная под всей кривой, изображающей

плотность распределения

, равна 1.


Примечание

: Напомним, что функцию распределения F(x) называют в функциях MS EXCEL

интегральной функцией распределения

. Этот термин присутствует в параметрах функций, например в

НОРМ.РАСП

(x; среднее; стандартное_откл;

интегральная

). Если функция MS EXCEL должна вернуть

Функцию распределения,

то параметр

интегральная

, д.б. установлен ИСТИНА. Если требуется вычислить

плотность вероятности

, то параметр

интегральная

, д.б. ЛОЖЬ.


Примечание

: Для

дискретного распределения

вероятность случайной величине принять некое значение также часто называется плотностью вероятности (англ. probability mass function (pmf)). В справке MS EXCEL

плотность вероятности

может называть даже «функция вероятностной меры» (см. функцию

БИНОМ.РАСП()

).

Вычисление плотности вероятности с использованием функций MS EXCEL

Понятно, что чтобы вычислить

плотность вероятности

для определенного значения случайной величины, нужно знать ее распределение.

Найдем

плотность вероятности

для

стандартного нормального распределения

N(0;1) при x=2. Для этого необходимо записать формулу

=НОРМ.СТ.РАСП(2;ЛОЖЬ)

=0,054 или

=НОРМ.РАСП(2;0;1;ЛОЖЬ)

.

Напомним, что

вероятность

того, что

непрерывная случайная величина

примет конкретное значение x равна 0. Для

непрерывной случайной величины

Х можно вычислить только вероятность события, что Х примет значение, заключенное в интервале (а; b).

Вычисление вероятностей с использованием функций MS EXCEL

1) Найдем вероятность, что случайная величина, распределенная по

стандартному нормальному распределению

(см. картинку выше), приняла положительное значение. Согласно свойству

Функции распределения

вероятность равна F(+∞)-F(0)=1-0,5=0,5.

В MS EXCEL для нахождения этой вероятности используйте формулу

=НОРМ.СТ.РАСП(9,999E+307;ИСТИНА) -НОРМ.СТ.РАСП(0;ИСТИНА)

=1-0,5. Вместо +∞ в формулу введено значение 9,999E+307= 9,999*10^307, которое является максимальным числом, которое можно ввести в ячейку MS EXCEL (так сказать, наиболее близкое к +∞).

2) Найдем вероятность, что случайная величина, распределенная по

стандартному нормальному распределению

, приняла отрицательное значение. Согласно определения

Функции распределения,

вероятность равна F(0)=0,5.

В MS EXCEL для нахождения этой вероятности используйте формулу

=НОРМ.СТ.РАСП(0;ИСТИНА)

=0,5.

3) Найдем вероятность того, что случайная величина, распределенная по

стандартному нормальному распределению

, примет значение, заключенное в интервале (0; 1). Вероятность равна F(1)-F(0), т.е. из вероятности выбрать Х из интервала (-∞;1) нужно вычесть вероятность выбрать Х из интервала (-∞;0). В MS EXCEL используйте формулу

=НОРМ.СТ.РАСП(1;ИСТИНА) — НОРМ.СТ.РАСП(0;ИСТИНА)

.

Все расчеты, приведенные выше, относятся к случайной величине, распределенной по

стандартному нормальному закону

N(0;1). Понятно, что значения вероятностей зависят от конкретного распределения. В статье

Распределения случайной величины в MS EXCEL

приведены распределения, для которых в MS EXCEL имеются соответствующие функции, позволяющие вычислить вероятности.

Обратная функция распределения (Inverse Distribution Function)

Вспомним задачу из предыдущего раздела:

Найдем вероятность, что случайная величина, распределенная по стандартному нормальному распределению, приняла отрицательное значение.

Вероятность этого события равна 0,5.

Теперь решим обратную задачу: определим х, для которого вероятность, того что случайная величина Х примет значение
медиану

или 50-ю

процентиль

).

Для этого необходимо на графике

функции распределения

найти точку, для которой F(х)=0,5, а затем найти абсциссу этой точки. Абсцисса точки =0, т.е. вероятность, того что случайная величина Х примет значение <0, равна 0,5.

В MS EXCEL используйте формулу

=НОРМ.СТ.ОБР(0,5)

=0.

Однозначно вычислить значение

случайной величины

позволяет свойство монотонности

функции распределения.

Обратите внимание, что для вычисления обратной функции мы использовали именно

функцию распределения

, а не

плотность распределения

. Поэтому, в аргументах функции

НОРМ.СТ.ОБР()

отсутствует параметр

интегральная

, который подразумевается. Подробнее про функцию

НОРМ.СТ.ОБР()

см. статью про

нормальное распределение

.


Обратная функция распределения

вычисляет

квантили распределения

, которые используются, например, при

построении доверительных интервалов

. Т.е. в нашем случае число 0 является 0,5-квантилем

нормального распределения

. В

файле примера

можно вычислить и другой

квантиль

этого распределения. Например, 0,8-квантиль равен 0,84.

В англоязычной литературе

обратная функция распределения

часто называется как Percent Point Function (PPF).


Примечание

: При вычислении

квантилей

в MS EXCEL используются функции:

НОРМ.СТ.ОБР()

,

ЛОГНОРМ.ОБР()

,

ХИ2.ОБР(),

ГАММА.ОБР()

и т.д. Подробнее о распределениях, представленных в MS EXCEL, можно прочитать в статье

Распределения случайной величины в MS EXCEL

.

Excel для Microsoft 365 Excel для Microsoft 365 для Mac Excel для Интернета Excel 2021 Excel 2021 для Mac Excel 2019 Excel 2019 для Mac Excel 2016 Excel 2016 для Mac Excel 2013 Excel 2010 Excel для Mac 2011 Excel Starter 2010 Еще…Меньше

В этой статье описаны синтаксис формулы и использование функции ЭКСП.РАСП в Microsoft Excel.

Возвращает экспоненциальное распределение. Функция ЭКСП.РАСП используется для моделирования временных задержек между событиями, например времени, которое потребуется на доставку денежного перевода через автоматизированную банковскую систему. В частности, при помощи функции ЭКСП.РАСП можно определить вероятность того, что этот процесс займет не более 1 минуты.

Синтаксис

ЭКСП.РАСП(x;лямбда;интегральная)

Аргументы функции ЭКСП.РАСП описаны ниже.

  • x     — обязательный аргумент. Значение функции.

  • Лямбда     — обязательный аргумент. Значение параметра.

  • Интегральная     — обязательный аргумент. Логическое значение, определяющее форму экспоненциальной функции, которую следует использовать. Если аргумент «интегральная» имеет значение ИСТИНА, функция ЭКСП.РАСП возвращает интегральную функцию распределения; если имеет значение ЛОЖЬ, возвращается функция плотности распределения.

Замечания

  • Если значение «x» или «лямбда» не является числом, функция ЭКСП.РАСП возвращает значение ошибки #ЗНАЧ!.

  • Если x < 0, функция ЭКСП.РАСП возвращает значение ошибки #ЧИСЛО!.

  • Если значение «лямбда» ≤ 0, функция ЭКСП.РАСП возвращает значение ошибки #ЧИСЛО!.

  • Уравнение для функции плотности вероятности имеет следующий вид:

    Уравнение

  • Уравнение для интегральной функции распределения имеет следующий вид:

    Уравнение

Пример

Скопируйте образец данных из следующей таблицы и вставьте их в ячейку A1 нового листа Excel. Чтобы отобразить результаты формул, выделите их и нажмите клавишу F2, а затем — клавишу ВВОД. При необходимости измените ширину столбцов, чтобы видеть все данные.

Данные

Описание

0,2

Значение функции

10

Значение параметра

Формула

Описание

Результат

=ЭКСП.РАСП(A2;A3;ИСТИНА)

Интегральная экспоненциальная функция распределения

0,86466472

=ЭКСП.РАСП(0,2;10;ЛОЖЬ)

Экспоненциальная функция плотности распределения

1,35335283

Нужна дополнительная помощь?



В статье рассматривается процедура создания шаблона Excel и опыт его применения для автоматического построения гистограмм и кривых Гаусса по результатам данных экспериментальных наблюдений с одновременной оценкой согласия по критерию Пирсона в учебном процессе. Показываются преимущества данного метода перед ручным счетом по проверке рассмотренного критерия.

Ключевые слова: шаблон Excel, гистограмма, кривая распределения, критерий согласия Пирсона

В современном мире к статистике проявляется большой интерес, поскольку это отличный инструмент для анализа и принятия решений, а также это отличное средство для поиска причин нарушений процесса и их устранения. Статистический анализ применим во многих сферах, где существуют большие массивы данных: металлургии, а также в экономике, биологии, политике, социологии и т. д. Рассмотрим использование некоторых средств статистического анализа, а именно — гистограмм для обработки больших массивов данных.

Целью первичной обработки экспериментальных наблюдений обычно является выбор закона распределения, наиболее хорошо описывающего случайную величину, выборку которой мы наблюдали. Проверка того, насколько хорошо наблюдаемая выборка описывается теоретическим законом, осуществляется с использованием различных критериев согласия. Целью проверки гипотезы о согласии опытного распределения с теоретическим является стремление удостовериться в том, что данная модель теоретического закона не противоречит наблюдаемым данным, и использование ее не приведет к существенным ошибкам при вероятностных расчетах. Некорректное использование критериев согласия может приводить к необоснованному принятию или необоснованному отклонению проверяемой гипотезы [1].

Сходимость результатов наблюдений можно оценить наиболее полно, если их распределение является нормальным. Поэтому исключительно важную роль при обработке результатов наблюдений играет проверка нормальности распределения.

Эта задача представляет собой частный случай более общей проблемы, заключающейся в подборе теоретической функции распределения, в некотором смысле наилучшим образом согласующейся с опытными данными. Сама процедура проверки нормальности распределения относится к распространенной стандартной и довольно тривиальной задаче обработки данных и достаточно подробно и широко описана в различной литературе по метрологии и статистической обработке данных измерений [2- 4].

Данные, получаемые в результате измерений при контроле технологических процессов, оценке характеристик различных объектов и др. для дальнейшей обработки желательно представлять в виде теоретического распределения, максимально соответствующего экспериментальному распределению. Проверку гипотезы о виде функции распределения в настоящее время проводят по различным критериям согласия — Пирсона, Колмогорова, Смирнова и другим в соответствии с новыми разработанными нормативными документами — рекомендациями по стандартизации [5, 6].

Наиболее часто используется критерий Пирсона 2. Однако применение критериев согласия требует обычно довольно значительного объёма данных. Так, критерий Пирсона обычно рекомендуется использовать при объёме выборки не менее 50…100. Поэтому при небольшом объёме выборки проверку гипотезы о виде функции распределения проводят приближёнными методами — графическим методом или по асимметрии и эксцессу. Применение критерия Пирсона для ручной обработки данных очень подробно было изложено в известной работе [2]. Как свидетельствует опыт проверок согласия экспериментальных данных с теоретическими по различным критериям, эта процедура является очень трудоемкой, требует некоторой усидчивости и особого внимания при обработке от исследователя, как правило, не исключает ошибок в работе и не вызывает особого энтузиазма у выполняющего эту работу.

Решение задач статистического анализа связано со значительными объемами вычислений. Проведение реальных многовариантных статистических расчетов в ручном режиме является очень громоздкой и трудоемкой задачей и без использования компьютера в настоящее время практически невозможно. В настоящее время разработано достаточное количество универсальных и специализированных программных средств для статистического анализа и обработки экспериментальных данных. Автор предлагает к рассмотрению достаточно простой и эффективный шаблон для быстрого построения гистограммы и кривой нормального распределения.

По виду гистограммы можно предположить (принять гипотезу) о том, что выборка случайных чисел подчиняется нормальному закону распределения. Далее, для того чтобы убедиться в правильности выбранной гипотезы надо, первое — построить график гипотетического нормального закона распределения, выбрав в качестве параметров (математического ожидания и среднего квадратического отклонения) их оценки (среднее и стандартное отклонение), и совместить график гипотетического распределения с графиком гистограммы. И, второе — используя в данном случае, как пример, критерий согласия Пирсона, установить справедливость выбранной гипотезы.

Рассмотрим порядок действий при работе с критерием Пирсона в среде Excel.

1. Полученные в результате измерений значения 100 случайных результатов измерений внести в ячейки A1:A100 шаблона Excel и приступить к построению гистограммы на основе данных, назначая длину интервала (карман) и выбирая необходимое число интервалов.

2. Затем на этом же листе создается таблица, в которую посредством формул Excel вносятся основные расчетные величины, используемые для построения гистограммы и кривой Гаусса: среднее арифметическое, стандартное отклонение, минимальное и максимальное значения выборки, размах, величина кармана (рис. 1).

Безымянный

Рис. 1. Фрагмент таблицы с исходными данными

В ячейку D2 вносится формула =СРЗНАЧ(A1:A100), D3: =СТАНДОТКЛОН(A1:A100), D4: =МИН(A1:A100), D5: =МАКС(A1:A100), D6: =D5-D4, D7: =D6/D8. В ячейку D8 вводится число интервалов, которое для числа измерений, равным 100, может быть принято от 7 до 12.

Для оценки оптимального для нашего массива данных количества интервалов можно воспользоваться формулой Стерджесса: k~1+3,322lgN, где N— количество всех значений величины. Например, для N = 100, n = 7,6, которое должно быль округлено до целого числа, округляем до n = 8.

3. Интервал карманов вычисляют так: разность максимального и минимального значений массива, деленная на количество интервалов: .

4. Теперь в каждой ячейке шаг за шагом прибавляем полученное значение ширины кармана: сначала к минимальному значению нашего массива (ячейка D4), затем в следующей ячейке ниже — к полученной сумме и т. д. Так постепенно доходим до максимального значения. Таким образом, мы и построили интервалы карманов в виде столбца значений.

Интервалом считается следующий диапазон: (i-1; i] или i<значения<=i (нестрогая верхняя граница интервала — это значение в ячейке, нижняя строгая граница — значение в предыдущей ячейке).

5. Выделяем столбец рядом с нашими карманами, нажимаем «F2» и вводим функцию: =ЧАСТОТА (массив данных; диапазон карманов) и нажимаем Ctr+Shift+Enter.

6. В выделенном нами столбце напротив границ интервалов (а мы знаем, что это нестрогие верхние границы) появилось количество значений исходного массива, которые попадают в интервал (рис. 2).

Безымянный-1

Рис. 2. Количество значений исходного массива, попавших в интервалы (частоты)

Построение теоретического закона распределения

Для построения теоретического закона распределения совместно с гистограммой и проверкой согласия по критерию хи-квадрат Пирсона автоматически заполняется таблица 1 после ввода экспериментальных данных в ячейки A1:A100.

Таблица 1

xi

mi

n∙pi

карманы

частота

теоретическая частота

статистика U

Для построения этой таблицы надо воспользоваться таблицей карман — частота процедуры Гистограмма. В этой таблице обозначены:

xi — границы интервалов группировки (карманы — получены как результат выполнения процедуры Гистограмма);

mi — количество элементов выборки, попавших в i–ый интервал (частота — получена в результате процедуры Гистограмма).

Для построения этой таблицы в Excel к столбцам карман — частота процедуры Гистограмма надо добавить столбцы n∙pi (теоретическая частота) и (статистика U).

Проверка согласия эмпирического и теоретического законов распределения по критерию хи-квадрат Пирсона.

В ячейку столбца, помеченного именем U, вводим формулу,

, (1)

Критическое значение статистики U, которая имеет распределениес r степенями свободы (число степеней свободы определяется как число частичных интервалов минус 1), определяется при помощи функции ХИ2ОБР.

Функция ХИ2ОБР вызывается следующим образом. В главном меню Excel выбирается закладка Формулы → Вставить функцию →в диалоговом окне Мастер функций— шаг 1 из 2 вкатегории Статистические →ХИ2ОБР (рис. 3).

http://www.studfiles.ru/html/2706/558/html_BMG66pHKvj.eosI/htmlconvd-dTqvbh_html_m201960a7.png

Рис. 3. Диалоговое окно выбора функции ХИ2ОБР

В диалоговом окне Аргументы функции ХИ2ОБР заполняются поля как показано на рис. 4, задаваясь уровнем значимости (например, 0,05, что соответствует доверительной вероятности Р = 0,95) и предварительно выбрав ячейку для результата вычисления функции.

http://www.studfiles.ru/html/2706/558/html_BMG66pHKvj.eosI/htmlconvd-dTqvbh_html_5cf9dd9f.png

Рис. 4. Диалоговое окно функции ХИ2ОБР с заполненными полями ввода

Размножим формулу (1) в диапазонах ячеек [F12; F20] и [F51; F61]. В ячейке F21 получим сумму содержимого ячеек F12; F20 (рис. 5). В ячейке F62 получим сумму содержимого ячеек F51; F61 (рис. 6).

В ячейке F21 получено значение статистики: U = 2,09, а в ячейке F62 — U = 3,43 при доверительной вероятности Р = 0,95.

Теперь с помощью стандартного инструмента для построения гистограмм («вставка/гистограмма» и т. д.) на этом же листе Excel можно построить гистограммы распределения с кривой Гаусса для разных чисел интервалов (в данном случае n = 8 и n = 10) (рис. 5 и 6).

Безымянный

Рис. 5. Вид гистограммы и кривой распределения при числе интервалов n = 8 (пример)

Безымянный-1

Рис. 6. Вид гистограммы и кривой распределения при числе интервалов n = 10 (пример)

Шаблон позволяет варьировать числом интервалов и величиной кармана, при этом автоматически изменяется внешний вид гистограммы и кривой нормального распределения. Исследователь может подобрать наиболее «красивый» вид гистограммы и аппроксимирующей кривой Гаусса, одновременно изменив значение доверительной вероятности и числа степеней свободы и добившись при этом выполнения критерия Пирсона.

Если значение статистики U оказалось меньше критического значения при заданной доверительной вероятности, то гипотеза, состоящая в том, что исследуемая выборка подчиняется нормальному закону распределения, принимается. Вданном примере значение обеих статистик U оказалось меньше критического значения и Следовательно, мы можем распространить данный закон распределения на всю генеральную совокупность исследуемых объектов (партию изделий, сменную выработку, месячный план и т. д.).

Более подробно указанная тема была рассмотрена в статье автора в сборнике «Законодательная и прикладная метрология» [7].

Выводы

  1. Существовавшая ранее традиционная «ручная» обработка данных при проверке нормального (и других) законов распределения и построении гистограмм являлась достаточно трудоемкой задачей, не исключавшей появление ошибок, обнаружение которых зачастую требовало значительных затрат времени и моральных сил исследователя.
  2. Появление пакетов офисных программ, в частности Excel 2010 и ее последующих версий, позволяет значительно сократить трудоемкость обработки данных и практически исключает появление ошибок в расчетах.

Литература:

1. Лемешко Б. Ю., Постовалов С. Н. О правилах проверки согласия опытного распределения с теоретическим. — Методы менеджмента качества. Надежность и контроль качества. — 1999, № 11. — С. 34–43.

2. Бурдун Г. Д., Марков Б. Н. Основы метрологии. Учебное пособие для вузов. — М.: Изд. стандартов, 1975. — 336 с.

3. Сулицкий В. Н. Методы статистического анализа в управлении: Учеб. пособие. — М.: Дело, 2002. — 520 с.

4. Иванов О. В. Статистика / Учебный курс для социологов и менеджеров. Часть 2. Доверительные интервалы. Проверка гипотез. Методы и их применение. — М.: Изд. МГУ им. М. В. Ломоносова, 2005. — 220 с.

5. Рекомендации по стандартизации Р 50.1.033–2001. Прикладная статистика. Правила проверки согласия опытного распределения с теоретическим. Часть 1. Критерии типа хи-квадрат. — М.: ФГУП «Стандартинформ», 2006. — 87 с.

6. Рекомендации по стандартизации Р 50.1.037–2002. Прикладная статистика. Правила проверки согласия опытного распределения с теоретическим. Часть II. Непараметрические критерии. — М.: ИПК Изд. стандартов, 2002. — 62 с.

7. Фаюстов А. А. Проверка гипотезы о нормальном распределении выборки по критерию согласия Пирсона средствами приложения Excel. — Законодательная и прикладная метрология, 2016, № 6. — С. 3–9.

Основные термины (генерируются автоматически): статистический анализ, критерий согласия, массив данных, вид функции распределения, интервал карманов, максимальное значение, минимальное значение, построение гистограммы, различный критерий согласия, стандартное отклонение.

В статье подробно показано, что такое нормальный закон распределения случайной величины и как им пользоваться при решении практически задач.

Нормальное распределение в статистике

История закона насчитывает 300 лет. Первым открывателем стал Абрахам де Муавр, который придумал аппроксимацию биномиального распределения еще 1733 году. Через много лет Карл Фридрих Гаусс (1809 г.) и Пьер-Симон Лаплас (1812 г.) вывели математические функции.

Лаплас также обнаружил замечательную закономерность и сформулировал центральную предельную теорему (ЦПТ), согласно которой сумма большого количества малых и независимых величин имеет нормальное распределение.

Нормальный закон не является фиксированным уравнением зависимости одной переменной от другой. Фиксируется только характер этой зависимости. Конкретная форма распределения задается специальными параметрами. Например, у = аx + b – это уравнение прямой. Однако где конкретно она проходит и под каким наклоном, определяется параметрами а и b. Также и с нормальным распределением. Ясно, что это функция, которая описывает тенденцию высокой концентрации значений около центра, но ее точная форма задается специальными параметрами.

Кривая нормального распределения Гаусса имеет следующий вид.

График плотности нормального распределения

График нормального распределения напоминает колокол, поэтому можно встретить название колоколообразная кривая. У графика имеется «горб» в середине и резкое снижение плотности по краям. В этом заключается суть нормального распределения. Вероятность того, что случайная величина окажется около центра гораздо выше, чем то, что она сильно отклонится от середины.

Различные вероятности у нормально распределенных данных

На рисунке выше изображены два участка под кривой Гаусса: синий и зеленый. Основания, т.е. интервалы, у обоих участков равны. Но заметно отличаются высоты. Синий участок удален от центра, и имеет существенно меньшую высоту, чем зеленый, который находится в самом центре распределения. Следовательно, отличаются и площади, то бишь вероятности попадания в обозначенные интервалы.

Формула нормального распределения (плотности) следующая.

Функция Гаусса

Формула состоит из двух математических констант:

π – число пи 3,142;

е – основание натурального логарифма 2,718;

двух изменяемых параметров, которые задают форму конкретной кривой:

m – математическое ожидание (в различных источниках могут использоваться другие обозначения, например, µ или a);

σ2 – дисперсия;

ну и сама переменная x, для которой высчитывается плотность вероятности.

Конкретная форма нормального распределения зависит от 2-х параметров: математического ожидания (m) и дисперсии (σ2). Кратко обозначается N(m, σ2) или N(m, σ). Параметр m (матожидание) определяет центр распределения, которому соответствует максимальная высота графика. Дисперсия σ2 характеризует размах вариации, то есть «размазанность» данных.

Параметр математического ожидания смещает центр распределения вправо или влево, не влияя на саму форму кривой плотности.

Влияние матожидания на нормальное распределение

А вот дисперсия определяет остроконечность кривой. Когда данные имеют малый разброс, то вся их масса концентрируется у центра. Если же у данных большой разброс, то они «размазываются» по широкому диапазону.

Влияние сигмы на нормальное распределение

Плотность распределения не имеет прямого практического применения. Для расчета вероятностей нужно проинтегрировать функцию плотности.

Вероятность того, что случайная величина окажется меньше некоторого значения x, определяется функцией нормального распределения:

Функция нормального распределения
Используя математические свойства любого непрерывного распределения, несложно рассчитать и любые другие вероятности, так как

P(a ≤ X < b) = Ф(b) – Ф(a)

Стандартное нормальное распределение

Нормальное распределение зависит от параметров средней и дисперсии, из-за чего плохо видны его свойства. Хорошо бы иметь некоторый эталон распределения, не зависящий от масштаба данных. И он существует. Называется стандартным нормальным распределением. На самом деле это обычное нормальное нормальное распределение, только с параметрами математического ожидания 0, а дисперсией – 1, кратко записывается N(0, 1).

Любое нормальное распределение легко превращается в стандартное путем нормирования:

Нормирование

где z – новая переменная, которая используется вместо x;
m – математическое ожидание;
σ – стандартное отклонение.

Для выборочных данных берутся оценки:

Нормирование по оценкам параметров

Среднее арифметическое и дисперсия новой переменной z теперь также равны 0 и 1 соответственно. В этом легко убедиться с помощью элементарных алгебраических преобразований.

В литературе встречается название z-оценка. Это оно самое – нормированные данные. Z-оценку можно напрямую сравнивать с теоретическими вероятностями, т.к. ее масштаб совпадает с эталоном.

Посмотрим теперь, как выглядит плотность стандартного нормального распределения (для z-оценок). Напомню, что функция Гаусса имеет вид:

Функция Гаусса

Подставим вместо (x-m)/σ букву z, а вместо σ – единицу, получим функцию плотности стандартного нормального распределения:

Плотность стандартного нормального распределения

График плотности:

График плотности стандартного нормального распределения

Центр, как и ожидалось, находится в точке 0. В этой же точке функция Гаусса достигает своего максимума, что соответствует принятию случайной величиной своего среднего значения (т.е. x-m=0). Плотность в этой точке равна 0,3989, что можно посчитать даже в уме, т.к. e0=1 и остается рассчитать только соотношение 1 на корень из 2 пи.

Таким образом, по графику хорошо видно, что значения, имеющие маленькие отклонения от средней, выпадают чаще других, а те, которые сильно отдалены от центра, встречаются значительно реже. Шкала оси абсцисс измеряется в стандартных отклонениях, что позволяет отвязаться от единиц измерения и получить универсальную структуру нормального распределения. Кривая Гаусса для нормированных данных отлично демонстрирует и другие свойства нормального распределения. Например, что оно является симметричным относительно оси ординат. В пределах ±1σ от средней арифметической сконцентрирована большая часть всех значений (прикидываем пока на глазок). В пределах ±2σ находятся большинство данных. В пределах ±3σ находятся почти все данные. Последнее свойство широко известно под названием правило трех сигм для нормального распределения.

Функция стандартного нормального распределения позволяет рассчитывать вероятности.

Функция стандартного нормального распределения

Понятное дело, вручную никто не считает. Все подсчитано и размещено в специальных таблицах, которые есть в конце любого учебника по статистике.

Таблица нормального распределения

Таблицы нормального распределения встречаются двух типов:

— таблица плотности;

— таблица функции (интеграла от плотности).

Таблица плотности используется редко. Тем не менее, посмотрим, как она выглядит. Допустим, нужно получить плотность для z = 1, т.е. плотность значения, отстоящего от матожидания на 1 сигму. Ниже показан кусок таблицы. 

Таблица плотности стандартного нормального распределения

В зависимости от организации данных ищем нужное значение по названию столбца и строки. В нашем примере берем строку 1,0 и столбец 0, т.к. сотых долей нет. Искомое значение равно 0,2420 (0 перед 2420 опущен). 

Функция Гаусса симметрична относительно оси ординат. Поэтому φ(z)= φ(-z), т.е. плотность для 1 тождественна плотности для -1, что отчетливо видно на рисунке.

График функции Гаусса

Чтобы не тратить зря бумагу, таблицы печатают только для положительных значений.

На практике чаще используют значения функции стандартного нормального распределения, то есть вероятности для различных z.

В таких таблицах также содержатся только положительные значения. Поэтому для понимания и нахождения любых нужных вероятностей следует знать свойства стандартного нормального распределения.

Функция Ф(z) симметрична относительно своего значения 0,5 (а не оси ординат, как плотность). Отсюда справедливо равенство:

Свойство 1

Это факт показан на картинке:

Свойство нормального распределения 1

Значения функции Ф(-z) и Ф(z) делят график на 3 части. Причем верхняя и нижняя части равны (обозначены галочками). Для того, чтобы дополнить вероятность Ф(z) до 1, достаточно добавить недостающую величину Ф(-z). Получится равенство, указанное чуть выше.

Если нужно отыскать вероятность попадания в интервал (0; z), то есть вероятность отклонения от нуля в положительную сторону до некоторого количества стандартных отклонений, достаточно от значения функции стандартного нормального распределения отнять 0,5:

Свойство 2

Для наглядности можно взглянуть на рисунок.

Свойство нормального распределения 2

На кривой Гаусса, эта же ситуация выглядит как площадь от центра вправо до z.

Свойство нормального распределения 2 на кривой Гаусса

Довольно часто аналитика интересует вероятность отклонения в обе стороны от нуля. А так как функция симметрична относительно центра, предыдущую формулу нужно умножить на 2:

Свойство 3

Рисунок ниже.

Свойство нормального распределения 3

Под кривой Гаусса это центральная часть, ограниченная выбранным значением –z слева и z справа.

Свойство нормального распределения 3 на кривой Гаусса

Указанные свойства следует принять во внимание, т.к. табличные значения редко соответствуют интересующему интервалу.

Для облегчения задачи в учебниках обычно публикуют таблицы для функции вида:

Функция стандартного нормального распределения

Если нужна вероятность отклонения в обе стороны от нуля, то, как мы только что убедились, табличное значение для данной функции просто умножается на 2.

Теперь посмотрим на конкретные примеры. Ниже показана таблица стандартного нормального распределения. Найдем табличные значения для трех z: 1,64, 1,96 и 3.

Таблица функции Лапласа

Как понять смысл этих чисел? Начнем с z=1,64, для которого табличное значение составляет 0,4495. Проще всего пояснить смысл на рисунке.

Значение функции Лапласа для z=1,64 в правую сторону

То есть вероятность того, что стандартизованная нормально распределенная случайная величина попадет в интервал от 0 до 1,64, равна 0,4495. При решении задач обычно нужно рассчитать вероятность отклонения в обе стороны, поэтому умножим величину 0,4495 на 2 и получим примерно 0,9. Занимаемая площадь под кривой Гаусса показана ниже.

Значение функции Лапласа для z=1,64 под кривой Гаусса

Таким образом, 90% всех нормально распределенных значений попадает в интервал ±1,64σ от средней арифметической. Я не случайно выбрал значение z=1,64, т.к. окрестность вокруг средней арифметической, занимающая 90% всей площади, иногда используется для проверки статистических гипотез и расчета доверительных интервалов. Если проверяемое значение не попадает в обозначенную область, то его наступление маловероятно (всего 10%).

Для проверки гипотез, однако, чаще используется интервал, накрывающий 95% всех значений. Половина вероятности от 0,95 – это 0,4750 (см. второе выделенное в таблице значение).

Значение функции Лапласа для z=1,96 в правую сторону

Для этой вероятности z=1,96. Т.е. в пределах почти ±2σ от средней находится 95% значений. Только 5% выпадают за эти пределы.

Значение функции Лапласа для z=1,96 под кривой Гаусса

Еще одно интересное и часто используемое табличное значение соответствует z=3, оно равно по нашей таблице 0,4986. Умножим на 2 и получим 0,997. Значит, в рамках ±3σ от средней арифметической заключены почти все значения.

Значение функции Лапласа для z=3 под кривой Гаусса

Так выглядит правило 3 сигм для нормального распределения на диаграмме.

С помощью статистических таблиц можно получить любую вероятность. Однако этот метод очень медленный, неудобный и сильно устарел. Сегодня все делается на компьютере. Далее переходим к практике расчетов в Excel.

В Excel есть несколько функций для подсчета вероятностей или обратных значений нормального распределения.

Функции нормального распределения в Excel

Функция НОРМ.СТ.РАСП

Функция НОРМ.СТ.РАСП предназначена для расчета плотности ϕ(z) или вероятности Φ(z) по нормированным данным (z).

=НОРМ.СТ.РАСП(z;интегральная)

z – значение стандартизованной переменной

интегральная – если 0, то рассчитывается плотность ϕ(z), если 1 – значение функции Ф(z), т.е. вероятность P(Z<z).

Рассчитаем плотность и значение функции для различных z: -3, -2, -1, 0, 1, 2, 3 (их укажем в ячейке А2).

Для расчета плотности потребуется формула =НОРМ.СТ.РАСП(A2;0). На диаграмме ниже – это красная точка.

Для расчета значения функции =НОРМ.СТ.РАСП(A2;1). На диаграмме – закрашенная площадь под нормальной кривой.

Расчет плотности и функции нормального распределения в Excel

В реальности чаще приходится рассчитывать вероятность того, что случайная величина не выйдет за некоторые пределы от средней (в среднеквадратичных отклонениях, соответствующих переменной z), т.е. P(|Z|<z).

Вероятность отклонения при заданном z

Определим, чему равна вероятность попадания случайной величины в пределы ±1z, ±2z и ±3z от нуля. Потребуется формула 2Ф(z)-1, в Excel =2*НОРМ.СТ.РАСП(A2;1)-1.

Расчет вероятности отклонения от средней

На диаграмме отлично видны основные основные свойства нормального распределения, включая правило трех сигм. Функция НОРМ.СТ.РАСП – это автоматическая таблица значений функции нормального распределения в Excel.

Может стоять и обратная задача: по имеющейся вероятности P(Z<z) найти стандартизованную величину z ,то есть квантиль стандартного нормального распределения.

Функция НОРМ.СТ.ОБР

НОРМ.СТ.ОБР рассчитывает обратное значение функции стандартного нормального распределения. Синтаксис состоит из одного параметра:

=НОРМ.СТ.ОБР(вероятность)

вероятность – это вероятность.

Данная формула используется так же часто, как и предыдущая, ведь по тем же таблицам искать приходится не только вероятности, но и квантили.

Обратная функция стандартного нормального распределения

Например, при расчете доверительных интервалов задается доверительная вероятность, по которой нужно рассчитать величину z.

Расчет предельного отклонения при нормальном распределении

Учитывая то, что доверительный интервал состоит из верхней и нижней границы и то, что нормальное распределение симметрично относительно нуля, достаточно получить верхнюю границу (положительное отклонение). Нижняя граница берется с отрицательным знаком. Обозначим доверительную вероятность как γ (гамма), тогда верхняя граница доверительного интервала рассчитывается по следующей формуле.

Формула расчета предельного отклонения с помощью обратной функции нормального стандартного распределения

Рассчитаем в Excel значения z (что соответствует отклонению от средней в сигмах) для нескольких вероятностей, включая те, которые наизусть знает любой статистик: 90%, 95% и 99%. В ячейке B2 укажем формулу: =НОРМ.СТ.ОБР((1+A2)/2). Меняя значение переменной (вероятности в ячейке А2) получим различные границы интервалов.

Расчет предельного отклонения при заданной вероятности

Доверительный интервал для 95% равен 1,96, то есть почти 2 среднеквадратичных отклонения. Отсюда легко даже в уме оценить возможный разброс нормальной случайной величины. В общем, доверительным вероятностям 90%, 95% и 99% соответствуют доверительные интервалы ±1,64, ±1,96 и ±2,58 σ.

В целом функции НОРМ.СТ.РАСП и НОРМ.СТ.ОБР позволяют произвести любой расчет, связанный с нормальным распределением. Но, чтобы облегчить и уменьшить количество действий, в Excel есть несколько других функций. Например, для расчета доверительных интервалов средней можно использовать ДОВЕРИТ.НОРМ. Для проверки статистической гипотезы о средней арифметической есть формула Z.ТЕСТ. 

Рассмотрим еще пару полезных формул с примерами.

Функция НОРМ.РАСП

Функция НОРМ.РАСП отличается от НОРМ.СТ.РАСП лишь тем, что ее используют для обработки данных любого масштаба, а не только нормированных. Параметры нормального распределения указываются в синтаксисе.

=НОРМ.РАСП(x;среднее;стандартное_откл;интегральная)

x – значение (или ссылка на ячейку), для которого рассчитывается плотность или значение функции нормального распределения

среднее – математическое ожидание, используемое в качестве первого параметра модели нормального распределения

стандартное_откл – среднеквадратичное отклонение – второй параметр модели

интегральная – если 0, то рассчитывается плотность, если 1 – то значение функции, т.е. P(X<x).

Например, плотность для значения 15, которое извлекли из нормальной выборки с матожиданием 10, стандартным отклонением 3, рассчитывается так:

Расчет плотности для нормальных данных

Если последний параметр поставить 1, то получим вероятность того, что нормальная случайная величина окажется меньше 15 при заданных параметрах распределения. Таким образом, вероятности можно рассчитывать напрямую по исходным данным.

Функция НОРМ.ОБР

Это квантиль нормального распределения, т.е. значение обратной функции. Синтаксис следующий.

=НОРМ.ОБР(вероятность;среднее;стандартное_откл)

вероятность – вероятность

среднее – матожидание

стандартное_откл – среднеквадратичное отклонение

Назначение то же, что и у НОРМ.СТ.ОБР, только функция работает с данными любого масштаба.

Пример показан в ролике в конце статьи.

Моделирование нормального распределения

Для некоторых задач требуется генерация нормальных случайных чисел. Готовой функции для этого нет. Однако В Excel есть две функции, которые возвращают случайные числа: СЛУЧМЕЖДУ и СЛЧИС. Первая выдает случайные равномерно распределенные целые числа в указанных пределах. Вторая функция генерирует равномерно распределенные случайные числа между 0 и 1. Чтобы сделать искусственную выборку с любым заданным распределением, нужна функция СЛЧИС

Допустим, для проведения эксперимента необходимо получить выборку из нормально распределенной генеральной совокупности с матожиданием 10 и стандартным отклонением 3. Для одного случайного значения напишем формулу в Excel.

=НОРМ.ОБР(СЛЧИС();10;3)

Протянем ее на необходимое количество ячеек и нормальная выборка готова.

Для моделирования стандартизованных данных следует воспользоваться НОРМ.СТ.ОБР.

Процесс преобразования равномерных чисел в нормальные можно показать на следующей диаграмме. От равномерных вероятностей, которые генерируются формулой СЛЧИС, проведены горизонтальные линии до графика функции нормального распределения. Затем от точек пересечения вероятностей с графиком опущены проекции на горизонтальную ось.

Преобразование равномерной случайной величины в нормальную

На выходе получаются значения с характерной концентрацией около центра. Вот так обратный прогон через функцию нормального распределения превращает равномерные числа в нормальные. Excel позволяет за несколько секунд воспроизвести любое количество выборок любого размера.

Как обычно, прилагаю ролик, где все вышеописанное показывается в действии.

Скачать файл с примером.

Поделиться в социальных сетях:

Like this post? Please share to your friends:
  • Excel четыре условия если
  • Excel четное нечетное значение
  • Excel четное или нечетное строка
  • Excel четное значение ячейки
  • Excel через формулу задать цвет