В статье подробно показано, что такое нормальный закон распределения случайной величины и как им пользоваться при решении практически задач.
Нормальное распределение в статистике
История закона насчитывает 300 лет. Первым открывателем стал Абрахам де Муавр, который придумал аппроксимацию биномиального распределения еще 1733 году. Через много лет Карл Фридрих Гаусс (1809 г.) и Пьер-Симон Лаплас (1812 г.) вывели математические функции.
Лаплас также обнаружил замечательную закономерность и сформулировал центральную предельную теорему (ЦПТ), согласно которой сумма большого количества малых и независимых величин имеет нормальное распределение.
Нормальный закон не является фиксированным уравнением зависимости одной переменной от другой. Фиксируется только характер этой зависимости. Конкретная форма распределения задается специальными параметрами. Например, у = аx + b – это уравнение прямой. Однако где конкретно она проходит и под каким наклоном, определяется параметрами а и b. Также и с нормальным распределением. Ясно, что это функция, которая описывает тенденцию высокой концентрации значений около центра, но ее точная форма задается специальными параметрами.
Кривая нормального распределения Гаусса имеет следующий вид.
График нормального распределения напоминает колокол, поэтому можно встретить название колоколообразная кривая. У графика имеется «горб» в середине и резкое снижение плотности по краям. В этом заключается суть нормального распределения. Вероятность того, что случайная величина окажется около центра гораздо выше, чем то, что она сильно отклонится от середины.
На рисунке выше изображены два участка под кривой Гаусса: синий и зеленый. Основания, т.е. интервалы, у обоих участков равны. Но заметно отличаются высоты. Синий участок удален от центра, и имеет существенно меньшую высоту, чем зеленый, который находится в самом центре распределения. Следовательно, отличаются и площади, то бишь вероятности попадания в обозначенные интервалы.
Формула нормального распределения (плотности) следующая.
Формула состоит из двух математических констант:
π – число пи 3,142;
е – основание натурального логарифма 2,718;
двух изменяемых параметров, которые задают форму конкретной кривой:
m – математическое ожидание (в различных источниках могут использоваться другие обозначения, например, µ или a);
σ2 – дисперсия;
ну и сама переменная x, для которой высчитывается плотность вероятности.
Конкретная форма нормального распределения зависит от 2-х параметров: математического ожидания (m) и дисперсии (σ2). Кратко обозначается N(m, σ2) или N(m, σ). Параметр m (матожидание) определяет центр распределения, которому соответствует максимальная высота графика. Дисперсия σ2 характеризует размах вариации, то есть «размазанность» данных.
Параметр математического ожидания смещает центр распределения вправо или влево, не влияя на саму форму кривой плотности.
А вот дисперсия определяет остроконечность кривой. Когда данные имеют малый разброс, то вся их масса концентрируется у центра. Если же у данных большой разброс, то они «размазываются» по широкому диапазону.
Плотность распределения не имеет прямого практического применения. Для расчета вероятностей нужно проинтегрировать функцию плотности.
Вероятность того, что случайная величина окажется меньше некоторого значения x, определяется функцией нормального распределения:
Используя математические свойства любого непрерывного распределения, несложно рассчитать и любые другие вероятности, так как
P(a ≤ X < b) = Ф(b) – Ф(a)
Стандартное нормальное распределение
Нормальное распределение зависит от параметров средней и дисперсии, из-за чего плохо видны его свойства. Хорошо бы иметь некоторый эталон распределения, не зависящий от масштаба данных. И он существует. Называется стандартным нормальным распределением. На самом деле это обычное нормальное нормальное распределение, только с параметрами математического ожидания 0, а дисперсией – 1, кратко записывается N(0, 1).
Любое нормальное распределение легко превращается в стандартное путем нормирования:
где z – новая переменная, которая используется вместо x;
m – математическое ожидание;
σ – стандартное отклонение.
Для выборочных данных берутся оценки:
Среднее арифметическое и дисперсия новой переменной z теперь также равны 0 и 1 соответственно. В этом легко убедиться с помощью элементарных алгебраических преобразований.
В литературе встречается название z-оценка. Это оно самое – нормированные данные. Z-оценку можно напрямую сравнивать с теоретическими вероятностями, т.к. ее масштаб совпадает с эталоном.
Посмотрим теперь, как выглядит плотность стандартного нормального распределения (для z-оценок). Напомню, что функция Гаусса имеет вид:
Подставим вместо (x-m)/σ букву z, а вместо σ – единицу, получим функцию плотности стандартного нормального распределения:
График плотности:
Центр, как и ожидалось, находится в точке 0. В этой же точке функция Гаусса достигает своего максимума, что соответствует принятию случайной величиной своего среднего значения (т.е. x-m=0). Плотность в этой точке равна 0,3989, что можно посчитать даже в уме, т.к. e0=1 и остается рассчитать только соотношение 1 на корень из 2 пи.
Таким образом, по графику хорошо видно, что значения, имеющие маленькие отклонения от средней, выпадают чаще других, а те, которые сильно отдалены от центра, встречаются значительно реже. Шкала оси абсцисс измеряется в стандартных отклонениях, что позволяет отвязаться от единиц измерения и получить универсальную структуру нормального распределения. Кривая Гаусса для нормированных данных отлично демонстрирует и другие свойства нормального распределения. Например, что оно является симметричным относительно оси ординат. В пределах ±1σ от средней арифметической сконцентрирована большая часть всех значений (прикидываем пока на глазок). В пределах ±2σ находятся большинство данных. В пределах ±3σ находятся почти все данные. Последнее свойство широко известно под названием правило трех сигм для нормального распределения.
Функция стандартного нормального распределения позволяет рассчитывать вероятности.
Понятное дело, вручную никто не считает. Все подсчитано и размещено в специальных таблицах, которые есть в конце любого учебника по статистике.
Таблица нормального распределения
Таблицы нормального распределения встречаются двух типов:
— таблица плотности;
— таблица функции (интеграла от плотности).
Таблица плотности используется редко. Тем не менее, посмотрим, как она выглядит. Допустим, нужно получить плотность для z = 1, т.е. плотность значения, отстоящего от матожидания на 1 сигму. Ниже показан кусок таблицы.
В зависимости от организации данных ищем нужное значение по названию столбца и строки. В нашем примере берем строку 1,0 и столбец 0, т.к. сотых долей нет. Искомое значение равно 0,2420 (0 перед 2420 опущен).
Функция Гаусса симметрична относительно оси ординат. Поэтому φ(z)= φ(-z), т.е. плотность для 1 тождественна плотности для -1, что отчетливо видно на рисунке.
Чтобы не тратить зря бумагу, таблицы печатают только для положительных значений.
На практике чаще используют значения функции стандартного нормального распределения, то есть вероятности для различных z.
В таких таблицах также содержатся только положительные значения. Поэтому для понимания и нахождения любых нужных вероятностей следует знать свойства стандартного нормального распределения.
Функция Ф(z) симметрична относительно своего значения 0,5 (а не оси ординат, как плотность). Отсюда справедливо равенство:
Это факт показан на картинке:
Значения функции Ф(-z) и Ф(z) делят график на 3 части. Причем верхняя и нижняя части равны (обозначены галочками). Для того, чтобы дополнить вероятность Ф(z) до 1, достаточно добавить недостающую величину Ф(-z). Получится равенство, указанное чуть выше.
Если нужно отыскать вероятность попадания в интервал (0; z), то есть вероятность отклонения от нуля в положительную сторону до некоторого количества стандартных отклонений, достаточно от значения функции стандартного нормального распределения отнять 0,5:
Для наглядности можно взглянуть на рисунок.
На кривой Гаусса, эта же ситуация выглядит как площадь от центра вправо до z.
Довольно часто аналитика интересует вероятность отклонения в обе стороны от нуля. А так как функция симметрична относительно центра, предыдущую формулу нужно умножить на 2:
Рисунок ниже.
Под кривой Гаусса это центральная часть, ограниченная выбранным значением –z слева и z справа.
Указанные свойства следует принять во внимание, т.к. табличные значения редко соответствуют интересующему интервалу.
Для облегчения задачи в учебниках обычно публикуют таблицы для функции вида:
Если нужна вероятность отклонения в обе стороны от нуля, то, как мы только что убедились, табличное значение для данной функции просто умножается на 2.
Теперь посмотрим на конкретные примеры. Ниже показана таблица стандартного нормального распределения. Найдем табличные значения для трех z: 1,64, 1,96 и 3.
Как понять смысл этих чисел? Начнем с z=1,64, для которого табличное значение составляет 0,4495. Проще всего пояснить смысл на рисунке.
То есть вероятность того, что стандартизованная нормально распределенная случайная величина попадет в интервал от 0 до 1,64, равна 0,4495. При решении задач обычно нужно рассчитать вероятность отклонения в обе стороны, поэтому умножим величину 0,4495 на 2 и получим примерно 0,9. Занимаемая площадь под кривой Гаусса показана ниже.
Таким образом, 90% всех нормально распределенных значений попадает в интервал ±1,64σ от средней арифметической. Я не случайно выбрал значение z=1,64, т.к. окрестность вокруг средней арифметической, занимающая 90% всей площади, иногда используется для проверки статистических гипотез и расчета доверительных интервалов. Если проверяемое значение не попадает в обозначенную область, то его наступление маловероятно (всего 10%).
Для проверки гипотез, однако, чаще используется интервал, накрывающий 95% всех значений. Половина вероятности от 0,95 – это 0,4750 (см. второе выделенное в таблице значение).
Для этой вероятности z=1,96. Т.е. в пределах почти ±2σ от средней находится 95% значений. Только 5% выпадают за эти пределы.
Еще одно интересное и часто используемое табличное значение соответствует z=3, оно равно по нашей таблице 0,4986. Умножим на 2 и получим 0,997. Значит, в рамках ±3σ от средней арифметической заключены почти все значения.
Так выглядит правило 3 сигм для нормального распределения на диаграмме.
С помощью статистических таблиц можно получить любую вероятность. Однако этот метод очень медленный, неудобный и сильно устарел. Сегодня все делается на компьютере. Далее переходим к практике расчетов в Excel.
В Excel есть несколько функций для подсчета вероятностей или обратных значений нормального распределения.
Функция НОРМ.СТ.РАСП
Функция НОРМ.СТ.РАСП предназначена для расчета плотности ϕ(z) или вероятности Φ(z) по нормированным данным (z).
=НОРМ.СТ.РАСП(z;интегральная)
z – значение стандартизованной переменной
интегральная – если 0, то рассчитывается плотность ϕ(z), если 1 – значение функции Ф(z), т.е. вероятность P(Z<z).
Рассчитаем плотность и значение функции для различных z: -3, -2, -1, 0, 1, 2, 3 (их укажем в ячейке А2).
Для расчета плотности потребуется формула =НОРМ.СТ.РАСП(A2;0). На диаграмме ниже – это красная точка.
Для расчета значения функции =НОРМ.СТ.РАСП(A2;1). На диаграмме – закрашенная площадь под нормальной кривой.
В реальности чаще приходится рассчитывать вероятность того, что случайная величина не выйдет за некоторые пределы от средней (в среднеквадратичных отклонениях, соответствующих переменной z), т.е. P(|Z|<z).
Определим, чему равна вероятность попадания случайной величины в пределы ±1z, ±2z и ±3z от нуля. Потребуется формула 2Ф(z)-1, в Excel =2*НОРМ.СТ.РАСП(A2;1)-1.
На диаграмме отлично видны основные основные свойства нормального распределения, включая правило трех сигм. Функция НОРМ.СТ.РАСП – это автоматическая таблица значений функции нормального распределения в Excel.
Может стоять и обратная задача: по имеющейся вероятности P(Z<z) найти стандартизованную величину z ,то есть квантиль стандартного нормального распределения.
Функция НОРМ.СТ.ОБР
НОРМ.СТ.ОБР рассчитывает обратное значение функции стандартного нормального распределения. Синтаксис состоит из одного параметра:
=НОРМ.СТ.ОБР(вероятность)
вероятность – это вероятность.
Данная формула используется так же часто, как и предыдущая, ведь по тем же таблицам искать приходится не только вероятности, но и квантили.
Например, при расчете доверительных интервалов задается доверительная вероятность, по которой нужно рассчитать величину z.
Учитывая то, что доверительный интервал состоит из верхней и нижней границы и то, что нормальное распределение симметрично относительно нуля, достаточно получить верхнюю границу (положительное отклонение). Нижняя граница берется с отрицательным знаком. Обозначим доверительную вероятность как γ (гамма), тогда верхняя граница доверительного интервала рассчитывается по следующей формуле.
Рассчитаем в Excel значения z (что соответствует отклонению от средней в сигмах) для нескольких вероятностей, включая те, которые наизусть знает любой статистик: 90%, 95% и 99%. В ячейке B2 укажем формулу: =НОРМ.СТ.ОБР((1+A2)/2). Меняя значение переменной (вероятности в ячейке А2) получим различные границы интервалов.
Доверительный интервал для 95% равен 1,96, то есть почти 2 среднеквадратичных отклонения. Отсюда легко даже в уме оценить возможный разброс нормальной случайной величины. В общем, доверительным вероятностям 90%, 95% и 99% соответствуют доверительные интервалы ±1,64, ±1,96 и ±2,58 σ.
В целом функции НОРМ.СТ.РАСП и НОРМ.СТ.ОБР позволяют произвести любой расчет, связанный с нормальным распределением. Но, чтобы облегчить и уменьшить количество действий, в Excel есть несколько других функций. Например, для расчета доверительных интервалов средней можно использовать ДОВЕРИТ.НОРМ. Для проверки статистической гипотезы о средней арифметической есть формула Z.ТЕСТ.
Рассмотрим еще пару полезных формул с примерами.
Функция НОРМ.РАСП
Функция НОРМ.РАСП отличается от НОРМ.СТ.РАСП лишь тем, что ее используют для обработки данных любого масштаба, а не только нормированных. Параметры нормального распределения указываются в синтаксисе.
=НОРМ.РАСП(x;среднее;стандартное_откл;интегральная)
x – значение (или ссылка на ячейку), для которого рассчитывается плотность или значение функции нормального распределения
среднее – математическое ожидание, используемое в качестве первого параметра модели нормального распределения
стандартное_откл – среднеквадратичное отклонение – второй параметр модели
интегральная – если 0, то рассчитывается плотность, если 1 – то значение функции, т.е. P(X<x).
Например, плотность для значения 15, которое извлекли из нормальной выборки с матожиданием 10, стандартным отклонением 3, рассчитывается так:
Если последний параметр поставить 1, то получим вероятность того, что нормальная случайная величина окажется меньше 15 при заданных параметрах распределения. Таким образом, вероятности можно рассчитывать напрямую по исходным данным.
Функция НОРМ.ОБР
Это квантиль нормального распределения, т.е. значение обратной функции. Синтаксис следующий.
=НОРМ.ОБР(вероятность;среднее;стандартное_откл)
вероятность – вероятность
среднее – матожидание
стандартное_откл – среднеквадратичное отклонение
Назначение то же, что и у НОРМ.СТ.ОБР, только функция работает с данными любого масштаба.
Пример показан в ролике в конце статьи.
Моделирование нормального распределения
Для некоторых задач требуется генерация нормальных случайных чисел. Готовой функции для этого нет. Однако В Excel есть две функции, которые возвращают случайные числа: СЛУЧМЕЖДУ и СЛЧИС. Первая выдает случайные равномерно распределенные целые числа в указанных пределах. Вторая функция генерирует равномерно распределенные случайные числа между 0 и 1. Чтобы сделать искусственную выборку с любым заданным распределением, нужна функция СЛЧИС.
Допустим, для проведения эксперимента необходимо получить выборку из нормально распределенной генеральной совокупности с матожиданием 10 и стандартным отклонением 3. Для одного случайного значения напишем формулу в Excel.
=НОРМ.ОБР(СЛЧИС();10;3)
Протянем ее на необходимое количество ячеек и нормальная выборка готова.
Для моделирования стандартизованных данных следует воспользоваться НОРМ.СТ.ОБР.
Процесс преобразования равномерных чисел в нормальные можно показать на следующей диаграмме. От равномерных вероятностей, которые генерируются формулой СЛЧИС, проведены горизонтальные линии до графика функции нормального распределения. Затем от точек пересечения вероятностей с графиком опущены проекции на горизонтальную ось.
На выходе получаются значения с характерной концентрацией около центра. Вот так обратный прогон через функцию нормального распределения превращает равномерные числа в нормальные. Excel позволяет за несколько секунд воспроизвести любое количество выборок любого размера.
Как обычно, прилагаю ролик, где все вышеописанное показывается в действии.
Скачать файл с примером.
Поделиться в социальных сетях:
В статистике колоколообразная кривая (также известная как стандартное нормальное распределение или кривая Гаусса) представляет собой симметричный график, который иллюстрирует тенденцию данных к кластеризации вокруг центрального значения или среднего значения в данном наборе данных.
Ось Y представляет относительную вероятность появления данного значения в наборе данных, в то время как ось X отображает сами значения на диаграмме, чтобы создать колоколообразную кривую, отсюда и название.
График помогает нам проанализировать, является ли конкретное значение частью ожидаемой вариации или статистически значимым и, следовательно, требует более внимательного изучения.
Поскольку в Excel нет встроенных решений, вам придется построить график самостоятельно. Вот почему мы разработали надстройку Chart Creator — инструмент, который позволяет создавать расширенные диаграммы Excel всего за несколько щелчков мышью.
В этом пошаговом руководстве вы узнаете, как с нуля создать кривую нормального распределения в Excel:
Чтобы построить кривую Гаусса, вам нужно знать две вещи:
- Значение (также известное как стандартное измерение). Это определяет центр кривой, который, в свою очередь, характеризует положение кривой.
- Стандартное отклонение (SD) измерений. Это определяет разброс ваших данных в нормальном распределении — или, говоря простым языком, насколько широкой должна быть кривая. Например, на приведенной выше колоколообразной кривой одно стандартное отклонение среднего представляет собой диапазон между оценками экзамена от 53 до 85.
Чем ниже SD, тем выше кривая и меньше будут разбросаны ваши данные, и наоборот.
Стоит упомянуть правило 68-95-99,7, которое можно применить к любой кривой нормального распределения, что означает, что примерно 68% ваших данных будет размещено в пределах одного стандартного отклонения от среднего, 95% — в пределах двух стандартных отклонений и 99,7% — в пределах. три SD.
Теперь, когда вы знаете основы, давайте перейдем от теории к практике.
Начиная
В целях иллюстрации предположим, что у вас есть результаты теста 200 учеников и вы хотите выставить им оценки «по кривой», то есть оценки учеников будут основаны на их относительной успеваемости по отношению к остальной части класса:
Шаг № 1: Найдите среднее значение.
Как правило, вам с самого начала задаются среднее значение и стандартное отклонение, но если это не так, вы можете легко вычислить эти значения всего за несколько простых шагов. Давайте сначала разберемся со средним.
Поскольку среднее значение указывает среднее значение выборки или совокупности данных, вы можете найти стандартное измерение, используя функцию СРЕДНЕЕ.
Введите следующую формулу в любую пустую ячейку (F1 в этом примере) рядом с вашими фактическими данными (столбцы A а также B), чтобы вычислить среднее значение экзаменационных баллов в наборе данных:
Небольшое примечание: чаще всего вам может потребоваться округлить вывод формулы в большую сторону. Для этого просто оберните его функцией ROUND следующим образом:
1 | = ОКРУГЛ (СРЕДНИЙ (B2: B201); 0) |
Шаг № 2: Найдите стандартное отклонение.
Один упал, один остался. К счастью, в Excel есть специальная функция, которая сделает за вас всю грязную работу по поиску стандартного отклонения:
1 | = СТАНДОТКЛОН.P (B2: B201) |
Опять же, формула выбирает все значения из указанного диапазона ячеек (B2: B201) и вычисляет его стандартное отклонение — не забудьте также округлить результат.
1 | = ОКРУГЛ (СТАНДОТКЛОН.P (B2: B201); 0) |
Шаг № 3: Установите значения оси X для кривой.
По сути, диаграмма представляет собой огромное количество интервалов (представьте их как шаги), соединенных линией, чтобы создать плавную кривую.
В нашем случае значения оси X будут использоваться для иллюстрации конкретной оценки экзамена, а значения оси Y будут указывать нам вероятность того, что студент получит этот результат на экзамене.
Технически вы можете включить столько интервалов, сколько захотите — вы можете легко стереть избыточные данные позже, изменив масштаб горизонтальной оси. Просто убедитесь, что вы выбрали диапазон, включающий три стандартных отклонения.
Давайте начнем подсчет с одного (так как студент не может получить отрицательный результат на экзамене) и дойдем до 150 — неважно, 150 это или 1500 — чтобы создать еще одну вспомогательную таблицу.
- Выберите любую пустую ячейку под данными диаграммы (например, E4) и введите “1,” значение, определяющее первый интервал.
- Перейдите к Дом таб.
- в Редактирование группа, выберите «Наполнять.”
- Под «Серия в,» Выбрать «Столбец.”
- Для «Значение шага,» тип “1.” Это значение определяет приращения, которые будут автоматически добавляться, пока Excel не достигнет последнего интервала.
- Для «Стоп-значение,» тип «150,” значение, которое соответствует последнему интервалу, и нажмите «OK.”
Чудом 149 ячеек в столбце E (E5: E153) были заполнены значениями от 2 до 150.
ПРИМЕЧАНИЕ. Не скрывайте исходные ячейки данных, как показано на снимках экрана.. В противном случае методика не сработает.
Шаг №4: Вычислите значения нормального распределения для каждого значения оси x.
Теперь найдите значения нормального распределения — вероятность того, что студент получит определенный балл за экзамен, представленный определенным значением оси X — для каждого из интервалов. К счастью для вас, в Excel есть рабочая лошадка для выполнения всех этих вычислений: функция НОРМ.РАСП.
Введите следующую формулу в ячейку справа (F4) вашего первого интервала (E4):
1 | = НОРМ.РАСП (E4; $ F $ 1; $ F $ 2; ЛОЖЬ) |
Вот декодированная версия, которая поможет вам соответствующим образом настроить:
1 | = НОРМ.РАСП ([первый интервал], [среднее (абсолютное значение)], [стандартное отклонение (абсолютное значение), ЛОЖЬ) |
Вы блокируете среднее значение и стандартное отклонение, чтобы можно было легко выполнить формулу для оставшихся интервалов (E5: E153).
Теперь дважды щелкните маркер заполнения, чтобы скопировать формулу в остальные ячейки (F5: F153).
Шаг № 5: Создайте диаграмму рассеяния с плавными линиями.
Наконец, пришло время строить колоколообразную кривую:
- Выберите любое значение в вспомогательной таблице, содержащей значения осей x и y (E4: F153).
- Перейти к Вставлять таб.
- Щелкните значок «Вставить точечную (X, Y) или пузырьковую диаграмму» кнопка.
- Выбирать «Разброс с плавными линиями ».
Шаг № 6: Настройте таблицу меток.
Технически у вас есть кривая колокола. Но его будет трудно прочитать, поскольку в нем отсутствуют какие-либо данные, описывающие это.
Давайте сделаем нормальное распределение более информативным, добавив метки, иллюстрирующие все значения стандартного отклонения ниже и выше среднего (вы также можете использовать их для отображения z-значений).
Для этого создайте еще одну вспомогательную таблицу следующим образом:
Сначала скопируйте среднее значение (F1) рядом с соответствующей ячейкой в столбце X-Value (I5).
Затем вычислите значения стандартного отклонения ниже среднего, введя эту простую формулу в ячейка I4:
Проще говоря, формула вычитает сумму предыдущих значений стандартного отклонения из среднего. Теперь перетащите маркер заполнения вверх, чтобы скопировать формулу в оставшиеся две ячейки (I2: I3).
Повторите тот же процесс для стандартных отклонений выше среднего, используя зеркальную формулу:
Таким же образом выполните формулу для двух других ячеек (I7: I8).
Наконец, заполните значения метки оси Y (J2: J8) с нулями, так как вы хотите, чтобы маркеры данных располагались на горизонтальной оси.
Шаг № 7: Вставьте данные метки в диаграмму.
Теперь добавьте все данные, которые вы подготовили. Щелкните правой кнопкой мыши график и выберите «Выберите данные.”
В появившемся диалоговом окне выберите «Добавлять.”
Выделите соответствующие диапазоны ячеек из вспомогательной таблицы —I2: I8 для «Значения серии X» а также J2: J8 для «Значения серии Y »-и нажмите «OK.”
Шаг № 8: Измените тип диаграммы для серии этикеток.
Наш следующий шаг — изменить тип диаграммы недавно добавленной серии, чтобы маркеры данных отображались в виде точек. Для этого щелкните правой кнопкой мыши график диаграммы и выберите «Изменить тип диаграммы.”
Затем создайте комбинированную диаграмму:
- Перейдите к Комбо таб.
- Для Серия «Series2», изменение «Тип диаграммы» к «Разброс.”
- Примечание. Убедитесь, что «Серия1»Остается как«Скаттер с плавными линиями. » Иногда Excel изменяет его, когда вы делаете Комбо Также убедитесь, что «Серия1”Не перемещается на вторичную ось — флажок рядом с типом диаграммы не должен быть отмечен.
- Нажмите «Ok.”
Шаг № 9: Измените масштаб горизонтальной оси.
Отцентрируйте диаграмму на колоколообразной кривой, отрегулировав масштаб горизонтальной оси. Щелкните правой кнопкой мыши горизонтальную ось и выберите «Ось формата»Из меню.
Когда появится панель задач, сделайте следующее:
- Перейти к Параметры оси таб.
- Установить Минимальные границы значение «15.”
- Установить Максимальные границы значение «125.”
Вы можете настроить диапазон шкалы оси по своему усмотрению, но, поскольку вы знаете диапазоны стандартного отклонения, установите значения границ немного дальше от каждого из ваших третьих стандартных отклонений, чтобы показать «хвост» кривой.
Шаг № 10: Вставьте и разместите метки пользовательских данных.
По мере того, как вы совершенствуете свою диаграмму, не забудьте добавить пользовательские метки данных. Сначала щелкните правой кнопкой мыши любую точку, представляющую Серия «Series2» и выберите «Добавьте метки данных.”
Затем замените метки по умолчанию на те, которые вы установили ранее, и поместите их над маркерами данных.
- Щелкните правой кнопкой мыши на любом Серия «Series2» метка данных.
- Выбирать «Отформатируйте метки данных.”
- На панели задач переключитесь на Параметры метки таб.
- Проверить «Значение X» коробка.
- Снимите флажок «Значение Y» коробка.
- Под «Положение ярлыка,» выбирать «Выше.”
Кроме того, теперь вы можете удалить линии сетки (щелкните их правой кнопкой мыши> Удалить).
Шаг № 11: Перекрасить маркеры данных (необязательно).
Наконец, перекрасьте точки, чтобы они соответствовали вашему стилю диаграммы.
- Щелкните правой кнопкой мыши любой Серия «Series2» метка данных.
- Щелкните значок «Наполнять» кнопка.
- Выберите свой цвет из появившейся палитры.
Также удалите границы вокруг точек:
- Снова щелкните правой кнопкой мыши тот же маркер данных и выберите «Контур.”
- Выбирать «Без контура.”
Шаг № 12: Добавьте вертикальные линии (необязательно).
В качестве окончательной настройки вы можете добавить на диаграмму вертикальные линии, чтобы подчеркнуть значения SD.
- Выберите график диаграммы (таким образом линии будут вставлены прямо в диаграмму).
- Перейти к Вставлять таб.
- Щелкните значок «Формы» кнопка.
- Выбирать «Линия.”
Удерживайте «СДВИГ» при перетаскивании мыши, чтобы нарисовать идеально вертикальные линии от каждой точки до того места, где каждая линия пересекается с колоколообразной кривой.
Измените заголовок диаграммы, и ваша улучшенная кривая колокола будет готова отображать ваши ценные данные о распределении.
И вот как вы это делаете. Теперь вы можете выбрать любой набор данных и создать колоколообразную кривую нормального распределения, выполнив эти простые шаги!
Как сделать график распределения в excel?
Очень давно не писал блог. Расслабился совсем. Ну ничего, исправляюсь.
Продолжаю новую рубрику блога, посвященную анализу данных с помощью всем известного Microsoft Excel.
В современном мире к статистике проявляется большой интерес, поскольку это отличный инструмент для анализа и принятия решений, а также это отличное средство для поиска причин нарушений процесса и их устранения. Статистический анализ применим во многих сферах, где существуют большие массивы данных: естественно, в первую очередь я скажу, что металлургии, а также в экономике, биологии, политике, социологии и… много где еще. Статья эта будет, как несложно догадаться по ее названию, про использование некоторых средств статистического анализа, а именно — гистограммам.
Ну, поехали.
Статистический анализ в Excel можно осуществлять двумя способами:
• С помощью функций
• С помощью средств надстройки «Пакет анализа». Ее, как правило, еще необходимо установить.
Чтобы установить пакет анализа в Excel, выберите вкладку «Файл» (а в Excel 2007 это круглая цветная кнопка слева сверху), далее — «Параметры», затем выберите раздел «Надстройки». Нажмите «Перейти» и поставьте галочку напротив «Пакет анализа».
А теперь — к построению гистограмм распределения по частоте и их анализу.
Речь пойдет именно о частотных гистограммах, где каждый столбец соответствует частоте появления* значения в пределах границ интервалов. Например, мы хотим посмотреть, как у нас выглядит распределение значения предела текучести стали S355J2 в прокате толщиной 20 мм за несколько месяцев. В общем, хотим посмотреть, похоже ли наше распределение на нормальное (а оно должно быть таким).
*Примечание: для металловедческих целей типа оценки размера зерна или оценки объемной доли частиц этот вид гистограмм не пойдет, т.к. там высота столбика соответствует не частоте появления частиц определенного размера, а доле объема (а в плоскости шлифа — площади), которую эти частицы занимают.
График нормального распределения выглядит следующим образом:
График функции Гаусса
Мы знаем, что реально такой график может быть получен только при бесконечно большом количестве измерений. Реально же для конечного числа измерений строят гистограмму, которая внешне похожа на график нормального распределения и при увеличении количества измерений приближается к графику нормального распределения (распределения Гаусса).
Построение гистограмм с помощью программ типа Excel является очень быстрым способом проверки стабильности работы оборудования и добросовестности коллектива: если получим «кривую» гистограмму, значит, либо прибор не исправен или мы данные неверно собрали, либо кто-то где-то преднамеренно мухлюет или же просто неверно использует оборудование.
А теперь — построение гистограмм!
Способ 1-ый. Халявный.
- Идем во вкладку «Анализ данных» и выбираем «Гистограмма».
- Выбираем входной интервал.
- Здесь же предлагается задать интервал карманов, т.е. те диапазоны, в пределах которых будут лежать наши значения. Чем больше значений в интервале — тем выше столбик гистограммы. Если мы оставим поле «Интервалы карманов» пустым, то программа вычислит границы интервалов за нас.
- Если хотим сразу же вывести график,то ставим галочку напротив «Вывод графика».
- Нажимаем «ОК».
- Вот, вроде бы, и все: гистограмма готова. Теперь нужно сделать так, чтобы по вертикальной оси отображалась не абсолютная частота, а относительная.
- Под появившейся таблицей со столбцами «Карман» и «Частота» под столбцом «Частота» введем формулу «=СУММ» и сложим все абсолютные частоты.
- К появившейся таблице со столбцами «Карман» и «Частота» добавим еще один столбец и назовем его «Относительная частота».
- Во всех ячейках нового столбца введем формулу, которая будет рассчитывать относительную частоту: 100 умножить на абсолютную частоту (ячейка из столбца «частота») и разделить на сумму, которую мы вычислил в п. 7.
Способ 2-ой. Трудный, но интересный.
Будет полезен тому, кто по каким-либо причинам не смог установить Пакет анализа.
- Перво-наперво нужно задать интервалы тех самых карманов, которые мы не стали вычислять в способе, описанном выше.
- Интервал карманов вычисляют так: разность максимального значения и минимального значений массива, деленная на количество интервалов: (Xmax-Xmin)/n.
Для оценки оптимального для нашего массива данных количества интервалов можно воспользоваться формулой Стерджесса: n
Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter.
Поделиться ссылкой:
Так как я часто имею дело с большим количеством данных, у меня время от времени возникает необходимость генерировать массивы значений для проверки моделей в Excel. К примеру, если я хочу увидеть распределение веса продукта с определенным стандартным отклонением, потребуются некоторые усилия, чтобы привести результат работы формулы СЛУЧМЕЖДУ() в нормальный вид. Дело в том, что формула СЛУЧМЕЖДУ() выдает числа с единым распределением, т.е. любое число с одинаковой долей вероятности может оказаться как у нижней, так и у верхней границы запрашиваемого диапазона. Такое положение дел не соответствует действительности, так как вероятность возникновения продукта уменьшается по мере отклонения от целевого значения. Т.е. если я произвожу продукт весом 100 грамм, вероятность, что я произведу 97-ми или 103-граммовый продукт меньше, чем 100 грамм. Вес большей части произведенной продукции будет сосредоточен рядом с целевым значением. Такое распределение называется нормальным. Если построить график, где по оси Y отложить вес продукта, а по оси X – количество произведенного продукта, график будет иметь колоколообразный вид, где наивысшая точка будет соответствовать целевому значению.
Таким образом, чтобы привести массив, выданный формулой СЛУЧМЕЖДУ(), в нормальный вид, мне приходилось ручками исправлять пограничные значения на близкие к целевым. Такое положение дел меня, естественно, не устраивало, поэтому, покопавшись в интернете, открыл интересный способ создания массива данных с нормальным распределением. В сегодняшней статье описан способ генерации массива и построения графика с нормальным распределением.
Характеристики нормального распределения
Непрерывная случайная переменная, которая подчиняется нормальному распределению вероятностей, обладает некоторыми особыми свойствами. Предположим, что вся производимая продукция подчиняется нормальному распределению со средним значением 100 грамм и стандартным отклонением 3 грамма. Распределение вероятностей для такой случайной переменной представлено на рисунке.
Из этого рисунка мы можем сделать следующие наблюдения относительно нормального распределения — оно имеет форму колокола и симметрично относительно среднего значения.
Стандартное отклонение имеет немаловажную роль в форме изгиба. Если посмотреть на предыдущий рисунок, то можно заметить, что практически все измерения веса продукта попадают в интервал от 95 до 105 граммов. Давайте рассмотрим следующий рисунок, на котором представлено нормальное распределение с той же средней – 100 грамм, но со стандартным отклонением всего 1,5 грамма
Здесь вы видите, что измерения значительно плотней прилегают к среднему значению. Почти все производимые продукты попадают в интервал от 97 до 102 грамм.
Небольшое значение стандартного отклонения выражается в более «тощей и высокой кривой, плотно прижимающейся к среднему значению. Чем больше стандартное, тем «толще», ниже и растянутее получается кривая.
Создание массива с нормальным распределением
Итак, чтобы сгенерировать массив данных с нормальным распределением, нам понадобится функция НОРМ.ОБР() – это обратная функция от НОРМ.РАСП(), которая возвращает нормально распределенную переменную для заданной вероятности для определенного среднего значения и стандартного отклонения. Синтаксис формулы выглядит следующим образом:
=НОРМ.ОБР(вероятность; среднее_значение; стандартное_отклонение)
Другими словами, я прошу Excel посчитать, какая переменная будет находится в вероятностном промежутке от 0 до 1. И так как вероятность возникновения продукта с весом в 100 грамм максимальная и будет уменьшаться по мере отдаления от этого значения, то формула будет выдавать значения близких к 100 чаще, чем остальных.
Давайте попробуем разобрать на примере. Выстроим график распределения вероятностей от 0 до 1 с шагом 0,01 для среднего значения равным 100 и стандартным отклонением 1,5.
Как видим из графика точки максимально сконцентрированы у переменной 100 и вероятности 0,5.
Этот фокус мы используем для генерирования случайного массива данных с нормальным распределением. Формула будет выглядеть следующим образом:
=НОРМ.ОБР(СЛЧИС(); среднее_значение; стандартное_отклонение)
Создадим массив данных для нашего примера со средним значением 100 грамм и стандартным отклонением 1,5 грамма и протянем нашу формулу вниз.
Теперь, когда массив данных готов, мы можем выстроить график с нормальным распределением.
Построение графика нормального распределения
Прежде всего необходимо разбить наш массив на периоды. Для этого определяем минимальное и максимальное значение, размер каждого периода или шаг, с которым будет увеличиваться период.
Далее строим таблицу с категориями. Нижняя граница (B11) равняется округленному вниз ближайшему кратному числу. Остальные категории увеличиваются на значение шага. Формула в ячейке B12 и последующих будет выглядеть:
В столбце X будет производится подсчет количества переменных в заданном промежутке. Для этого воспользуемся формулой ЧАСТОТА(), которая имеет два аргумента: массив данных и массив интервалов. Выглядеть формула будет следующим образом =ЧАСТОТА(Data!A1:A175;B11:B20). Также стоит отметить, что в таком варианте данная функция будет работать как формула массива, поэтому по окончании ввода необходимо нажать сочетание клавиш Ctrl+Shift+Enter.
Таким образом у нас получилась таблица с данными, с помощью которой мы сможем построить диаграмму с нормальным распределением. Воспользуемся диаграммой вида Гистограмма с группировкой, где по оси значений будет отложено количество переменных в данном промежутке, а по оси категорий – периоды.
Осталось отформатировать диаграмму и наш график с нормальным распределением готов.
Итак, мы познакомились с вами с нормальным распределением, узнали, что Excel позволяет генерировать массив данных с помощью формулы НОРМ.ОБР() для определенного среднего значения и стандартного отклонения и научились приводить данный массив в графический вид.
Для лучшего понимания, вы можете скачать файл с примером построения нормального распределения.
Построим диаграмму распределения в Excel. А также рассмотрим подробнее функции круговых диаграмм, их создание.
Как построить диаграмму распределения в Excel
График нормального распределения имеет форму колокола и симметричен относительно среднего значения. Получить такое графическое изображение можно только при огромном количестве измерений. В Excel для конечного числа измерений принято строить гистограмму.
Внешне столбчатая диаграмма похожа на график нормального распределения. Построим столбчатую диаграмму распределения осадков в Excel и рассмотрим 2 способа ее построения.
Имеются следующие данные о количестве выпавших осадков:
Первый способ. Открываем меню инструмента «Анализ данных» на вкладке «Данные» (если у Вас не подключен данный аналитический инструмент, тогда читайте как его подключить в настройках Excel):
Задаем входной интервал (столбец с числовыми значениями). Поле «Интервалы карманов» оставляем пустым: Excel сгенерирует автоматически. Ставим птичку около записи «Вывод графика»:
После нажатия ОК получаем такой график с таблицей:
В интервалах не очень много значений, поэтому столбики гистограммы получились низкими.
Теперь необходимо сделать так, чтобы по вертикальной оси отображались относительные частоты.
Найдем сумму всех абсолютных частот (с помощью функции СУММ). Сделаем дополнительный столбец «Относительная частота». В первую ячейку введем формулу:
Способ второй. Вернемся к таблице с исходными данными. Вычислим интервалы карманов. Сначала найдем максимальное значение в диапазоне температур и минимальное.
Чтобы найти интервал карманов, нужно разность максимального и минимального значений массива разделить на количество интервалов. Получим «ширину кармана».
Представим интервалы карманов в виде столбца значений. Сначала ширину кармана прибавляем к минимальному значению массива данных. В следующей ячейке – к полученной сумме. И так далее, пока не дойдем до максимального значения.
Для определения частоты делаем столбец рядом с интервалами карманов. Вводим функцию массива:
Вычислим относительные частоты (как в предыдущем способе).
Построим столбчатую диаграмму распределения осадков в Excel с помощью стандартного инструмента «Диаграммы».
Частота распределения заданных значений:
Круговые диаграммы для иллюстрации распределения
С помощью круговой диаграммы можно иллюстрировать данные, которые находятся в одном столбце или одной строке. Сегмент круга – это доля каждого элемента массива в сумме всех элементов.
С помощью любой круговой диаграммы можно показать распределение в том случае, если
- имеется только один ряд данных;
- все значения положительные;
- практически все значения выше нуля;
- не более семи категорий;
- каждая категория соответствует сегменту круга.
На основании имеющихся данных о количестве осадков построим круговую диаграмму.
Доля «каждого месяца» в общем количестве осадков за год:
Круговая диаграмма распределения осадков по сезонам года лучше смотрится, если данных меньше. Найдем среднее количество осадков в каждом сезоне, используя функцию СРЗНАЧ. На основании полученных данных построим диаграмму:
Получили количество выпавших осадков в процентном выражении по сезонам.
В двух словах: Добавляем полосу прокрутки к гистограмме или к графику распределения частот, чтобы сделать её динамической или интерактивной.
Уровень сложности: продвинутый.
На следующем рисунке показано, как выглядит готовая динамическая гистограмма:
Что такое гистограмма или график распределения частот?
Гистограмма распределения разбивает по группам значения из набора данных и показывает количество (частоту) чисел в каждой группе. Такую гистограмму также называют графиком распределения частот, поскольку она показывает, с какой частотой представлены значения.
В нашем примере мы делим людей, которые вызвались принять участие в мероприятии, по возрастным группам. Первым делом, создадим возрастные группы, далее подсчитаем, сколько людей попадает в каждую из групп, и затем покажем все это на гистограмме.
На какие вопросы отвечает гистограмма распределения?
Гистограмма – это один из моих самых любимых типов диаграмм, поскольку она дает огромное количество информации о данных.
В данном случае мы хотим знать, как много участников окажется в возрастных группах 20-ти, 30-ти, 40-ка лет и так далее. Гистограмма наглядно покажет это, поэтому определить закономерности и отклонения будет довольно легко.
«Неужели наше мероприятие не интересно гражданам в возрасте от 20 до 29 лет?»
Возможно, мы захотим немного изменить детализацию картины и разбить население на две возрастные группы. Это покажет нам, что в мероприятии примут участие большей частью молодые люди:
Динамическая гистограмма
После построения гистограммы распределения частот иногда возникает необходимость изменить размер групп, чтобы ответить на различные возникающие вопросы. В динамической гистограмме это возможно сделать благодаря полосе прокрутки (слайдеру) под диаграммой. Пользователь может увеличивать или уменьшать размер групп, нажимая стрелки на полосе прокрутки.
Такой подход делает гистограмму интерактивной и позволяет пользователю масштабировать ее, выбирая, сколько групп должно быть показано. Это отличное дополнение к любому дашборду!
Как это работает?
Краткий ответ: Формулы, динамические именованные диапазоны, элемент управления «Полоса прокрутки» в сочетании с гистограммой.
Формулы
Чтобы всё работало, первым делом нужно при помощи формул вычислить размер группы и количество элементов в каждой группе.
Чтобы вычислить размер группы, разделим общее количество (80-10) на количество групп. Количество групп устанавливается настройками полосы прокрутки. Чуть позже разъясним это подробнее.
Далее при помощи функции ЧАСТОТА (FREQUENCY) я рассчитываю количество элементов в каждой группе в заданном столбце. В данном случае мы возвращаем частоту из столбца Age таблицы с именем tblData.
Функция ЧАСТОТА (FREQUENCY) вводится, как формула массива, нажатием Ctrl+Shift+Enter.
Динамический именованный диапазон
В качестве источника данных для диаграммы используется именованный диапазон, чтобы извлекать данные только из выбранных в текущий момент групп.
Когда пользователь перемещает ползунок полосы прокрутки, число строк в динамическом диапазоне изменяется так, чтобы отобразить на графике только нужные данные. В нашем примере задано два динамических именованных диапазона: один для данных — rngGroups (столбец Frequency) и второй для подписей горизонтальной оси — rngCount (столбец Bin Name).
Элемент управления «Полоса прокрутки»
Элемент управления Полоса прокрутки (Scroll Bar) может быть вставлен с вкладки Разработчик (Developer).
На рисунке ниже видно, как я настроил параметры элемента управления и привязал его к ячейке C7. Так, изменяя состояние полосы прокрутки, пользователь управляет формулами.
Гистограмма
График – это самая простая часть задачи. Создаём простую гистограмму и в качестве источника данных устанавливаем динамические именованные диапазоны.
Есть вопросы?
Что ж, это был лишь краткий обзор того, как работает динамическая гистограмма.
Да, это не самая простая диаграмма, но, полагаю, пользователям понравится с ней работать. Определённо, такой интерактивной диаграммой можно украсить любой отчёт.
Более простой вариант гистограммы можно создать, используя сводные таблицы.
Exceltip
Блог о программе Microsoft Excel: приемы, хитрости, секреты, трюки
Как построить график с нормальным распределением в Excel
Так как я часто имею дело с большим количеством данных, у меня время от времени возникает необходимость генерировать массивы значений для проверки моделей в Excel. К примеру, если я хочу увидеть распределение веса продукта с определенным стандартным отклонением, потребуются некоторые усилия, чтобы привести результат работы формулы СЛУЧМЕЖДУ() в нормальный вид. Дело в том, что формула СЛУЧМЕЖДУ() выдает числа с единым распределением, т.е. любое число с одинаковой долей вероятности может оказаться как у нижней, так и у верхней границы запрашиваемого диапазона. Такое положение дел не соответствует действительности, так как вероятность возникновения продукта уменьшается по мере отклонения от целевого значения. Т.е. если я произвожу продукт весом 100 грамм, вероятность, что я произведу 97-ми или 103-граммовый продукт меньше, чем 100 грамм. Вес большей части произведенной продукции будет сосредоточен рядом с целевым значением. Такое распределение называется нормальным. Если построить график, где по оси Y отложить вес продукта, а по оси X – количество произведенного продукта, график будет иметь колоколообразный вид, где наивысшая точка будет соответствовать целевому значению.
Таким образом, чтобы привести массив, выданный формулой СЛУЧМЕЖДУ(), в нормальный вид, мне приходилось ручками исправлять пограничные значения на близкие к целевым. Такое положение дел меня, естественно, не устраивало, поэтому, покопавшись в интернете, открыл интересный способ создания массива данных с нормальным распределением. В сегодняшней статье описан способ генерации массива и построения графика с нормальным распределением.
Характеристики нормального распределения
Непрерывная случайная переменная, которая подчиняется нормальному распределению вероятностей, обладает некоторыми особыми свойствами. Предположим, что вся производимая продукция подчиняется нормальному распределению со средним значением 100 грамм и стандартным отклонением 3 грамма. Распределение вероятностей для такой случайной переменной представлено на рисунке.
Из этого рисунка мы можем сделать следующие наблюдения относительно нормального распределения — оно имеет форму колокола и симметрично относительно среднего значения.
Стандартное отклонение имеет немаловажную роль в форме изгиба. Если посмотреть на предыдущий рисунок, то можно заметить, что практически все измерения веса продукта попадают в интервал от 95 до 105 граммов. Давайте рассмотрим следующий рисунок, на котором представлено нормальное распределение с той же средней – 100 грамм, но со стандартным отклонением всего 1,5 грамма
Здесь вы видите, что измерения значительно плотней прилегают к среднему значению. Почти все производимые продукты попадают в интервал от 97 до 102 грамм.
Небольшое значение стандартного отклонения выражается в более «тощей и высокой кривой, плотно прижимающейся к среднему значению. Чем больше стандартное, тем «толще», ниже и растянутее получается кривая.
Создание массива с нормальным распределением
Итак, чтобы сгенерировать массив данных с нормальным распределением, нам понадобится функция НОРМ.ОБР() – это обратная функция от НОРМ.РАСП(), которая возвращает нормально распределенную переменную для заданной вероятности для определенного среднего значения и стандартного отклонения. Синтаксис формулы выглядит следующим образом:
=НОРМ.ОБР(вероятность; среднее_значение; стандартное_отклонение)
Другими словами, я прошу Excel посчитать, какая переменная будет находится в вероятностном промежутке от 0 до 1. И так как вероятность возникновения продукта с весом в 100 грамм максимальная и будет уменьшаться по мере отдаления от этого значения, то формула будет выдавать значения близких к 100 чаще, чем остальных.
Давайте попробуем разобрать на примере. Выстроим график распределения вероятностей от 0 до 1 с шагом 0,01 для среднего значения равным 100 и стандартным отклонением 1,5.
Как видим из графика точки максимально сконцентрированы у переменной 100 и вероятности 0,5.
Этот фокус мы используем для генерирования случайного массива данных с нормальным распределением. Формула будет выглядеть следующим образом:
=НОРМ.ОБР(СЛЧИС(); среднее_значение; стандартное_отклонение)
Создадим массив данных для нашего примера со средним значением 100 грамм и стандартным отклонением 1,5 грамма и протянем нашу формулу вниз.
Теперь, когда массив данных готов, мы можем выстроить график с нормальным распределением.
Построение графика нормального распределения
Прежде всего необходимо разбить наш массив на периоды. Для этого определяем минимальное и максимальное значение, размер каждого периода или шаг, с которым будет увеличиваться период.
Далее строим таблицу с категориями. Нижняя граница (B11) равняется округленному вниз ближайшему кратному числу. Остальные категории увеличиваются на значение шага. Формула в ячейке B12 и последующих будет выглядеть:
В столбце X будет производится подсчет количества переменных в заданном промежутке. Для этого воспользуемся формулой ЧАСТОТА(), которая имеет два аргумента: массив данных и массив интервалов. Выглядеть формула будет следующим образом =ЧАСТОТА(Data!A1:A175;B11:B20). Также стоит отметить, что в таком варианте данная функция будет работать как формула массива, поэтому по окончании ввода необходимо нажать сочетание клавиш Ctrl+Shift+Enter.
Таким образом у нас получилась таблица с данными, с помощью которой мы сможем построить диаграмму с нормальным распределением. Воспользуемся диаграммой вида Гистограмма с группировкой, где по оси значений будет отложено количество переменных в данном промежутке, а по оси категорий – периоды.
Осталось отформатировать диаграмму и наш график с нормальным распределением готов.
Итак, мы познакомились с вами с нормальным распределением, узнали, что Excel позволяет генерировать массив данных с помощью формулы НОРМ.ОБР() для определенного среднего значения и стандартного отклонения и научились приводить данный массив в графический вид.
Вам также могут быть интересны следующие статьи
13 комментариев
Ренат, добрый день.
Все несколько проще:
Данные->Анализ данных->Генерация случайных чисел (Распределение=Нормальное)
+
Данные->Анализ данных->Гистограмма->Галка на «вывод графика» («Карманы» можно даже не задавать)
Так как я часто имею дело с большим количеством данных, у меня время от времени возникает необходимость генерировать массивы значений для проверки моделей в Excel. К примеру, если я хочу увидеть распределение веса продукта с определенным стандартным отклонением, потребуются некоторые усилия, чтобы привести результат работы формулы СЛУЧМЕЖДУ() в нормальный вид. Дело в том, что формула СЛУЧМЕЖДУ() выдает числа с единым распределением, т.е. любое число с одинаковой долей вероятности может оказаться как у нижней, так и у верхней границы запрашиваемого диапазона. Такое положение дел не соответствует действительности, так как вероятность возникновения продукта уменьшается по мере отклонения от целевого значения. Т.е. если я произвожу продукт весом 100 грамм, вероятность, что я произведу 97-ми или 103-граммовый продукт меньше, чем 100 грамм. Вес большей части произведенной продукции будет сосредоточен рядом с целевым значением. Такое распределение называется нормальным. Если построить график, где по оси Y отложить вес продукта, а по оси X – количество произведенного продукта, график будет иметь колоколообразный вид, где наивысшая точка будет соответствовать целевому значению.
Таким образом, чтобы привести массив, выданный формулой СЛУЧМЕЖДУ(), в нормальный вид, мне приходилось ручками исправлять пограничные значения на близкие к целевым. Такое положение дел меня, естественно, не устраивало, поэтому, покопавшись в интернете, открыл интересный способ создания массива данных с нормальным распределением. В сегодняшней статье описан способ генерации массива и построения графика с нормальным распределением.
Характеристики нормального распределения
Непрерывная случайная переменная, которая подчиняется нормальному распределению вероятностей, обладает некоторыми особыми свойствами. Предположим, что вся производимая продукция подчиняется нормальному распределению со средним значением 100 грамм и стандартным отклонением 3 грамма. Распределение вероятностей для такой случайной переменной представлено на рисунке.
Из этого рисунка мы можем сделать следующие наблюдения относительно нормального распределения — оно имеет форму колокола и симметрично относительно среднего значения.
Стандартное отклонение имеет немаловажную роль в форме изгиба. Если посмотреть на предыдущий рисунок, то можно заметить, что практически все измерения веса продукта попадают в интервал от 95 до 105 граммов. Давайте рассмотрим следующий рисунок, на котором представлено нормальное распределение с той же средней – 100 грамм, но со стандартным отклонением всего 1,5 грамма
Здесь вы видите, что измерения значительно плотней прилегают к среднему значению. Почти все производимые продукты попадают в интервал от 97 до 102 грамм.
Небольшое значение стандартного отклонения выражается в более «тощей и высокой кривой, плотно прижимающейся к среднему значению. Чем больше стандартное, тем «толще», ниже и растянутее получается кривая.
Создание массива с нормальным распределением
Итак, чтобы сгенерировать массив данных с нормальным распределением, нам понадобится функция НОРМ.ОБР() – это обратная функция от НОРМ.РАСП(), которая возвращает нормально распределенную переменную для заданной вероятности для определенного среднего значения и стандартного отклонения. Синтаксис формулы выглядит следующим образом:
=НОРМ.ОБР(вероятность; среднее_значение; стандартное_отклонение)
Другими словами, я прошу Excel посчитать, какая переменная будет находится в вероятностном промежутке от 0 до 1. И так как вероятность возникновения продукта с весом в 100 грамм максимальная и будет уменьшаться по мере отдаления от этого значения, то формула будет выдавать значения близких к 100 чаще, чем остальных.
Давайте попробуем разобрать на примере. Выстроим график распределения вероятностей от 0 до 1 с шагом 0,01 для среднего значения равным 100 и стандартным отклонением 1,5.
Как видим из графика точки максимально сконцентрированы у переменной 100 и вероятности 0,5.
Этот фокус мы используем для генерирования случайного массива данных с нормальным распределением. Формула будет выглядеть следующим образом:
=НОРМ.ОБР(СЛЧИС(); среднее_значение; стандартное_отклонение)
Создадим массив данных для нашего примера со средним значением 100 грамм и стандартным отклонением 1,5 грамма и протянем нашу формулу вниз.
Теперь, когда массив данных готов, мы можем выстроить график с нормальным распределением.
Построение графика нормального распределения
Прежде всего необходимо разбить наш массив на периоды. Для этого определяем минимальное и максимальное значение, размер каждого периода или шаг, с которым будет увеличиваться период.
Далее строим таблицу с категориями. Нижняя граница (B11) равняется округленному вниз ближайшему кратному числу. Остальные категории увеличиваются на значение шага. Формула в ячейке B12 и последующих будет выглядеть:
=ЕСЛИ(A12;B11+$B$6; «»)
В столбце X будет производится подсчет количества переменных в заданном промежутке. Для этого воспользуемся формулой ЧАСТОТА(), которая имеет два аргумента: массив данных и массив интервалов. Выглядеть формула будет следующим образом =ЧАСТОТА(Data!A1:A175;B11:B20). Также стоит отметить, что в таком варианте данная функция будет работать как формула массива, поэтому по окончании ввода необходимо нажать сочетание клавиш Ctrl+Shift+Enter.
Таким образом у нас получилась таблица с данными, с помощью которой мы сможем построить диаграмму с нормальным распределением. Воспользуемся диаграммой вида Гистограмма с группировкой, где по оси значений будет отложено количество переменных в данном промежутке, а по оси категорий – периоды.
Осталось отформатировать диаграмму и наш график с нормальным распределением готов.
Итак, мы познакомились с вами с нормальным распределением, узнали, что Excel позволяет генерировать массив данных с помощью формулы НОРМ.ОБР() для определенного среднего значения и стандартного отклонения и научились приводить данный массив в графический вид.
Для лучшего понимания, вы можете скачать файл с примером построения нормального распределения.
17 авг. 2022 г.
читать 3 мин
«Колокольная кривая» — это прозвище, данное форме нормального распределения , которая имеет отчетливую форму «колокола»:
В этом руководстве объясняется, как построить кривую нормального распределения в Excel для заданного среднего значения и стандартного отклонения, и даже предоставляется бесплатный загружаемый шаблон, который можно использовать для создания собственной кривой нормального распределения в Excel.
Пример: кривая нормального распределения в Excel
Используйте следующие шаги, чтобы сделать кривую колокола в Excel.
Шаг 1: Создайте ячейки для среднего значения и стандартного отклонения.
Шаг 2: Создайте ячейки для процентилей от -4 до 4 с шагом 0,1.
…
Шаг 3: Создайте столбец значений данных, которые будут использоваться на графике.
Шаг 4: Найдите значения для нормального распределения PDF.
Шаг 5: Создайте метки графика по оси X только для целочисленных процентилей.
Шаг 6: Сделайте кривую колокола.
Сначала выделите все значения в столбце pdf :
Затем в группе « Диаграммы » на вкладке « Вставка » щелкните первый параметр графика в категории « Вставить линию или диаграмму с областями»:
Автоматически появится кривая нормального распределения:
Шаг 7: Измените метки оси X.
Щелкните правой кнопкой мыши в любом месте диаграммы и выберите Выбрать данные.Появится новое окно. Нажмите кнопку « Редактировать » в разделе «Метки горизонтальной оси»:
Выберите диапазон ячеек, в которых расположены метки оси X. В нашем случае это диапазон ячеек D5:D85.Затем нажмите ОК .
Метки оси X будут обновляться автоматически:
Вы заметите, что если вы измените среднее значение и стандартное отклонение, кривая нормального распределения обновится автоматически. Например, вот во что превращается кривая нормального распределения, если мы используем среднее значение = 10 и стандартное отклонение = 2:
Вы можете изменить заголовок диаграммы, добавить метки осей и изменить цвет, если хотите сделать диаграмму более эстетичной.
Бесплатный шаблон
Не стесняйтесь загружать этот бесплатный шаблон , который использовался для создания точной колоколообразной кривой в этом уроке.
Дополнительные ресурсы
Введение в нормальное распределение
Обычный калькулятор CDF
Как построить нормальное распределение в R
Содержание
- Начиная
- Шаг № 1: Найдите среднее значение.
- Шаг № 2: Найдите стандартное отклонение.
- Шаг № 3: Установите значения оси X для кривой.
- Шаг №4: Вычислите значения нормального распределения для каждого значения оси x.
- Шаг № 5: Создайте диаграмму рассеяния с плавными линиями.
- Шаг № 6: Настройте таблицу меток.
- Шаг № 7: Вставьте данные метки в диаграмму.
- Шаг № 8: Измените тип диаграммы для серии этикеток.
- Шаг № 9: Измените масштаб горизонтальной оси.
- Шаг № 10: Вставьте и разместите метки пользовательских данных.
- Шаг № 11: Перекрасить маркеры данных (необязательно).
- Шаг № 12: Добавьте вертикальные линии (необязательно).
В этом руководстве будет показано, как создать кривую нормального распределения во всех версиях Excel: 2007, 2010, 2013, 2016 и 2022.
В статистике колоколообразная кривая (также известная как стандартное нормальное распределение или кривая Гаусса) представляет собой симметричный график, который иллюстрирует тенденцию данных к кластеризации вокруг центрального значения или среднего значения в данном наборе данных.
Ось Y представляет относительную вероятность появления данного значения в наборе данных, в то время как ось X отображает сами значения на диаграмме, чтобы создать колоколообразную кривую, отсюда и название.
График помогает нам проанализировать, является ли конкретное значение частью ожидаемой вариации или статистически значимым и, следовательно, требует более внимательного изучения.
Поскольку в Excel нет встроенных решений, вам придется построить график самостоятельно. Вот почему мы разработали надстройку Chart Creator — инструмент, который позволяет создавать расширенные диаграммы Excel всего за несколько щелчков мышью.
В этом пошаговом руководстве вы узнаете, как с нуля создать кривую нормального распределения в Excel:
Чтобы построить кривую Гаусса, вам нужно знать две вещи:
- Значение (также известное как стандартное измерение). Это определяет центр кривой, который, в свою очередь, характеризует положение кривой.
- Стандартное отклонение (SD) измерений. Это определяет разброс ваших данных в нормальном распределении — или, говоря простым языком, насколько широкой должна быть кривая. Например, на приведенной выше колоколообразной кривой одно стандартное отклонение среднего представляет собой диапазон между оценками экзамена от 53 до 85.
Чем ниже SD, тем выше кривая и меньше будут разбросаны ваши данные, и наоборот.
Стоит упомянуть правило 68-95-99,7, которое можно применить к любой кривой нормального распределения, что означает, что примерно 68% ваших данных будет размещено в пределах одного стандартного отклонения от среднего, 95% — в пределах двух стандартных отклонений и 99,7% — в пределах. три SD.
Теперь, когда вы знаете основы, давайте перейдем от теории к практике.
Начиная
В целях иллюстрации предположим, что у вас есть результаты теста 200 учеников и вы хотите выставить им оценки «по кривой», то есть оценки учеников будут основаны на их относительной успеваемости по отношению к остальной части класса:
Шаг № 1: Найдите среднее значение.
Как правило, вам с самого начала задаются среднее значение и стандартное отклонение, но если это не так, вы можете легко вычислить эти значения всего за несколько простых шагов. Давайте сначала разберемся со средним.
Поскольку среднее значение указывает среднее значение выборки или совокупности данных, вы можете найти стандартное измерение, используя функцию СРЕДНЕЕ.
Введите следующую формулу в любую пустую ячейку (F1 в этом примере) рядом с вашими фактическими данными (столбцы A а также B), чтобы вычислить среднее значение экзаменационных баллов в наборе данных:
Небольшое примечание: чаще всего вам может потребоваться округлить вывод формулы в большую сторону. Для этого просто оберните его функцией ROUND следующим образом:
1 | = ОКРУГЛ (СРЕДНИЙ (B2: B201); 0) |
Шаг № 2: Найдите стандартное отклонение.
Один упал, один остался. К счастью, в Excel есть специальная функция, которая сделает за вас всю грязную работу по поиску стандартного отклонения:
1 | = СТАНДОТКЛОН.P (B2: B201) |
Опять же, формула выбирает все значения из указанного диапазона ячеек (B2: B201) и вычисляет его стандартное отклонение — не забудьте также округлить результат.
1 | = ОКРУГЛ (СТАНДОТКЛОН.P (B2: B201); 0) |
Шаг № 3: Установите значения оси X для кривой.
По сути, диаграмма представляет собой огромное количество интервалов (представьте их как шаги), соединенных линией, чтобы создать плавную кривую.
В нашем случае значения оси X будут использоваться для иллюстрации конкретной оценки экзамена, а значения оси Y будут указывать нам вероятность того, что студент получит этот результат на экзамене.
Технически вы можете включить столько интервалов, сколько захотите — вы можете легко стереть избыточные данные позже, изменив масштаб горизонтальной оси. Просто убедитесь, что вы выбрали диапазон, включающий три стандартных отклонения.
Давайте начнем подсчет с одного (так как студент не может получить отрицательный результат на экзамене) и дойдем до 150 — неважно, 150 это или 1500 — чтобы создать еще одну вспомогательную таблицу.
- Выберите любую пустую ячейку под данными диаграммы (например, E4) и введите “1,” значение, определяющее первый интервал.
- Перейдите к Дом таб.
- в Редактирование группа, выберите «Наполнять.”
- Под «Серия в,» Выбрать «Столбец.”
- Для «Значение шага,» тип “1.” Это значение определяет приращения, которые будут автоматически добавляться, пока Excel не достигнет последнего интервала.
- Для «Стоп-значение,» тип «150,” значение, которое соответствует последнему интервалу, и нажмите «OK.”
Чудом 149 ячеек в столбце E (E5: E153) были заполнены значениями от 2 до 150.
ПРИМЕЧАНИЕ. Не скрывайте исходные ячейки данных, как показано на снимках экрана.. В противном случае методика не сработает.
Шаг №4: Вычислите значения нормального распределения для каждого значения оси x.
Теперь найдите значения нормального распределения — вероятность того, что студент получит определенный балл за экзамен, представленный определенным значением оси X — для каждого из интервалов. К счастью для вас, в Excel есть рабочая лошадка для выполнения всех этих вычислений: функция НОРМ.РАСП.
Введите следующую формулу в ячейку справа (F4) вашего первого интервала (E4):
1 | = НОРМ.РАСП (E4; $ F $ 1; $ F $ 2; ЛОЖЬ) |
Вот декодированная версия, которая поможет вам соответствующим образом настроить:
1 | = НОРМ.РАСП ([первый интервал], [среднее (абсолютное значение)], [стандартное отклонение (абсолютное значение), ЛОЖЬ) |
Вы блокируете среднее значение и стандартное отклонение, чтобы можно было легко выполнить формулу для оставшихся интервалов (E5: E153).
Теперь дважды щелкните маркер заполнения, чтобы скопировать формулу в остальные ячейки (F5: F153).
Шаг № 5: Создайте диаграмму рассеяния с плавными линиями.
Наконец, пришло время строить колоколообразную кривую:
- Выберите любое значение в вспомогательной таблице, содержащей значения осей x и y (E4: F153).
- Перейти к Вставлять таб.
- Щелкните значок «Вставить точечную (X, Y) или пузырьковую диаграмму» кнопка.
- Выбирать «Разброс с плавными линиями ».
Шаг № 6: Настройте таблицу меток.
Технически у вас есть кривая колокола. Но его будет трудно прочитать, поскольку в нем отсутствуют какие-либо данные, описывающие это.
Давайте сделаем нормальное распределение более информативным, добавив метки, иллюстрирующие все значения стандартного отклонения ниже и выше среднего (вы также можете использовать их для отображения z-значений).
Для этого создайте еще одну вспомогательную таблицу следующим образом:
Сначала скопируйте среднее значение (F1) рядом с соответствующей ячейкой в столбце X-Value (I5).
Затем вычислите значения стандартного отклонения ниже среднего, введя эту простую формулу в ячейка I4:
Проще говоря, формула вычитает сумму предыдущих значений стандартного отклонения из среднего. Теперь перетащите маркер заполнения вверх, чтобы скопировать формулу в оставшиеся две ячейки (I2: I3).
Повторите тот же процесс для стандартных отклонений выше среднего, используя зеркальную формулу:
Таким же образом выполните формулу для двух других ячеек (I7: I8).
Наконец, заполните значения метки оси Y (J2: J8) с нулями, так как вы хотите, чтобы маркеры данных располагались на горизонтальной оси.
Шаг № 7: Вставьте данные метки в диаграмму.
Теперь добавьте все данные, которые вы подготовили. Щелкните правой кнопкой мыши график и выберите «Выберите данные.”
В появившемся диалоговом окне выберите «Добавлять.”
Выделите соответствующие диапазоны ячеек из вспомогательной таблицы —I2: I8 для «Значения серии X» а также J2: J8 для «Значения серии Y »-и нажмите «OK.”
Шаг № 8: Измените тип диаграммы для серии этикеток.
Наш следующий шаг — изменить тип диаграммы недавно добавленной серии, чтобы маркеры данных отображались в виде точек. Для этого щелкните правой кнопкой мыши график диаграммы и выберите «Изменить тип диаграммы.”
Затем создайте комбинированную диаграмму:
- Перейдите к Комбо таб.
- Для Серия «Series2», изменение «Тип диаграммы» к «Разброс.”
- Примечание. Убедитесь, что «Серия1»Остается как«Скаттер с плавными линиями. » Иногда Excel изменяет его, когда вы делаете Комбо Также убедитесь, что «Серия1”Не перемещается на вторичную ось — флажок рядом с типом диаграммы не должен быть отмечен.
- Нажмите «Ok.”
Шаг № 9: Измените масштаб горизонтальной оси.
Отцентрируйте диаграмму на колоколообразной кривой, отрегулировав масштаб горизонтальной оси. Щелкните правой кнопкой мыши горизонтальную ось и выберите «Ось формата»Из меню.
Когда появится панель задач, сделайте следующее:
- Перейти к Параметры оси таб.
- Установить Минимальные границы значение «15.”
- Установить Максимальные границы значение «125.”
Вы можете настроить диапазон шкалы оси по своему усмотрению, но, поскольку вы знаете диапазоны стандартного отклонения, установите значения границ немного дальше от каждого из ваших третьих стандартных отклонений, чтобы показать «хвост» кривой.
Шаг № 10: Вставьте и разместите метки пользовательских данных.
По мере того, как вы совершенствуете свою диаграмму, не забудьте добавить пользовательские метки данных. Сначала щелкните правой кнопкой мыши любую точку, представляющую Серия «Series2» и выберите «Добавьте метки данных.”
Затем замените метки по умолчанию на те, которые вы установили ранее, и поместите их над маркерами данных.
- Щелкните правой кнопкой мыши на любом Серия «Series2» метка данных.
- Выбирать «Отформатируйте метки данных.”
- На панели задач переключитесь на Параметры метки таб.
- Проверить «Значение X» коробка.
- Снимите флажок «Значение Y» коробка.
- Под «Положение ярлыка,» выбирать «Выше.”
Кроме того, теперь вы можете удалить линии сетки (щелкните их правой кнопкой мыши> Удалить).
Шаг № 11: Перекрасить маркеры данных (необязательно).
Наконец, перекрасьте точки, чтобы они соответствовали вашему стилю диаграммы.
- Щелкните правой кнопкой мыши любой Серия «Series2» метка данных.
- Щелкните значок «Наполнять» кнопка.
- Выберите свой цвет из появившейся палитры.
Также удалите границы вокруг точек:
- Снова щелкните правой кнопкой мыши тот же маркер данных и выберите «Контур.”
- Выбирать «Без контура.”
Шаг № 12: Добавьте вертикальные линии (необязательно).
В качестве окончательной настройки вы можете добавить на диаграмму вертикальные линии, чтобы подчеркнуть значения SD.
- Выберите график диаграммы (таким образом линии будут вставлены прямо в диаграмму).
- Перейти к Вставлять таб.
- Щелкните значок «Формы» кнопка.
- Выбирать «Линия.”
Удерживайте «СДВИГ» при перетаскивании мыши, чтобы нарисовать идеально вертикальные линии от каждой точки до того места, где каждая линия пересекается с колоколообразной кривой.
Измените заголовок диаграммы, и ваша улучшенная кривая колокола будет готова отображать ваши ценные данные о распределении.
И вот как вы это делаете. Теперь вы можете выбрать любой набор данных и создать колоколообразную кривую нормального распределения, выполнив эти простые шаги!