Полигон распределения частот в excel

  • Редакция Кодкампа

17 авг. 2022 г.
читать 2 мин


Частотный полигон — это тип диаграммы, которая помогает нам визуализировать распределение значений.

Многоугольник частот в Excel

В этом руководстве объясняется, как создать полигон частот в Excel.

Пример: полигон частот в Excel

Используйте следующие шаги для создания полигона частот.

Шаг 1: Введите данные для таблицы частот.

Введите следующие данные для таблицы частоты, которая показывает количество студентов, получивших определенный балл на экзамене:

Таблица частот в Excel

Шаг 2: Найдите среднюю точку каждого класса.

Затем используйте функцию = СРЗНАЧ() в Excel, чтобы найти среднюю точку каждого класса, которая представляет среднее число в каждом классе:

Середина таблицы частот

Шаг 3: Создайте полигон частот.

Далее мы создадим полигон частот. Выделите значения частоты в столбце C:

Таблица частот в Excel

Затем перейдите в группу « Диаграммы » на вкладке « Вставка » и щелкните первый тип диаграммы в « Вставить линию или диаграмму с областями» :

Многоугольник частот в Excel

Автоматически появится полигон частот:

Многоугольник частот в Excel

Чтобы изменить метки оси X, щелкните правой кнопкой мыши в любом месте диаграммы и выберите « Выбрать данные ». Появится новое окно. В разделе « Метки горизонтальной (категории) оси » нажмите « Изменить » и введите диапазон ячеек, содержащий значения средней точки. Нажмите OK , и новые метки осей появятся автоматически:

Многоугольник частот со средними точками в Excel

Не стесняйтесь изменять заголовок диаграммы, добавлять метки осей и изменять цвет графика, чтобы сделать его более эстетичным.

Многоугольник частот в Excel

Из полигона частот легко увидеть, что большинство учащихся набрали 70-е и 80-е баллы, несколько — 60-е и еще меньше — 50-е и 90-е.

Написано

Редакция Кодкампа

Замечательно! Вы успешно подписались.

Добро пожаловать обратно! Вы успешно вошли

Вы успешно подписались на кодкамп.

Срок действия вашей ссылки истек.

Ура! Проверьте свою электронную почту на наличие волшебной ссылки для входа.

Успех! Ваша платежная информация обновлена.

Ваша платежная информация не была обновлена.

Цель:

  • Совершенствование умений и навыков нахождения статистических
    характеристик случайной величины, работа с расчетами в Excel;
  • применение информационно коммутативных технологий для анализа данных;
    работа с различными информационными носителями.

Ход урока

  1. Сегодня на уроке мы научимся рассчитывать статистические характеристики
    для больших по объему выборок, используя возможности современных
    компьютерных технологий.
  2. Для начала вспомним:

– что называется случайной величиной? (Случайной величиной называют
переменную величину, которая в зависимости от исхода испытания принимает одно
значение из множества возможных значений.)

– Какие виды случайных величин мы знаем? (Дискретные, непрерывные.)

– Приведите примеры непрерывных случайных величин (рост дерева), дискретных
случайных величин (количество учеников в классе).

– Какие статистические характеристики случайных величин мы знаем (мода,
медиана, среднее выборочное значение, размах ряда).

– Какие приемы используются для наглядного представления статистических
характеристик случайной величины (полигон частот, круговые и столбчатые
диаграммы, гистограммы).

  1. Рассмотрим, применение инструментов Excel для решения статистических
    задач на конкретном примере.

Пример. Проведена проверка в 100 компаниях. Даны значения количества
работающих в компании (чел.):

23 25 24 25 30 24 30 26 28 26
32 33 31 31 25 33 25 29 30 28
23 30 29 24 33 30 30 28 26 25
26 29 27 29 26 28 27 26 29 28
29 30 27 30 28 32 28 26 30 26
31 27 30 27 33 28 26 30 31 29
27 30 30 29 27 26 28 31 29 28
33 27 30 33 26 31 34 28 32 22
29 30 27 29 34 29 32 29 29 30
29 29 36 29 29 34 23 28 24 28
рассчитать числовые характеристики:

  • моду
  • медиану
  • размах ряда
  • построить полигон частот
  • построить столбчатую и круговую диаграммы
  • раскрыть смысловую сторону каждой характеристики

Ход работы.

1. Занести данные в EXCEL, каждое число в отдельную ячейку.

23 25 24 25 30 24 30 26 28 26
32 33 31 31 25 33 25 29 30 28
23 30 29 24 33 30 30 28 26 25
26 29 27 29 26 28 27 26 29 28
29 30 27 30 28 32 28 26 30 26
31 27 30 27 33 28 26 30 31 29
27 30 30 29 27 26 28 31 29 28
33 27 30 33 26 31 34 28 32 22
29 30 27 29 34 29 32 29 29 30
29 29 36 29 29 34 23 28 24 28

2. Для расчета числовых характеристик используем опцию Вставка – Функция. И в
появившемся окне в строке категория выберем — статистические, в списке: МОДА

В поле Число 1 ставим курсор и мышкой выделяем нашу таблицу:

Нажимаем клавишу ОК. Получили Мо = 29 (чел) – Фирм у которых в
штате 29 человек больше всего.

Используя тот же путь вычисляем медиану.

Вставка – Функция – Статистические – Медиана.

В поле Число 1 ставим курсор и мышкой выделяем нашу таблицу:

Нажимаем клавишу ОК. Получили Ме = 29 (чел) – среднее значение
сотрудников в фирме.

Размах ряда чисел – разница между наименьшим и наибольшим возможным значением
случайной величины. Для вычисления размаха ряда нужно найти наибольшее и
наименьшее значения нашей выборки и вычислить их разность.

Вставка – Функция – Статистические – МАКС.

В поле Число 1 ставим курсор и мышкой выделяем нашу таблицу:

Нажимаем клавишу ОК. Получили наибольшее значение = 36.

Вставка – Функция – Статистические – МИН.

В поле Число 1 ставим курсор и мышкой выделяем нашу таблицу:

Нажимаем клавишу ОК. Получили наименьшее значение = 22.

36 – 22 = 14 (чел) – разница между фирмой с наибольшим штатом сотрудников и
фирмой с наименьшим штатом сотрудников.

Для построения диаграммы и полигона частот необходимо задать закон
распределения, т.е. составить таблицу значений случайной величины и
соответствующих им частот. Мы ухе знаем, что наименьшее число сотрудников в
фирме = 22, а наибольшее = 36. Составим таблицу, в которой значения xi
случайной величины меняются от 22 до 36 включительно шагом 1.

xi 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36
ni                            

Чтобы сосчитать частоту каждого значения воспользуемся

Вставка – Функция – Статистические – СЧЕТЕСЛИ.

В окне Диапазон ставим курсор и выделяем нашу выборку, а в окне Критерий
ставим число 22

Нажимаем клавишу ОК, получаем значение 1, т.е. число 22 в нашей выборке
встречается 1 раз и его частота =1. Аналогичным образом заполняем всю таблицу.

xi 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36
ni 1 3 4 5 11 9 13 18 16 6 4 6 3 0 1

Для проверки вычисляем объем выборки, сумму частот (Вставка – Функция –
Математические — СУММА). Должно получиться 100 (количество всех фирм).

Чтобы построить полигон частот выделяем таблицу – Вставка – Диаграмма –
Стандартные – Точечная (точечная диаграмма на которой значения соединены
отрезками)

Нажимаем клавишу Далее, в Мастере диаграмм указываем название диаграммы
(Полигон частот), удаляем легенду, редактируем шкалу и характеристики диаграммы
для наибольшей наглядности.

 Получаем:

Для построения столбчатой и круговой диаграмм используем тот же путь (выбирая
нужный нам тип диаграммы).

Диаграмма – Стандартные – Круговая.

Диаграмма – Стандартные – Гистограмма.

4. Сегодня на уроке мы научились применять компьютерные технологии для
анализа и обработки статистической информации.

Процедура «Гистограмма» пакета «Анализ данных. Вычисление частот и накопленных частот. Построение гистограмм.

В процедуре автоматически выполняются следующие вычисления:

находится промежуток [xmin, xmax];

выбирается число m интервалов группировки (7£ m £20);

вычисляются середины интервалов группировки , , ;

для каждого интервала  вычисляются частоты  nj  — количество выборочных значений, которые попали в j-й интервал;

для каждого интервала  вычисляются накопленные частоты — количество выборочных значений, не превышающих верхней границы  j-го интервала;

Строится гистограмма – график ступенчатой функции , , , Dj = (aj, bj) , .

Для того чтобы вычислять накопленные частоты и отобразить гистограмму в листе  в листе Excel, в окне процедуры следует пометить соответствующие поля.

 

Результаты вычислений процедуры представлены в виде таблицы (ниже приведены две таблицы, первая – когда поле «Интегральный процент» не помечено, вторая – когда помечено)

Карман

Частота

114.46

1

115.581

1

116.702

6

117.823

6

118.944

12

120.065

21

121.186

23

122.307

18

123.428

5

124.549

4

Еще

2

Карман

Частота

Интегральный %

114.46

1

1.01%

115.581

1

2.02%

116.702

6

8.08%

117.823

6

14.14%

118.944

12

26.26%

120.065

21

47.47%

121.186

23

70.71%

122.307

18

88.89%

123.428

5

93.94%

124.549

4

97.98%

Еще

2

100.00%

Здесь Карман – середины интервалов группировки, Интегральный % – накопленные частоты в процентах. Для того чтобы получить числовое значение накопленных частот, следует изменить формат ячеек с «Процентного» на «Числовой».

Использование «Мастера диаграмм» для построения полигонов.

Для построения полигона накопленных частот  в поле «Диапазон» следует указать ячейки столбца «Интегральный процент» таблицы, полученной  в процедуре «Гистограммы» пакета «Анализ данных».

Для построения полигона частот можно указать ячейки столбца «Частота» таблицы, полученной  в процедуре «Гистограммы» пакета «Анализ данных». Можно –  вычислить относительные частоты  и указать в поле «Диапазон» соответствующие ячейки.


Гистограмма распределения — это инструмент, позволяющий визуально оценить величину и характер разброса данных. Создадим гистограмму для непрерывной случайной величины с помощью встроенных средств MS EXCEL из надстройки Пакет анализа и в ручную с помощью функции

ЧАСТОТА()

и диаграммы.

Гистограмма (frequency histogram) – это

столбиковая диаграмма MS EXCEL

, в каждый столбик представляет собой интервал значений (корзину, карман, class interval, bin, cell), а его высота пропорциональна количеству значений в ней (частоте наблюдений).

Гистограмма поможет визуально оценить распределение набора данных, если:

  • в наборе данных как минимум 50 значений;
  • ширина интервалов одинакова.

Построим гистограмму для набора данных, в котором содержатся значения

непрерывной случайной величины

. Набор данных (50 значений), а также рассмотренные примеры, можно взять на листе

Гистограмма AT

в

файле примера.

Данные содержатся в диапазоне

А8:А57

.


Примечание

: Для удобства написания формул для диапазона

А8:А57

создан

Именованный диапазон

Исходные_данные.

Построение гистограммы с помощью надстройки

Пакет анализа

Вызвав диалоговое окно

надстройки Пакет анализа

, выберите пункт

Гистограмма

и нажмите ОК.

В появившемся окне необходимо как минимум указать:

входной интервал

и левую верхнюю ячейку

выходного интервала

. После нажатия кнопки

ОК

будут:

  • автоматически рассчитаны интервалы значений (карманы);
  • подсчитано количество значений из указанного массива данных, попадающих в каждый интервал (построена таблица частот);
  • если поставлена галочка напротив пункта

    Вывод графика

    , то вместе с таблицей частот будет выведена гистограмма.


Перед тем как анализировать полученный результат —

отсортируйте исходный массив данных

.

Как видно из рисунка, первый интервал включает только одно минимальное значение 113 (точнее, включены все значения меньшие или равные минимальному). Если бы в массиве было 2 или более значения 113, то в первый интервал попало бы соответствующее количество чисел (2 или более).

Второй интервал (отмечен на картинке серым) включает значения больше 113 и меньше или равные 216,428571428571. Можно проверить, что таких значений 11. Предпоследний интервал, от 630,142857142857 (не включая) до 733,571428571429 (включая) содержит 0 значений, т.к. в этом диапазоне значений нет. Последний интервал (со странным названием

Еще

) содержит значения больше 733,571428571429 (не включая). Таких значений всего одно — максимальное значение в массиве (837).

Размеры карманов одинаковы и равны 103,428571428571. Это значение можно получить так:

=(МАКС(

Исходные_данные

)-МИН(

Исходные_данные

))/7

где

Исходные_данные –

именованный диапазон

, содержащий наши данные.

Почему 7? Дело в том, что количество интервалов гистограммы (карманов) зависит от количества данных и для его определения часто используется формула √n, где n – это количество данных в выборке. В нашем случае √n=√50=7,07 (всего 7 полноценных карманов, т.к. первый карман включает только значения равные минимальному).


Примечание

:

Похоже, что инструмент

Гистограмма

для подсчета общего количества интервалов (с учетом первого) использует формулу

=ЦЕЛОЕ(КОРЕНЬ(СЧЕТ(

Исходные_данные

)))+1

Попробуйте, например, сравнить количество интервалов для диапазонов длиной 35 и 36 значений – оно будет отличаться на 1, а у 36 и 48 – будет одинаковым, т.к. функция

ЦЕЛОЕ()

округляет до ближайшего меньшего целого

(ЦЕЛОЕ(КОРЕНЬ(35))=5

, а

ЦЕЛОЕ(КОРЕНЬ(36))=6)

.

Если установить галочку напротив поля

Парето (отсортированная гистограмма)

, то к таблице с частотами будет добавлена таблица с отсортированными по убыванию частотами.

Если установить галочку напротив поля

Интегральный процент

, то к таблице с частотами будет добавлен столбец с

нарастающим итогом

в % от общего количества значений в массиве.

Если выбор количества интервалов или их диапазонов не устраивает, то можно в диалоговом окне указать нужный массив интервалов (если интервал карманов включает текстовый заголовок, то нужно установить галочку напротив поля

Метка

).

Для нашего набора данных установим размер кармана равным 100 и первый карман возьмем равным 150.

В результате получим практически такую же по форме

гистограмму

, что и раньше, но с более красивыми границами интервалов.

Как видно из рисунков выше, надстройка

Пакет анализа

не осуществляет никакого

дополнительного форматирования диаграммы

. Соответственно, вид такой гистограммы оставляет желать лучшего (столбцы диаграммы обычно располагают вплотную для непрерывных величин, кроме того подписи интервалов не информативны). О том, как придать диаграмме более презентабельный вид, покажем в следующем разделе при построении

гистограммы

с помощью функции

ЧАСТОТА()

без использовании надстройки

Пакет анализа

.

Построение гистограммы распределения без использования надстройки Пакет анализа

Порядок действий при построении гистограммы в этом случае следующий:

  • определить количество интервалов у гистограммы;
  • определить ширину интервала (с учетом округления);
  • определить границу первого интервала;
  • сформировать таблицу интервалов и рассчитать количество значений, попадающих в каждый интервал (частоту);
  • построить гистограмму.


СОВЕТ

: Часто рекомендуют, чтобы границы интервала были на один порядок точнее самих данных и оканчивались на 5. Например, если данные в массиве определены с точностью до десятых: 1,2; 2,3; 5,0; 6,1; 2,1, …, то границы интервалов должны быть округлены до сотых: 1,25-1,35; 1,35-1,45; … Для небольших наборов данных вид гистограммы сильно зависит количества интервалов и их ширины. Это приводит к тому, что сам метод гистограмм, как инструмент

описательной статистики

, может быть применен только для наборов данных состоящих, как минимум, из 50, а лучше из 100 значений.

В наших расчетах для определения количества интервалов мы будем пользоваться формулой

=ЦЕЛОЕ(КОРЕНЬ(n))+1

.


Примечание

: Кроме использованного выше правила (число карманов = √n), используется ряд других эмпирических правил, например, правило Стёрджеса (Sturges): число карманов =1+log2(n). Это обусловлено тем, что например, для n=5000, количество интервалов по формуле √n будет равно 70, а правило Стёрджеса рекомендует более приемлемое количество — 13.

Расчет ширины интервала и таблица интервалов приведены в

файле примера на листе Гистограмма

. Для вычисления количества значений, попадающих в каждый интервал, использована

формула массива

на основе функции

ЧАСТОТА()

. О вводе этой функции см. статью

Функция ЧАСТОТА() — Подсчет ЧИСЛОвых значений в MS EXCEL

.

В MS EXCEL имеется диаграмма типа

Гистограмма с группировкой

, которая обычно используется для построения

Гистограмм распределения

.

В итоге можно добиться вот такого результата.


Примечание

: О построении и настройке макета диаграмм см. статью

Основы построения диаграмм в MS EXCEL

.

Одной из разновидностей гистограмм является

график накопленной частоты

(cumulative frequency plot).

На этом графике каждый столбец представляет собой число значений исходного массива, меньших или равных правой границе соответствующего интервала. Это очень удобно, т.к., например, из графика сразу видно, что 90% значений (45 из 50) меньше чем 495.


СОВЕТ

: О построении

двумерной гистограммы

см. статью

Двумерная гистограмма в MS EXCEL

.


Примечание

: Альтернативой

графику накопленной частоты

может служить

Кривая процентилей

, которая рассмотрена в

статье про Процентили

.


Примечание

: Когда количество значений в выборке недостаточно для построения полноценной

гистограммы

может быть полезна

Блочная диаграмма

(иногда она называется

Диаграмма размаха

или

Ящик с усами

).

Разделы: Математика

  • Совершенствование умений и навыков нахождения статистических характеристик случайной величины, работа с расчетами в Excel;
  • применение информационно коммутативных технологий для анализа данных; работа с различными информационными носителями.
  1. Сегодня на уроке мы научимся рассчитывать статистические характеристики для больших по объему выборок, используя возможности современных компьютерных технологий.
  2. Для начала вспомним:

– что называется случайной величиной? (Случайной величиной называют переменную величину, которая в зависимости от исхода испытания принимает одно значение из множества возможных значений.)

– Какие виды случайных величин мы знаем? (Дискретные, непрерывные.)

– Приведите примеры непрерывных случайных величин (рост дерева), дискретных случайных величин (количество учеников в классе).

– Какие статистические характеристики случайных величин мы знаем (мода, медиана, среднее выборочное значение, размах ряда).

– Какие приемы используются для наглядного представления статистических характеристик случайной величины (полигон частот, круговые и столбчатые диаграммы, гистограммы).

  1. Рассмотрим, применение инструментов Excel для решения статистических задач на конкретном примере.

Пример. Проведена проверка в 100 компаниях. Даны значения количества работающих в компании (чел.):

1. Занести данные в EXCEL, каждое число в отдельную ячейку.

23 25 24 25 30 24 30 26 28 26
32 33 31 31 25 33 25 29 30 28
23 30 29 24 33 30 30 28 26 25
26 29 27 29 26 28 27 26 29 28
29 30 27 30 28 32 28 26 30 26
31 27 30 27 33 28 26 30 31 29
27 30 30 29 27 26 28 31 29 28
33 27 30 33 26 31 34 28 32 22
29 30 27 29 34 29 32 29 29 30
29 29 36 29 29 34 23 28 24 28

2. Для расчета числовых характеристик используем опцию Вставка – Функция. И в появившемся окне в строке категория выберем — статистические, в списке: МОДА

В поле Число 1 ставим курсор и мышкой выделяем нашу таблицу:

Нажимаем клавишу ОК. Получили Мо = 29 (чел) – Фирм у которых в штате 29 человек больше всего.

Используя тот же путь вычисляем медиану.

Вставка – Функция – Статистические – Медиана.

В поле Число 1 ставим курсор и мышкой выделяем нашу таблицу:

Нажимаем клавишу ОК. Получили Ме = 29 (чел) – среднее значение сотрудников в фирме.

Размах ряда чисел – разница между наименьшим и наибольшим возможным значением случайной величины. Для вычисления размаха ряда нужно найти наибольшее и наименьшее значения нашей выборки и вычислить их разность.

Вставка – Функция – Статистические – МАКС.

В поле Число 1 ставим курсор и мышкой выделяем нашу таблицу:

Нажимаем клавишу ОК. Получили наибольшее значение = 36.

Вставка – Функция – Статистические – МИН.

В поле Число 1 ставим курсор и мышкой выделяем нашу таблицу:

Нажимаем клавишу ОК. Получили наименьшее значение = 22.

36 – 22 = 14 (чел) – разница между фирмой с наибольшим штатом сотрудников и фирмой с наименьшим штатом сотрудников.

Для построения диаграммы и полигона частот необходимо задать закон распределения, т.е. составить таблицу значений случайной величины и соответствующих им частот. Мы ухе знаем, что наименьшее число сотрудников в фирме = 22, а наибольшее = 36. Составим таблицу, в которой значения xiслучайной величины меняются от 22 до 36 включительно шагом 1.

xi 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36
ni

Чтобы сосчитать частоту каждого значения воспользуемся

Вставка – Функция – Статистические – СЧЕТЕСЛИ.

В окне Диапазон ставим курсор и выделяем нашу выборку, а в окне Критерий ставим число 22

Нажимаем клавишу ОК, получаем значение 1, т.е. число 22 в нашей выборке встречается 1 раз и его частота =1. Аналогичным образом заполняем всю таблицу.

xi 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36
ni 1 3 4 5 11 9 13 18 16 6 4 6 3 0 1

Для проверки вычисляем объем выборки, сумму частот (Вставка – Функция – Математические — СУММА). Должно получиться 100 (количество всех фирм).

Чтобы построить полигон частот выделяем таблицу – Вставка – Диаграмма – Стандартные – Точечная (точечная диаграмма на которой значения соединены отрезками)

Нажимаем клавишу Далее, в Мастере диаграмм указываем название диаграммы (Полигон частот), удаляем легенду, редактируем шкалу и характеристики диаграммы для наибольшей наглядности.

Для построения столбчатой и круговой диаграмм используем тот же путь (выбирая нужный нам тип диаграммы).

Диаграмма – Стандартные – Круговая.

Диаграмма – Стандартные – Гистограмма.

4. Сегодня на уроке мы научились применять компьютерные технологии для анализа и обработки статистической информации.

Инструменты Excel для построения гистограмм, полигонов

Процедура «Гистограмма» пакета «Анализ данных. Вычисление частот и накопленных частот. Построение гистограмм.

В процедуре автоматически выполняются следующие вычисления:

выбирается число m интервалов группировки (7 £ m £ 20);

вычисляются середины интервалов группировки , , ;

для каждого интервала вычисляются частоты nj — количество выборочных значений, которые попали в j -й интервал;

для каждого интервала вычисляются накопленные частоты — количество выборочных значений, не превышающих верхней границы j -го интервала;

Строится гистограмма – график ступенчатой функции , , , D j = ( aj , bj ) , .

Для того чтобы вычислять накопленные частоты и отобразить гистограмму в листе в листе Excel , в окне процедуры следует пометить соответствующие поля.

Результаты вычислений процедуры представлены в виде таблицы (ниже приведены две таблицы, первая – когда поле «Интегральный процент» не помечено, вторая – когда помечено)

Понравилась статья? Поделить с друзьями:
  • Полигон накопленных частот в excel
  • Полигон диаграмма в excel
  • Ползунок по линейке word
  • Ползунок масштаба в excel это
  • Полезный макрос для word