Excel мода медиана дисперсия


Рассмотрим инструмент Описательная статистика, входящий в надстройку Пакет Анализа. Рассчитаем показатели выборки: среднее, медиана, мода, дисперсия, стандартное отклонение и др.

Задача

описательной статистики

(descriptive statistics) заключается в том, чтобы с использованием математических инструментов свести сотни значений

выборки

к нескольким итоговым показателям, которые дают представление о

выборке

.В качестве таких статистических показателей используются:

среднее

,

медиана

,

мода

,

дисперсия, стандартное отклонение

и др.

Опишем набор числовых данных с помощью определенных показателей. Для чего нужны эти показатели? Эти показатели позволят сделать определенные

статистические выводы о распределении

, из которого была взята

выборка

. Например, если у нас есть

выборка

значений толщины трубы, которая изготавливается на определенном оборудовании, то на основании анализа этой

выборки

мы сможем сделать, с некой определенной вероятностью, заключение о состоянии процесса изготовления.

Содержание статьи:

  • Надстройка Пакет анализа;
  • Среднее выборки

    ;

  • Медиана выборки

    ;

  • Мода выборки

    ;

  • Мода и среднее значение

    ;

  • Дисперсия выборки

    ;

  • Стандартное отклонение выборки

    ;

  • Стандартная ошибка

    ;

  • Ассиметричность

    ;

  • Эксцесс выборки

    ;

  • Уровень надежности

    .

Надстройка Пакет анализа

Для вычисления статистических показателей одномерных

выборок

, используем

надстройку Пакет анализа

. Затем, все показатели рассчитанные надстройкой, вычислим с помощью встроенных функций MS EXCEL.


СОВЕТ

: Подробнее о других инструментах надстройки

Пакет анализа

и ее подключении – читайте в статье

Надстройка Пакет анализа MS EXCEL

.


Выборку

разместим на

листе

Пример

в файле примера

в диапазоне

А6:А55

(50 значений).


Примечание

: Для удобства написания формул для диапазона

А6:А55

создан

Именованный диапазон

Выборка.

В диалоговом окне

Анализ данных

выберите инструмент

Описательная статистика

.

После нажатия кнопки

ОК

будет выведено другое диалоговое окно,

в котором нужно указать:


  • входной интервал

    (Input Range) – это диапазон ячеек, в котором содержится массив данных. Если в указанный диапазон входит текстовый заголовок набора данных, то нужно поставить галочку в поле

    Метки в первой строке (

    Labels

    in

    first

    row

    ).

    В этом случае заголовок будет выведен в

    Выходном интервале.

    Пустые ячейки будут проигнорированы, поэтому нулевые значения необходимо обязательно указывать в ячейках, а не оставлять их пустыми;

  • выходной интервал

    (Output Range). Здесь укажите адрес верхней левой ячейки диапазона, в который будут выведены статистические показатели;

  • Итоговая статистика (

    Summary

    Statistics

    )

    . Поставьте галочку напротив этого поля – будут выведены основные показатели выборки:

    среднее, медиана, мода, стандартное отклонение

    и др.;
  • Также можно поставить галочки напротив полей

    Уровень надежности (

    Confidence

    Level

    for

    Mean

    )

    ,

    К-й наименьший

    (Kth Largest) и

    К-й наибольший

    (Kth Smallest).

В результате будут выведены следующие статистические показатели:

Все показатели выведены в виде значений, а не формул. Если массив данных изменился, то необходимо перезапустить расчет.

Если во

входном интервале

указать ссылку на несколько столбцов данных, то будет рассчитано соответствующее количество наборов показателей. Такой подход позволяет сравнить несколько наборов данных. При сравнении нескольких наборов данных используйте заголовки (включите их во

Входной интервал

и установите галочку в поле

Метки в первой строке

). Если наборы данных разной длины, то это не проблема — пустые ячейки будут проигнорированы.

Зеленым цветом на картинке выше и в

файле примера

выделены показатели, которые не требуют особого пояснения. Для большинства из них имеется специализированная функция:


  • Интервал

    (Range) — разница между максимальным и минимальным  значениями;

  • Минимум

    (Minimum) – минимальное значение в диапазоне ячеек, указанном во

    Входном интервале

    (см.

    статью про функцию

    МИН()

    );


  • Максимум

    (Maximum)– максимальное значение (см.

    статью про функцию

    МАКС()

    );


  • Сумма

    (Sum) – сумма всех значений (см.

    статью про функцию

    СУММ()

    );


  • Счет

    (Count) – количество значений во

    Входном интервале

    (пустые ячейки игнорируются, см.

    статью про функцию

    СЧЁТ()

    );


  • Наибольший

    (Kth Largest) – выводится К-й наибольший. Например, 1-й наибольший – это максимальное значение (см.

    статью про функцию

    НАИБОЛЬШИЙ()

    );


  • Наименьший

    (Kth Smallest) – выводится К-й наименьший. Например, 1-й наименьший – это минимальное значение (см.

    статью про функцию

    НАИМЕНЬШИЙ()

    ).

Ниже даны подробные описания остальных показателей.

Среднее выборки


Среднее

(mean, average) или

выборочное среднее

или

среднее выборки

(sample average) представляет собой

арифметическое среднее

всех значений массива. В MS EXCEL для вычисления среднего выборки используется функция

СРЗНАЧ()

.

Выборочное среднее

является «хорошей» (несмещенной и эффективной) оценкой

математического ожидания

случайной величины (подробнее см. статью

Среднее и Математическое ожидание в MS EXCEL

).

Медиана выборки


Медиана

(Median) – это число, которое является серединой множества чисел (в данном случае выборки): половина чисел множества больше, чем

медиана

, а половина чисел меньше, чем

медиана

. Для определения

медианы

необходимо сначала

отсортировать множество чисел

. Например,

медианой

для чисел 2, 3, 3,

4

, 5, 7, 10 будет 4.

Если множество содержит четное количество чисел, то вычисляется

среднее

для двух чисел, находящихся в середине множества. Например,

медианой

для чисел 2, 3,

3

,

5

, 7, 10 будет 4, т.к. (3+5)/2.

Если имеется длинный хвост распределения, то

Медиана

лучше, чем

среднее значение

, отражает «типичное» или «центральное» значение. Например, рассмотрим несправедливое распределение зарплат в компании, в которой руководство получает существенно больше, чем основная масса сотрудников.


Очевидно, что средняя зарплата (71 тыс. руб.) не отражает тот факт, что 86% сотрудников получает не более 30 тыс. руб. (т.е. 86% сотрудников получает зарплату в более, чем в 2 раза меньше средней!). В то же время медиана (15 тыс. руб.) показывает, что

как минимум

у 50% сотрудников зарплата меньше или равна 15 тыс. руб.

Для определения

медианы

в MS EXCEL существует одноименная функция

МЕДИАНА()

, английский вариант — MEDIAN().


Медиану

также можно вычислить с помощью формул

=КВАРТИЛЬ.ВКЛ(Выборка;2) =ПРОЦЕНТИЛЬ.ВКЛ(Выборка;0,5).

Подробнее о

медиане

см. специальную статью

Медиана в MS EXCEL

.


СОВЕТ

: Подробнее про

квартили

см. статью, про

перцентили (процентили)

см. статью.

Мода выборки


Мода

(Mode) – это наиболее часто встречающееся (повторяющееся) значение в

выборке

. Например, в массиве (1; 1;

2

;

2

;

2

; 3; 4; 5) число 2 встречается чаще всего – 3 раза. Значит, число 2 – это

мода

. Для вычисления

моды

используется функция

МОДА()

, английский вариант MODE().


Примечание

: Если в массиве нет повторяющихся значений, то функция вернет значение ошибки #Н/Д. Это свойство использовано в статье

Есть ли повторы в списке?

Начиная с

MS EXCEL 2010

вместо функции

МОДА()

рекомендуется использовать функцию

МОДА.ОДН()

, которая является ее полным аналогом. Кроме того, в MS EXCEL 2010 появилась новая функция

МОДА.НСК()

, которая возвращает несколько наиболее часто повторяющихся значений (если количество их повторов совпадает). НСК – это сокращение от слова НеСКолько.

Например, в массиве (1; 1;

2

;

2

;

2

; 3;

4

;

4

;

4

; 5) числа 2 и 4 встречаются наиболее часто – по 3 раза. Значит, оба числа являются

модами

. Функции

МОДА.ОДН()

и

МОДА()

вернут значение 2, т.к. 2 встречается первым, среди наиболее повторяющихся значений (см.

файл примера

, лист

Мода

).

Чтобы исправить эту несправедливость и была введена функция

МОДА.НСК()

, которая выводит все

моды

. Для этого ее нужно ввести как

формулу массива

.

Как видно из картинки выше, функция

МОДА.НСК()

вернула все три

моды

из массива чисел в диапазоне

A2:A11

: 1; 3 и 7. Для этого, выделите диапазон

C6:C9

, в

Строку формул

введите формулу

=МОДА.НСК(A2:A11)

и нажмите

CTRL+SHIFT+ENTER

. Диапазон

C

6:

C

9

охватывает 4 ячейки, т.е. количество выделяемых ячеек должно быть больше или равно количеству

мод

. Если ячеек больше чем м

о

д, то избыточные ячейки будут заполнены значениями ошибки #Н/Д. Если

мода

только одна, то все выделенные ячейки будут заполнены значением этой

моды

.

Теперь вспомним, что мы определили

моду

для выборки, т.е. для конечного множества значений, взятых из

генеральной совокупности

. Для

непрерывных случайных величин

вполне может оказаться, что выборка состоит из массива на подобие этого (0,935; 1,211; 2,430; 3,668; 3,874; …), в котором может не оказаться повторов и функция

МОДА()

вернет ошибку.

Даже в нашем массиве с

модой

, которая была определена с помощью

надстройки Пакет анализа

, творится, что-то не то. Действительно,

модой

нашего массива значений является число 477, т.к. оно встречается 2 раза, остальные значения не повторяются. Но, если мы посмотрим на

гистограмму распределения

, построенную для нашего массива, то увидим, что 477 не принадлежит интервалу наиболее часто встречающихся значений (от 150 до 250).

Проблема в том, что мы определили

моду

как наиболее часто встречающееся значение, а не как наиболее вероятное. Поэтому,

моду

в учебниках статистики часто определяют не для выборки (массива), а для функции распределения. Например, для

логнормального распределения

мода

(наиболее вероятное значение непрерывной случайной величины х), вычисляется как

exp

(

m



s

2

)

, где m и s параметры этого распределения.

Понятно, что для нашего массива число 477, хотя и является наиболее часто повторяющимся значением, но все же является плохой оценкой для

моды

распределения, из которого взята

выборка

(наиболее вероятного значения или для которого плотность вероятности распределения максимальна).

Для того, чтобы получить оценку

моды

распределения, из

генеральной совокупности

которого взята

выборка

, можно, например, построить

гистограмму

. Оценкой для

моды

может служить интервал наиболее часто встречающихся значений (самого высокого столбца). Как было сказано выше, в нашем случае это интервал от 150 до 250.


Вывод

: Значение

моды

для

выборки

, рассчитанное с помощью функции

МОДА()

, может ввести в заблуждение, особенно для небольших выборок. Эта функция эффективна, когда случайная величина может принимать лишь несколько дискретных значений, а размер

выборки

существенно превышает количество этих значений.

Например, в рассмотренном примере о распределении заработных плат (см. раздел статьи выше, о Медиане),

модой

является число 15 (17 значений из 51, т.е. 33%). В этом случае функция

МОДА()

дает хорошую оценку «наиболее вероятного» значения зарплаты.


Примечание

: Строго говоря, в примере с зарплатой мы имеем дело скорее с

генеральной совокупностью

, чем с

выборкой

. Т.к. других зарплат в компании просто нет.

О вычислении

моды

для распределения

непрерывной случайной величины

читайте статью

Мода в MS EXCEL

.

Мода и среднее значение

Не смотря на то, что

мода

– это наиболее вероятное значение случайной величины (вероятность выбрать это значение из

Генеральной совокупности

максимальна), не следует ожидать, что

среднее значение

обязательно будет близко к

моде

.


Примечание

:

Мода

и

среднее

симметричных распределений совпадает (имеется ввиду симметричность

плотности распределения

).

Представим, что мы бросаем некий «неправильный» кубик, у которого на гранях имеются значения (1; 2; 3; 4; 6; 6), т.е. значения 5 нет, а есть вторая 6.

Модой

является 6, а среднее значение – 3,6666.

Другой пример. Для

Логнормального распределения

LnN(0;1)

мода

равна =EXP(m-s2)= EXP(0-1*1)=0,368, а

среднее значение

1,649.

Дисперсия выборки


Дисперсия выборки

или

выборочная дисперсия (

sample

variance

) характеризует разброс значений в массиве, отклонение от

среднего

.

Из формулы №1 видно, что

дисперсия выборки

это сумма квадратов отклонений каждого значения в массиве

от среднего

, деленная на размер выборки минус 1.

В MS EXCEL 2007 и более ранних версиях для вычисления

дисперсии выборки

используется функция

ДИСП()

. С версии MS EXCEL 2010 рекомендуется использовать ее аналог — функцию

ДИСП.В()

.


Дисперсию

можно также вычислить непосредственно по нижеуказанным формулам (см.

файл примера

):

=КВАДРОТКЛ(Выборка)/(СЧЁТ(Выборка)-1) =(СУММКВ(Выборка)-СЧЁТ(Выборка)*СРЗНАЧ(Выборка)^2)/ (СЧЁТ(Выборка)-1)

– обычная формула

=СУММ((Выборка -СРЗНАЧ(Выборка))^2)/ (СЧЁТ(Выборка)-1)

формула массива


Дисперсия выборки

равна 0, только в том случае, если все значения равны между собой и, соответственно, равны

среднему значению

.

Чем больше величина

дисперсии

, тем больше разброс значений в массиве относительно

среднего

.

Размерность

дисперсии

соответствует квадрату единицы измерения исходных значений. Например, если значения в выборке представляют собой измерения веса детали (в кг), то размерность

дисперсии

будет кг

2

. Это бывает сложно интерпретировать, поэтому для характеристики разброса значений чаще используют величину равную квадратному корню из

дисперсии – стандартное отклонение

.

Подробнее о

дисперсии

см. статью

Дисперсия и стандартное отклонение в MS EXCEL

.

Стандартное отклонение выборки


Стандартное отклонение выборки

(Standard Deviation), как и

дисперсия

, — это мера того, насколько широко разбросаны значения в выборке

относительно их среднего

.

По определению,

стандартное отклонение

равно квадратному корню из

дисперсии

:


Стандартное отклонение

не учитывает величину значений в

выборке

, а только степень рассеивания значений вокруг их

среднего

. Чтобы проиллюстрировать это приведем пример.

Вычислим стандартное отклонение для 2-х

выборок

: (1; 5; 9) и (1001; 1005; 1009). В обоих случаях, s=4. Очевидно, что отношение величины стандартного отклонения к значениям массива у

выборок

существенно отличается.

В MS EXCEL 2007 и более ранних версиях для вычисления

Стандартного отклонения выборки

используется функция

СТАНДОТКЛОН()

. С версии MS EXCEL 2010 рекомендуется использовать ее аналог

СТАНДОТКЛОН.В()

.


Стандартное отклонение

можно также вычислить непосредственно по нижеуказанным формулам (см.

файл примера

):

=КОРЕНЬ(КВАДРОТКЛ(Выборка)/(СЧЁТ(Выборка)-1)) =КОРЕНЬ((СУММКВ(Выборка)-СЧЁТ(Выборка)*СРЗНАЧ(Выборка)^2)/(СЧЁТ(Выборка)-1))

Подробнее о

стандартном отклонении

см. статью

Дисперсия и стандартное отклонение в MS EXCEL

.

Стандартная ошибка

В

Пакете анализа

под термином

стандартная ошибка

имеется ввиду

Стандартная ошибка среднего

(Standard Error of the Mean, SEM).

Стандартная ошибка среднего

— это оценка

стандартного отклонения

распределения

выборочного среднего

.


Примечание

: Чтобы разобраться с понятием

Стандартная ошибка среднего

необходимо прочитать о

выборочном распределении

(см. статью

Статистики, их выборочные распределения и точечные оценки параметров распределений в MS EXCEL

) и статью про

Центральную предельную теорему

.


Стандартное отклонение распределения выборочного среднего

вычисляется по формуле σ/√n, где n — объём

выборки, σ — стандартное отклонение исходного

распределения, из которого взята

выборка

. Т.к. обычно

стандартное отклонение

исходного распределения неизвестно, то в расчетах вместо

σ

используют ее оценку

s



стандартное отклонение выборки

. А соответствующая величина s/√n имеет специальное название —

Стандартная ошибка среднего.

Именно эта величина вычисляется в

Пакете анализа.

В MS EXCEL

стандартную ошибку среднего

можно также вычислить по формуле

=СТАНДОТКЛОН.В(Выборка)/ КОРЕНЬ(СЧЁТ(Выборка))

Асимметричность


Асимметричность

или

коэффициент асимметрии

(skewness) характеризует степень несимметричности распределения (

плотности распределения

) относительно его

среднего

.

Положительное значение

коэффициента асимметрии

указывает, что размер правого «хвоста» распределения больше, чем левого (относительно среднего). Отрицательная асимметрия, наоборот, указывает на то, что левый хвост распределения больше правого.

Коэффициент асимметрии

идеально симметричного распределения или выборки равно 0.


Примечание

:

Асимметрия выборки

может отличаться расчетного значения асимметрии теоретического распределения. Например,

Нормальное распределение

является симметричным распределением (

плотность его распределения

симметрична относительно

среднего

) и, поэтому имеет асимметрию равную 0. Понятно, что при этом значения в

выборке

из соответствующей

генеральной совокупности

не обязательно должны располагаться совершенно симметрично относительно

среднего

. Поэтому,

асимметрия выборки

, являющейся оценкой

асимметрии распределения

, может отличаться от 0.

Функция

СКОС()

, английский вариант SKEW(), возвращает коэффициент

асимметрии выборки

, являющейся оценкой

асимметрии

соответствующего распределения, и определяется следующим образом:

где n – размер

выборки

, s –

стандартное отклонение выборки

.

В

файле примера на листе СКОС

приведен расчет коэффициента

асимметрии

на примере случайной выборки из

распределения Вейбулла

, которое имеет значительную положительную

асимметрию

при параметрах распределения W(1,5; 1).

Эксцесс выборки


Эксцесс

показывает относительный вес «хвостов» распределения относительно его центральной части.

Для того чтобы определить, что относится к хвостам распределения, а что к его центральной части, можно использовать границы μ +/-

σ

.


Примечание

: Не смотря на старания профессиональных статистиков, в литературе еще попадается определение

Эксцесса

как меры «остроконечности» (peakedness) или сглаженности распределения. Но, на самом деле, значение

Эксцесса

ничего не говорит о форме пика распределения.

Согласно определения,

Эксцесс

равен четвертому

стандартизированному моменту:

Для

нормального распределения

четвертый момент равен 3*σ

4

, следовательно,

Эксцесс

равен 3. Многие компьютерные программы используют для расчетов не сам

Эксцесс

, а так называемый Kurtosis excess, который меньше на 3. Т.е. для

нормального распределения

Kurtosis excess равен 0. Необходимо быть внимательным, т.к. часто не очевидно, какая формула лежит в основе расчетов.


Примечание

: Еще большую путаницу вносит перевод этих терминов на русский язык. Термин Kurtosis происходит от греческого слова «изогнутый», «имеющий арку». Так сложилось, что на русский язык оба термина Kurtosis и Kurtosis excess переводятся как

Эксцесс

(от англ. excess — «излишек»). Например, функция MS EXCEL

ЭКСЦЕСС()

на самом деле вычисляет Kurtosis excess.

Функция

ЭКСЦЕСС()

, английский вариант KURT(), вычисляет на основе значений выборки несмещенную оценку

эксцесса распределения

случайной величины и определяется следующим образом:

Как видно из формулы MS EXCEL использует именно Kurtosis excess, т.е. для выборки из

нормального распределения

формула вернет близкое к 0 значение.

Если задано менее четырех точек данных, то функция

ЭКСЦЕСС()

возвращает значение ошибки #ДЕЛ/0!

Вернемся к

распределениям случайной величины

.

Эксцесс

(Kurtosis excess) для

нормального распределения

всегда равен 0, т.е. не зависит от параметров распределения μ и σ. Для большинства других распределений

Эксцесс

зависит от параметров распределения: см., например,

распределение Вейбулла

или

распределение Пуассона

, для котрого

Эксцесс

= 1/λ.

Уровень надежности


Уровень

надежности

— означает вероятность того, что

доверительный интервал

содержит истинное значение оцениваемого параметра распределения.

Вместо термина

Уровень

надежности

часто используется термин

Уровень доверия

. Про

Уровень надежности

(Confidence Level for Mean) читайте статью

Уровень значимости и уровень надежности в MS EXCEL

.

Задав значение

Уровня

надежности

в окне

надстройки Пакет анализа

, MS EXCEL вычислит половину ширины

доверительного интервала для оценки среднего (дисперсия неизвестна)

.

Тот же результат можно получить по формуле (см.

файл примера

):

=ДОВЕРИТ.СТЬЮДЕНТ(1-0,95;s;n)

s —

стандартное отклонение выборки

, n – объем

выборки

.

Подробнее см. статью про

построение доверительного интервала для оценки среднего (дисперсия неизвестна)

.

Для различных аналитических целей часто требуется получить средний уровень различных показателей: средний возраст, средняя зарплата и т.д. Первое, что приходит на ум – это найти простое среднее арифметическое. Но всегда ли это правильно? В этой статье разберемся, что такое медиана, среднее арифметическое и мода. А также научимся считать их в Excel.

  • Среднее арифметическое
  • Медиана – чем отличается от среднего значения
  • Что лучше – медиана или среднее значение
  • Что такое мода
  • Средневзвешенное значение

Среднее арифметическое

Среднее арифметическое значение – это сумма всех элементов выборки, поделенная на количество этих элементов.

Например, есть список должностей и заработных плат. Чтобы посчитать среднюю заработную плату в Excel, воспользуемся функцией СРЗНАЧ.

Мода медиана и среднее значение как посчитать в excel

Медиана – чем отличается от среднего значения

Медиана – это середина набора чисел, отсортированного по возрастанию.

Другими словами, 50% наблюдений ниже медианы и 50% наблюдений выше медианы. Медиана всегда равно удалена от начала и от конца набора чисел.

Если набор чисел состоит из нечетного количества элементов, то медианой будет число, которое находится в середине.

Мода медиана и среднее значение как посчитать в excel

Если набор чисел состоит из четного числа элементов, то медиана будет равна среднему арифметическому между двумя центральными элементами списка.

Мода медиана и среднее значение как посчитать в excel

Чтобы наглядно увидеть, чем отличается медиана от среднеарифметического значения на нашем первом примере с зарплатой, отсортируем список по возрастанию.

Поскольку в списке 10 элементов – четное количество – то медианой будет среднее арифметическое 5 и 6 элементов.

Мода медиана и среднее значение как посчитать в excel

Чтобы посчитать медиану в Excel, воспользуемся функцией МЕДИАНА. В качестве аргументов функция принимает числовые значения ряда данных.

Мода медиана и среднее значение как посчитать в excel

Как видите, медиана не равна среднему значению.

Что лучше – медиана или среднее значение

На этот вопрос однозначного ответа нет, все зависит от целей вашего анализа.

Основные отличия медианы от среднего арифметического:

  1. Медиана в отличие от среднего арифметического игнорирует выбросы данных (выбросы – это значения, которые значительно отличаются от основного массива выборки).

Рассмотрим пример:

Мода медиана и среднее значение как посчитать в excel

В данном примере число 100 – это выброс, т.к. оно значительно отличается от основной других чисел в ряду. И при расчете среднего арифметического это число 100 исказило среднее – оно стало значительно больше остальных чисел.

Медиана же останется неизменной, даже если вместо 100 мы укажем 1000, т.к. середина ряда все равно будет число 6.

Это свойство медианы – игнорировать выбросы – особенно полезно, когда нужно посчитать среднюю зарплату или средний возраст. В целом, медиана более точно определяет середину выборки, чем среднее арифметическое, поскольку устойчива к искажениям.

  1. Свойство медианы игнорировать выбросы, на самом деле, не всегда полезно. Оно может скрыть из виду важные моменты, тогда как среднее арифметическое, завысив или занизив среднее, поможет обратить на них внимание.

В нашем примере с заработной платой среднее арифметическое заработных плат выше, чем медиана. Это может обратить внимание на то, что одна из заработных плат (в данном случае – директора) сильно отличается от заработных плат других сотрудников.

  1. Если ряд данных имеет нормальное или близкое к нормальному распределение, то медиана или среднее значение будут равны или близки друг к другу.
  2. Если среднее значение больше медианы, то распределение положительно искажено (т.е. имеет выбросы в сторону больших значений). И наоборот, если среднее значение меньше медианы, то выборка отрицательно искажена (преобладают меньшие значения).

Что такое мода

Мода – это наиболее часто встречающееся значение выборки.

В нашем примере мода – это заработная плата 40000, т.к. это значение встречается 3 раза, в то время, как остальные значения – один или два раза.

Мода медиана и среднее значение как посчитать в excel

Чтобы посчитать моду в Excel, используем функцию МОДА.

Мода медиана и среднее значение как посчитать в excel

Для чего считать моду? Пример использования моды на коммерческом предприятии: для планирования производства обуви необходимо определить размер, который наиболее часто приобретают покупатели.

Средневзвешенное значение

Средневзвешенное значение отличается от среднего арифметического тем, что каждому элементу ряда присваивается «вес» — или как бы «значимость» его в ряду.

Для того, что определить средневзвешенное, сумма элементов ряда, умноженная на их «вес», делится на количество элементов.

Рассмотрим на том же примере с зарплатой. Добавим к таблице два столбца: количество сотрудников и ФОТ (в этом столбце умножим заработную плату одного сотрудника на количество сотрудников).

Мода медиана и среднее значение как посчитать в excel

Чтобы посчитать средневзвешенную заработную плату, разделим сумму всех зарплат сотрудников на сумму количества сотрудников.

Мода медиана и среднее значение как посчитать в excel

Таким образом, зарплату каждого сотрудника мы «взвесили» на количество сотрудников каждой должности.

Если разложить формулу средневзвешенного подобно, то получается:

Мода медиана и среднее значение как посчитать в excel

Для данного примера медиана, среднее арифметическое, средневзвешенное и мода отличаются.

Таким образом, в этом статье мы разобрались, что такое медиана, среднее арифметическое и мода и узнали, при помощи каких функций их можно посчитать в Excel.


   Сообщество Excel Analytics | обучение Excel

    Канал на Яндекс.Дзен 


Вам может быть интересно:

Функция МЕДИАНА в Excel используется для анализа диапазона числовых значений и возвращает число, которое является серединой исследуемого множества (медианой). То есть, данная функция условно разделяет множество чисел на два подмножества, первое из которых содержит числа меньше медианы, а второе – больше. Медиана является одним из нескольких методов определения центральной тенденции исследуемого диапазона.

Примеры использования функции МЕДИАНА в Excel

Пример 1. При исследовании возрастных групп студентов использовались данные случайно выбранной группы учащихся в ВУЗе. Задача – определить срединный возраст студентов.

Исходные данные:

Пример 1.

Формула для расчета:

Формула для расчета.

Описание аргумента:

  • B3:B15 – диапазон исследуемых возрастов.

Полученный результат:

результат.

То есть в группе есть студенты, возраст которых меньше 21 года и больше этого значения.



Сравнение функций МЕДИАНА и СРЗНАЧ для вычисления среднего значения

Пример 2. Во время вечернего обхода в больнице каждому больному была замерена температура тела. Продемонстрировать целесообразность использования параметра медиана вместо среднего значения для исследования ряда полученных значений.

Исходные данные:

Пример 2.

Формула для нахождения среднего значения:

Формула для среднего значения.

Формула для нахождения медианы:

нахождение медианы.

Как видно из показателя среднего значения, в среднем температура у пациентов выше нормы, однако это не соответствует действительности. Медиана показывает, что как минимум у половины пациентов наблюдается нормальная температура тела, не превышающая показатель 36,6.

Внимание! Еще одним методом определения центральной тенденции является мода (наиболее часто встречающееся значение в исследуемом диапазоне). Чтобы определить центральную тенденцию в Excel следует использовать функцию МОДА. Обратите внимание: в данном примере значения медианы и моды совпадают:

МОДА.

То есть срединная величина, делящая одно множество на подмножества меньших и больших значений также является и наиболее часто встречающимся значением в множестве. Как видно, у большинства пациентов температура составляет 36,6.

Пример расчета медианы при статистическом анализе в Excel

Пример 3. В магазине работают 3 продавца. По результатам последних 10 дней необходимо определить работника, которому будет выдана премия. При выборе лучшего работника учитывается степень эффективности его работы, а не число проданных товаров.

Исходная таблица данных:

таблица данных.

Для характеристики эффективности будем использовать сразу три показателя: среднее значение, медиана и мода. Определим их для каждого работника с использованием формул СРЗНАЧ, МЕДИАНА и МОДА соответственно:

характеристики.

Для определения степени разброса данных используем величину, которая является суммарным значением модуля разницы среднего значения и моды, среднего значения и медианы соответственно. То есть коэффициент x=|av-med|+|av-mod|, где:

  • av – среднее значение;
  • med – медиана;
  • mod – мода.

Рассчитаем значение коэффициента x для первого продавца:

Аналогично проведем расчеты для остальных продавцов. Полученные результаты:

значение коэффициента.

Определим продавца, которому будет выдана премия:

Примечание: функция НАИМЕНЬШИЙ возвращает первое минимальное значение из рассматриваемого диапазона значений коэффициента x.

выдана премия.

Коэффициент x является некоторой количественной характеристикой стабильности работы продавцов, которую ввел экономист магазина. С его помощью удалось определить диапазон с наименьшими отклонениями значений. Этот способ демонстрирует, как можно использовать сразу три метода определения центральной тенденции для получения наиболее достоверных результатов.

Особенности использования функции МЕДИАНА в Excel

Функция имеет следующий синтаксис:

=МЕДИАНА(число1;[число2];…)

Описание аргументов:

  • число1 – обязательный аргумент, характеризующий первое числовое значение, содержащееся в исследуемом диапазоне;
  • [число2] – необязательный второй (и последующие аргументы, всего до 255 аргументов), характеризующий второе и последующие значения исследуемого диапазона.

Примечания 1:

  1. При расчетах удобнее передавать сразу весь диапазон исследуемых значений вместо последовательного ввода аргументов.
  2. В качестве аргументов принимаются данные числового типа, имена, содержащие числа, данные ссылочного типа и массивы (например, =МЕДИАНА({1;2;3;5;7;10})).
  3. При расчете медианы учитываются ячейки, содержащие пустые значения или логические ИСТИНА, ЛОЖЬ, которые будут интерпретированы как числовые значения 1 и 0 соответственно. Например, результат выполнения функции с логическими значениями в аргументах (ИСТИНА;ЛОЖЬ) эквивалентен результату выполнения с аргументами (1;0) и равен 0,5.
  4. Если один или несколько аргументов функции принимают текстовые значения, которые не могут быть преобразованы в числовые, или содержат коды ошибок, результатом выполнения функции будет код ошибки #ЗНАЧ!.
  5. Для определения медианы выборки могут быть использованы другие функции Excel: ПРОЦЕНТИЛЬ.ВКЛ, КВАРТИЛЬ.ВКЛ, НАИБОЛЬШИЙ Примеры использования:
  • =ПРОЦЕНТИЛЬ.ВКЛ(A1:A10;0,5), поскольку по определению медиана – 50-я процентиль.
  • =КВАРТИЛЬ.ВКЛ(A1:A10;2), так как медиана – 2-я квартиль.
  • =НАИБОЛЬШИЙ(A1:A9;СЧЁТ(A1:A9)/2), но только если количество чисел в диапазоне является нечетным числом.

Примечания 2:

  1. Если в исследуемом диапазоне все числа распределены симметрично относительно среднего значения, среднее арифметическое и медиана для данного диапазона будут эквивалентны.
  2. При больших отклонениях данных в диапазоне («разбросе» значений) медиана лучше отражает тенденцию распределения значений, чем среднее арифметическое. Отличным примером является использование медианы для определения реального уровня зарплат у населения государства, в котором чиновники получают на порядок больше обычных граждан.
  3. Диапазон исследуемых значений может содержать:

Скачать примеры функции МЕДИАНА для статистического анализа в Excel

  • Нечетное количество чисел. В этом случае медианой будет являться единственное число, разделяющее диапазон на два подмножества больших и меньших значений соответственно;
  • Четное количество чисел. Тогда медиана вычисляется как среднее арифметическое для двух числовых значений, разделяющих множество на два указанных выше подмножества.

Содержание

  • Использование описательной статистики
    • Подключение «Пакета анализа»
    • Применение инструмента «Описательная статистика»
  • Вопросы и ответы

Описательная статистика в Microsoft Excel

Пользователи Эксель знают, что данная программа имеет очень широкий набор статистических функций, по уровню которых она вполне может потягаться со специализированными приложениями. Но кроме того, у Excel имеется инструмент, с помощью которого производится обработка данных по целому ряду основных статистических показателей буквально в один клик.

Этот инструмент называется «Описательная статистика». С его помощью можно в очень короткие сроки, использовав ресурсы программы, обработать массив данных и получить о нем информацию по целому ряду статистических критериев. Давайте взглянем, как работает данный инструмент, и остановимся на некоторых нюансах работы с ним.

Использование описательной статистики

Под описательной статистикой понимают систематизацию эмпирических данных по целому ряду основных статистических критериев. Причем на основе полученного результата из этих итоговых показателей можно сформировать общие выводы об изучаемом массиве данных.

В Экселе существует отдельный инструмент, входящий в «Пакет анализа», с помощью которого можно провести данный вид обработки данных. Он так и называется «Описательная статистика». Среди критериев, которые высчитывает данный инструмент следующие показатели:

  • Медиана;
  • Мода;
  • Дисперсия;
  • Среднее;
  • Стандартное отклонение;
  • Стандартная ошибка;
  • Асимметричность и др.

Рассмотрим, как работает данный инструмент на примере Excel 2010, хотя данный алгоритм применим также в Excel 2007 и в более поздних версиях данной программы.

Подключение «Пакета анализа»

Как уже было сказано выше, инструмент «Описательная статистика» входит в более широкий набор функций, который принято называть Пакет анализа. Но дело в том, что по умолчанию данная надстройка в Экселе отключена. Поэтому, если вы до сих пор её не включили, то для использования возможностей описательной статистики, придется это сделать.

  1. Переходим во вкладку «Файл». Далее производим перемещение в пункт «Параметры».
  2. Переход в параметры в Microsoft Excel

  3. В активировавшемся окне параметров перемещаемся в подраздел «Надстройки». В самой нижней части окна находится поле «Управление». Нужно в нем переставить переключатель в позицию «Надстройки Excel», если он находится в другом положении. Вслед за этим жмем на кнопку «Перейти…».
  4. Переход в надстройки в Microsoft Excel

  5. Запускается окно стандартных надстроек Excel. Около наименования «Пакет анализа» ставим флажок. Затем жмем на кнопку «OK».

Включение надстройки Пакет анализа в Microsoft Excel

После вышеуказанных действий надстройка Пакет анализа будет активирована и станет доступной во вкладке «Данные» Эксель. Теперь мы сможем использовать на практике инструменты описательной статистики.

Применение инструмента «Описательная статистика»

Теперь посмотрим, как инструмент описательная статистика можно применить на практике. Для этих целей используем готовую таблицу.

  1. Переходим во вкладку «Данные» и выполняем щелчок по кнопке «Анализ данных», которая размещена на ленте в блоке инструментов «Анализ».
  2. Запуск инструмента Анализ данных в Microsoft Excel

  3. Открывается список инструментов, представленных в Пакете анализа. Ищем наименование «Описательная статистика», выделяем его и щелкаем по кнопке «OK».
  4. Переход к Описательной статистике в Microsoft Excel

  5. После выполнения данных действий непосредственно запускается окно «Описательная статистика».

    В поле «Входной интервал» указываем адрес диапазона, который будет подвергаться обработке этим инструментом. Причем указываем его вместе с шапкой таблицы. Для того, чтобы внести нужные нам координаты, устанавливаем курсор в указанное поле. Затем, зажав левую кнопку мыши, выделяем на листе соответствующую табличную область. Как видим, её координаты тут же отобразятся в поле. Так как мы захватили данные вместе с шапкой, то около параметра «Метки в первой строке» следует установить флажок. Тут же выбираем тип группирования, переставив переключатель в позицию «По столбцам» или «По строкам». В нашем случае подходит вариант «По столбцам», но в других случаях, возможно, придется выставить переключатель иначе.

    Lumpics.ru

    Выше мы говорили исключительно о входных данных. Теперь переходим к разбору настроек параметров вывода, которые расположены в этом же окне формирования описательной статистики. Прежде всего, нам нужно определиться, куда именно будут выводиться обработанные данные:

    • Выходной интервал;
    • Новый рабочий лист;
    • Новая рабочая книга.

    В первом случае нужно указать конкретный диапазон на текущем листе или его верхнюю левую ячейку, куда будет выводиться обработанная информация. Во втором случае следует указать название конкретного листа данной книги, где будет отображаться результат обработки. Если листа с таким наименованием в данный момент нет, то он будет создан автоматически после того, как вы нажмете на кнопку «OK». В третьем случае никаких дополнительных параметров указывать не нужно, так как данные будут выводиться в отдельном файле Excel (книге). Мы выбираем вывод результатов на новом рабочем листе под названием «Итоги».

    Далее, если вы хотите чтобы выводилась также итоговая статистика, то нужно установить флажок около соответствующего пункта. Также можно установить уровень надежности, поставив галочку около соответствующего значения. По умолчанию он будет равен 95%, но его можно изменить, внеся другие числа в поле справа.

    Кроме этого, можно установить галочки в пунктах «K-ый наименьший» и «K-ый наибольший», установив значения в соответствующих полях. Но в нашем случае этот параметр так же, как и предыдущий, не является обязательным, поэтому флажки мы не ставим.

    После того, как все указанные данные внесены, жмем на кнопку «OK».

  6. Окно Описательной статистики в Microsoft Excel

  7. После выполнения этих действий таблица с описательной статистикой выводится на отдельном листе, который был нами назван «Итоги». Как видим, данные представлены сумбурно, поэтому их следует отредактировать, расширив соответствующие колонки для более удобного просмотра.
  8. Лист Итоги с итоговыми результатами в Microsoft Excel

  9. После того, как данные «причесаны» можно приступать к их непосредственному анализу. Как видим, при помощи инструмента описательной статистики были рассчитаны следующие показатели:
    • Асимметричность;
    • Интервал;
    • Минимум;
    • Стандартное отклонение;
    • Дисперсия выборки;
    • Максимум;
    • Сумма;
    • Эксцесс;
    • Среднее;
    • Стандартная ошибка;
    • Медиана;
    • Мода;
    • Счет.

Отредактированные итоги описательной статистики в Microsoft Excel

Если какие-то из вышеуказанных данных для конкретного вида анализа не нужны, то их можно удалить, чтобы они не мешали. Далее производится анализ с учетом статистических закономерностей.

Урок: Статистические функции в Excel

Как видим, с помощью инструмента «Описательная статистика» можно сразу получить результат по целому ряду критериев, которые в ином случае рассчитывались с применением отдельно предназначенной для каждого расчета функцией, что заняло бы значительное время у пользователя. А так, все эти расчеты можно получить практически в один клик, использовав соответствующий инструмент — Пакета анализа.

Еще статьи по данной теме:

Помогла ли Вам статья?

Содержание

  1. Описательная статистика в EXCEL
  2. Надстройка Пакет анализа
  3. Среднее выборки
  4. Медиана выборки
  5. Мода выборки
  6. Мода и среднее значение
  7. Дисперсия выборки
  8. Стандартное отклонение выборки
  9. Стандартная ошибка
  10. Асимметричность
  11. Эксцесс выборки
  12. Уровень надежности

Описательная статистика в EXCEL

history 17 ноября 2016 г.

Рассмотрим инструмент Описательная статистика, входящий в надстройку Пакет Анализа. Рассчитаем показатели выборки: среднее, медиана, мода, дисперсия, стандартное отклонение и др.

Задача описательной статистики (descriptive statistics) заключается в том, чтобы с использованием математических инструментов свести сотни значений выборки к нескольким итоговым показателям, которые дают представление о выборке .В качестве таких статистических показателей используются: среднее , медиана , мода , дисперсия, стандартное отклонение и др.

Опишем набор числовых данных с помощью определенных показателей. Для чего нужны эти показатели? Эти показатели позволят сделать определенные статистические выводы о распределении , из которого была взята выборка . Например, если у нас есть выборка значений толщины трубы, которая изготавливается на определенном оборудовании, то на основании анализа этой выборки мы сможем сделать, с некой определенной вероятностью, заключение о состоянии процесса изготовления.

Надстройка Пакет анализа

Для вычисления статистических показателей одномерных выборок , используем надстройку Пакет анализа . Затем, все показатели рассчитанные надстройкой, вычислим с помощью встроенных функций MS EXCEL.

СОВЕТ : Подробнее о других инструментах надстройки Пакет анализа и ее подключении – читайте в статье Надстройка Пакет анализа MS EXCEL .

Выборку разместим на листе Пример в файле примера в диапазоне А6:А55 (50 значений).

Примечание : Для удобства написания формул для диапазона А6:А55 создан Именованный диапазон Выборка.

В диалоговом окне Анализ данных выберите инструмент Описательная статистика .

После нажатия кнопки ОК будет выведено другое диалоговое окно,

в котором нужно указать:

  • входной интервал (Input Range) – это диапазон ячеек, в котором содержится массив данных. Если в указанный диапазон входит текстовый заголовок набора данных, то нужно поставить галочку в поле Метки в первой строке (Labelsinfirstrow). В этом случае заголовок будет выведен в Выходном интервале. Пустые ячейки будут проигнорированы, поэтому нулевые значения необходимо обязательно указывать в ячейках, а не оставлять их пустыми;
  • выходной интервал (Output Range). Здесь укажите адрес верхней левой ячейки диапазона, в который будут выведены статистические показатели;
  • Итоговая статистика (SummaryStatistics) . Поставьте галочку напротив этого поля – будут выведены основные показатели выборки: среднее, медиана, мода, стандартное отклонение и др.;
  • Также можно поставить галочки напротив полей Уровень надежности (ConfidenceLevelforMean) , К-й наименьший (Kth Largest) и К-й наибольший (Kth Smallest).

В результате будут выведены следующие статистические показатели:

Все показатели выведены в виде значений, а не формул. Если массив данных изменился, то необходимо перезапустить расчет.

Если во входном интервале указать ссылку на несколько столбцов данных, то будет рассчитано соответствующее количество наборов показателей. Такой подход позволяет сравнить несколько наборов данных. При сравнении нескольких наборов данных используйте заголовки (включите их во Входной интервал и установите галочку в поле Метки в первой строке ). Если наборы данных разной длины, то это не проблема — пустые ячейки будут проигнорированы.

Зеленым цветом на картинке выше и в файле примера выделены показатели, которые не требуют особого пояснения. Для большинства из них имеется специализированная функция:

  • Интервал (Range) — разница между максимальным и минимальным значениями;
  • Минимум (Minimum) – минимальное значение в диапазоне ячеек, указанном во Входном интервале (см. статью про функцию МИН() );
  • Максимум (Maximum)– максимальное значение (см. статью про функцию МАКС() );
  • Сумма (Sum) – сумма всех значений (см. статью про функцию СУММ() );
  • Счет (Count) – количество значений во Входном интервале (пустые ячейки игнорируются, см. статью про функцию СЧЁТ() );
  • Наибольший (Kth Largest) – выводится К-й наибольший. Например, 1-й наибольший – это максимальное значение (см. статью про функцию НАИБОЛЬШИЙ() );
  • Наименьший (Kth Smallest) – выводится К-й наименьший. Например, 1-й наименьший – это минимальное значение (см. статью про функцию НАИМЕНЬШИЙ() ).

Ниже даны подробные описания остальных показателей.

Среднее выборки

Среднее (mean, average) или выборочное среднее или среднее выборки (sample average) представляет собой арифметическое среднее всех значений массива. В MS EXCEL для вычисления среднего выборки используется функция СРЗНАЧ() . Выборочное среднее является «хорошей» (несмещенной и эффективной) оценкой математического ожидания случайной величины (подробнее см. статью Среднее и Математическое ожидание в MS EXCEL ).

Медиана (Median) – это число, которое является серединой множества чисел (в данном случае выборки): половина чисел множества больше, чем медиана , а половина чисел меньше, чем медиана . Для определения медианы необходимо сначала отсортировать множество чисел . Например, медианой для чисел 2, 3, 3, 4 , 5, 7, 10 будет 4.

Если множество содержит четное количество чисел, то вычисляется среднее для двух чисел, находящихся в середине множества. Например, медианой для чисел 2, 3, 3 , 5 , 7, 10 будет 4, т.к. (3+5)/2.

Если имеется длинный хвост распределения, то Медиана лучше, чем среднее значение , отражает «типичное» или «центральное» значение. Например, рассмотрим несправедливое распределение зарплат в компании, в которой руководство получает существенно больше, чем основная масса сотрудников.

Очевидно, что средняя зарплата (71 тыс. руб.) не отражает тот факт, что 86% сотрудников получает не более 30 тыс. руб. (т.е. 86% сотрудников получает зарплату в более, чем в 2 раза меньше средней!). В то же время медиана (15 тыс. руб.) показывает, что как минимум у 50% сотрудников зарплата меньше или равна 15 тыс. руб.

Для определения медианы в MS EXCEL существует одноименная функция МЕДИАНА() , английский вариант — MEDIAN().

Медиану также можно вычислить с помощью формул

Подробнее о медиане см. специальную статью Медиана в MS EXCEL .

СОВЕТ : Подробнее про квартили см. статью, про перцентили (процентили) см. статью.

Мода выборки

Мода (Mode) – это наиболее часто встречающееся (повторяющееся) значение в выборке . Например, в массиве (1; 1; 2 ; 2 ; 2 ; 3; 4; 5) число 2 встречается чаще всего – 3 раза. Значит, число 2 – это мода . Для вычисления моды используется функция МОДА() , английский вариант MODE().

Примечание : Если в массиве нет повторяющихся значений, то функция вернет значение ошибки #Н/Д. Это свойство использовано в статье Есть ли повторы в списке?

Начиная с MS EXCEL 2010 вместо функции МОДА() рекомендуется использовать функцию МОДА.ОДН() , которая является ее полным аналогом. Кроме того, в MS EXCEL 2010 появилась новая функция МОДА.НСК() , которая возвращает несколько наиболее часто повторяющихся значений (если количество их повторов совпадает). НСК – это сокращение от слова НеСКолько.

Например, в массиве (1; 1; 2 ; 2 ; 2 ; 3; 4 ; 4 ; 4 ; 5) числа 2 и 4 встречаются наиболее часто – по 3 раза. Значит, оба числа являются модами . Функции МОДА.ОДН() и МОДА() вернут значение 2, т.к. 2 встречается первым, среди наиболее повторяющихся значений (см. файл примера , лист Мода ).

Чтобы исправить эту несправедливость и была введена функция МОДА.НСК() , которая выводит все моды . Для этого ее нужно ввести как формулу массива .

Как видно из картинки выше, функция МОДА.НСК() вернула все три моды из массива чисел в диапазоне A2:A11 : 1; 3 и 7. Для этого, выделите диапазон C6:C9 , в Строку формул введите формулу =МОДА.НСК(A2:A11) и нажмите CTRL+SHIFT+ENTER . Диапазон C 6: C 9 охватывает 4 ячейки, т.е. количество выделяемых ячеек должно быть больше или равно количеству мод . Если ячеек больше чем м о д, то избыточные ячейки будут заполнены значениями ошибки #Н/Д. Если мода только одна, то все выделенные ячейки будут заполнены значением этой моды .

Теперь вспомним, что мы определили моду для выборки, т.е. для конечного множества значений, взятых из генеральной совокупности . Для непрерывных случайных величин вполне может оказаться, что выборка состоит из массива на подобие этого (0,935; 1,211; 2,430; 3,668; 3,874; …), в котором может не оказаться повторов и функция МОДА() вернет ошибку.

Даже в нашем массиве с модой , которая была определена с помощью надстройки Пакет анализа , творится, что-то не то. Действительно, модой нашего массива значений является число 477, т.к. оно встречается 2 раза, остальные значения не повторяются. Но, если мы посмотрим на гистограмму распределения , построенную для нашего массива, то увидим, что 477 не принадлежит интервалу наиболее часто встречающихся значений (от 150 до 250).

Проблема в том, что мы определили моду как наиболее часто встречающееся значение, а не как наиболее вероятное. Поэтому, моду в учебниках статистики часто определяют не для выборки (массива), а для функции распределения. Например, для логнормального распределения мода (наиболее вероятное значение непрерывной случайной величины х), вычисляется как exp ( m s 2 ) , где m и s параметры этого распределения.

Понятно, что для нашего массива число 477, хотя и является наиболее часто повторяющимся значением, но все же является плохой оценкой для моды распределения, из которого взята выборка (наиболее вероятного значения или для которого плотность вероятности распределения максимальна).

Для того, чтобы получить оценку моды распределения, из генеральной совокупности которого взята выборка , можно, например, построить гистограмму . Оценкой для моды может служить интервал наиболее часто встречающихся значений (самого высокого столбца). Как было сказано выше, в нашем случае это интервал от 150 до 250.

Вывод : Значение моды для выборки , рассчитанное с помощью функции МОДА() , может ввести в заблуждение, особенно для небольших выборок. Эта функция эффективна, когда случайная величина может принимать лишь несколько дискретных значений, а размер выборки существенно превышает количество этих значений.

Например, в рассмотренном примере о распределении заработных плат (см. раздел статьи выше, о Медиане), модой является число 15 (17 значений из 51, т.е. 33%). В этом случае функция МОДА() дает хорошую оценку «наиболее вероятного» значения зарплаты.

Примечание : Строго говоря, в примере с зарплатой мы имеем дело скорее с генеральной совокупностью , чем с выборкой . Т.к. других зарплат в компании просто нет.

О вычислении моды для распределения непрерывной случайной величины читайте статью Мода в MS EXCEL .

Мода и среднее значение

Не смотря на то, что мода – это наиболее вероятное значение случайной величины (вероятность выбрать это значение из Генеральной совокупности максимальна), не следует ожидать, что среднее значение обязательно будет близко к моде .

Примечание : Мода и среднее симметричных распределений совпадает (имеется ввиду симметричность плотности распределения ).

Представим, что мы бросаем некий «неправильный» кубик, у которого на гранях имеются значения (1; 2; 3; 4; 6; 6), т.е. значения 5 нет, а есть вторая 6. Модой является 6, а среднее значение – 3,6666.

Другой пример. Для Логнормального распределения LnN(0;1) мода равна =EXP(m-s2)= EXP(0-1*1)=0,368, а среднее значение 1,649.

Дисперсия выборки

Дисперсия выборки или выборочная дисперсия ( sample variance ) характеризует разброс значений в массиве, отклонение от среднего .

Из формулы №1 видно, что дисперсия выборки это сумма квадратов отклонений каждого значения в массиве от среднего , деленная на размер выборки минус 1.

В MS EXCEL 2007 и более ранних версиях для вычисления дисперсии выборки используется функция ДИСП() . С версии MS EXCEL 2010 рекомендуется использовать ее аналог — функцию ДИСП.В() .

Дисперсию можно также вычислить непосредственно по нижеуказанным формулам (см. файл примера ): =КВАДРОТКЛ(Выборка)/(СЧЁТ(Выборка)-1) =(СУММКВ(Выборка)-СЧЁТ(Выборка)*СРЗНАЧ(Выборка)^2)/ (СЧЁТ(Выборка)-1) – обычная формула =СУММ((Выборка -СРЗНАЧ(Выборка))^2)/ (СЧЁТ(Выборка)-1) – формула массива

Дисперсия выборки равна 0, только в том случае, если все значения равны между собой и, соответственно, равны среднему значению .

Чем больше величина дисперсии , тем больше разброс значений в массиве относительно среднего .

Размерность дисперсии соответствует квадрату единицы измерения исходных значений. Например, если значения в выборке представляют собой измерения веса детали (в кг), то размерность дисперсии будет кг 2 . Это бывает сложно интерпретировать, поэтому для характеристики разброса значений чаще используют величину равную квадратному корню из дисперсии – стандартное отклонение .

Стандартное отклонение выборки

Стандартное отклонение выборки (Standard Deviation), как и дисперсия , — это мера того, насколько широко разбросаны значения в выборке относительно их среднего .

По определению, стандартное отклонение равно квадратному корню из дисперсии :

Стандартное отклонение не учитывает величину значений в выборке , а только степень рассеивания значений вокруг их среднего . Чтобы проиллюстрировать это приведем пример.

Вычислим стандартное отклонение для 2-х выборок : (1; 5; 9) и (1001; 1005; 1009). В обоих случаях, s=4. Очевидно, что отношение величины стандартного отклонения к значениям массива у выборок существенно отличается.

В MS EXCEL 2007 и более ранних версиях для вычисления Стандартного отклонения выборки используется функция СТАНДОТКЛОН() . С версии MS EXCEL 2010 рекомендуется использовать ее аналог СТАНДОТКЛОН.В() .

Стандартное отклонение можно также вычислить непосредственно по нижеуказанным формулам (см. файл примера ): =КОРЕНЬ(КВАДРОТКЛ(Выборка)/(СЧЁТ(Выборка)-1)) =КОРЕНЬ((СУММКВ(Выборка)-СЧЁТ(Выборка)*СРЗНАЧ(Выборка)^2)/(СЧЁТ(Выборка)-1))

Стандартная ошибка

В Пакете анализа под термином стандартная ошибка имеется ввиду Стандартная ошибка среднего (Standard Error of the Mean, SEM). Стандартная ошибка среднего — это оценка стандартного отклонения распределения выборочного среднего .

Примечание : Чтобы разобраться с понятием Стандартная ошибка среднего необходимо прочитать о выборочном распределении (см. статью Статистики, их выборочные распределения и точечные оценки параметров распределений в MS EXCEL ) и статью про Центральную предельную теорему .

Стандартное отклонение распределения выборочного среднего вычисляется по формуле σ/√n, где n — объём выборки, σ — стандартное отклонение исходного распределения, из которого взята выборка . Т.к. обычно стандартное отклонение исходного распределения неизвестно, то в расчетах вместо σ используют ее оценку sстандартное отклонение выборки . А соответствующая величина s/√n имеет специальное название — Стандартная ошибка среднего. Именно эта величина вычисляется в Пакете анализа.

В MS EXCEL стандартную ошибку среднего можно также вычислить по формуле =СТАНДОТКЛОН.В(Выборка)/ КОРЕНЬ(СЧЁТ(Выборка))

Асимметричность

Асимметричность или коэффициент асимметрии (skewness) характеризует степень несимметричности распределения ( плотности распределения ) относительно его среднего .

Положительное значение коэффициента асимметрии указывает, что размер правого «хвоста» распределения больше, чем левого (относительно среднего). Отрицательная асимметрия, наоборот, указывает на то, что левый хвост распределения больше правого. Коэффициент асимметрии идеально симметричного распределения или выборки равно 0.

Примечание : Асимметрия выборки может отличаться расчетного значения асимметрии теоретического распределения. Например, Нормальное распределение является симметричным распределением ( плотность его распределения симметрична относительно среднего ) и, поэтому имеет асимметрию равную 0. Понятно, что при этом значения в выборке из соответствующей генеральной совокупности не обязательно должны располагаться совершенно симметрично относительно среднего . Поэтому, асимметрия выборки , являющейся оценкой асимметрии распределения , может отличаться от 0.

Функция СКОС() , английский вариант SKEW(), возвращает коэффициент асимметрии выборки , являющейся оценкой асимметрии соответствующего распределения, и определяется следующим образом:

где n – размер выборки , s – стандартное отклонение выборки .

В файле примера на листе СКОС приведен расчет коэффициента асимметрии на примере случайной выборки из распределения Вейбулла , которое имеет значительную положительную асимметрию при параметрах распределения W(1,5; 1).

Эксцесс выборки

Эксцесс показывает относительный вес «хвостов» распределения относительно его центральной части.

Для того чтобы определить, что относится к хвостам распределения, а что к его центральной части, можно использовать границы μ +/- σ .

Примечание : Не смотря на старания профессиональных статистиков, в литературе еще попадается определение Эксцесса как меры «остроконечности» (peakedness) или сглаженности распределения. Но, на самом деле, значение Эксцесса ничего не говорит о форме пика распределения.

Согласно определения, Эксцесс равен четвертому стандартизированному моменту:

Для нормального распределения четвертый момент равен 3*σ 4 , следовательно, Эксцесс равен 3. Многие компьютерные программы используют для расчетов не сам Эксцесс , а так называемый Kurtosis excess, который меньше на 3. Т.е. для нормального распределения Kurtosis excess равен 0. Необходимо быть внимательным, т.к. часто не очевидно, какая формула лежит в основе расчетов.

Примечание : Еще большую путаницу вносит перевод этих терминов на русский язык. Термин Kurtosis происходит от греческого слова «изогнутый», «имеющий арку». Так сложилось, что на русский язык оба термина Kurtosis и Kurtosis excess переводятся как Эксцесс (от англ. excess — «излишек»). Например, функция MS EXCEL ЭКСЦЕСС() на самом деле вычисляет Kurtosis excess.

Функция ЭКСЦЕСС() , английский вариант KURT(), вычисляет на основе значений выборки несмещенную оценку эксцесса распределения случайной величины и определяется следующим образом:

Как видно из формулы MS EXCEL использует именно Kurtosis excess, т.е. для выборки из нормального распределения формула вернет близкое к 0 значение.

Если задано менее четырех точек данных, то функция ЭКСЦЕСС() возвращает значение ошибки #ДЕЛ/0!

Вернемся к распределениям случайной величины . Эксцесс (Kurtosis excess) для нормального распределения всегда равен 0, т.е. не зависит от параметров распределения μ и σ. Для большинства других распределений Эксцесс зависит от параметров распределения: см., например, распределение Вейбулла или распределение Пуассона , для котрого Эксцесс = 1/λ.

Уровень надежности

Уровень надежности — означает вероятность того, что доверительный интервал содержит истинное значение оцениваемого параметра распределения.

Вместо термина Уровень надежности часто используется термин Уровень доверия . Про Уровень надежности (Confidence Level for Mean) читайте статью Уровень значимости и уровень надежности в MS EXCEL .

Задав значение Уровня надежности в окне надстройки Пакет анализа , MS EXCEL вычислит половину ширины доверительного интервала для оценки среднего (дисперсия неизвестна) .

Тот же результат можно получить по формуле (см. файл примера ): =ДОВЕРИТ.СТЬЮДЕНТ(1-0,95;s;n) s — стандартное отклонение выборки , n – объем выборки .

Источник

Содержание

  1. Использование описательной статистики
  2. Подключение «Пакета анализа»
  3. Размах вариации
  4. Вычисление коэффициента вариации
  5. Шаг 1: расчет стандартного отклонения
  6. Шаг 2: расчет среднего арифметического
  7. Шаг 3: нахождение коэффициента вариации
  8. Простая формула для расчета объема выборки
  9. Пример расчета объема выборки
  10. Задачи о генеральной доле
  11. По части судить о целом
  12. Как рассчитать объем выборки
  13. Как определить статистические выбросы и сделать выборку для их удаления в Excel
  14. Способ 1: применение расширенного автофильтра
  15. Способ 2: применение формулы массива
  16. СРЗНАЧ()
  17. СРЗНАЧЕСЛИ()
  18. МАКС()
  19. МИН()

Использование описательной статистики

Под описательной статистикой понимают систематизацию эмпирических данных по целому ряду основных статистических критериев. Причем на основе полученного результата из этих итоговых показателей можно сформировать общие выводы об изучаемом массиве данных.

В Экселе существует отдельный инструмент, входящий в «Пакет анализа», с помощью которого можно провести данный вид обработки данных. Он так и называется «Описательная статистика». Среди критериев, которые высчитывает данный инструмент следующие показатели:

  • Медиана;
  • Мода;
  • Дисперсия;
  • Среднее;
  • Стандартное отклонение;
  • Стандартная ошибка;
  • Асимметричность и др.

Рассмотрим, как работает данный инструмент на примере Excel 2010, хотя данный алгоритм применим также в Excel 2007 и в более поздних версиях данной программы.

Подключение «Пакета анализа»

Как уже было сказано выше, инструмент «Описательная статистика» входит в более широкий набор функций, который принято называть Пакет анализа. Но дело в том, что по умолчанию данная надстройка в Экселе отключена. Поэтому, если вы до сих пор её не включили, то для использования возможностей описательной статистики, придется это сделать.

  1. Переходим во вкладку «Файл». Далее производим перемещение в пункт «Параметры».
  2. В активировавшемся окне параметров перемещаемся в подраздел «Надстройки». В самой нижней части окна находится поле «Управление». Нужно в нем переставить переключатель в позицию «Надстройки Excel», если он находится в другом положении. Вслед за этим жмем на кнопку «Перейти…».
  3. Запускается окно стандартных надстроек Excel. Около наименования «Пакет анализа» ставим флажок. Затем жмем на кнопку «OK».

После вышеуказанных действий надстройка Пакет анализа будет активирована и станет доступной во вкладке «Данные» Эксель. Теперь мы сможем использовать на практике инструменты описательной статистики.

Размах вариации

Размах вариации – разница между максимальным и минимальным значением:

Ниже приведена графическая интерпретация размаха вариации.

Видно максимальное и минимальное значение, а также расстояние между ними, которое и соответствует размаху вариации.

С одной стороны, показатель размаха может быть вполне информативным и полезным. К примеру, максимальная и минимальная стоимость квартиры в городе N, максимальная и минимальная зарплата по профессии в регионе и проч. С другой стороны, размах может быть очень широким и не иметь практического смысла, т.к. зависит лишь от двух наблюдений. Таким образом, размах вариации очень неустойчивая величина.

Вычисление коэффициента вариации

Этот показатель представляет собой отношение стандартного отклонения к среднему арифметическому. Полученный результат выражается в процентах.

В Экселе не существует отдельно функции для вычисления этого показателя, но имеются формулы для расчета стандартного отклонения и среднего арифметического ряда чисел, а именно они используются для нахождения коэффициента вариации.

Шаг 1: расчет стандартного отклонения

Стандартное отклонение, или, как его называют по-другому, среднеквадратичное отклонение, представляет собой квадратный корень из дисперсии. Для расчета стандартного отклонения используется функция СТАНДОТКЛОН. Начиная с версии Excel 2010 она разделена, в зависимости от того, по генеральной совокупности происходит вычисление или по выборке, на два отдельных варианта: СТАНДОТКЛОН.Г и СТАНДОТКЛОН.В.

Синтаксис данных функций выглядит соответствующим образом:

= СТАНДОТКЛОН(Число1;Число2;…)
= СТАНДОТКЛОН.Г(Число1;Число2;…)
= СТАНДОТКЛОН.В(Число1;Число2;…)

  1. Для того, чтобы рассчитать стандартное отклонение, выделяем любую свободную ячейку на листе, которая удобна вам для того, чтобы выводить в неё результаты расчетов. Щелкаем по кнопке «Вставить функцию». Она имеет внешний вид пиктограммы и расположена слева от строки формул.

Выполняется активация Мастера функций, который запускается в виде отдельного окна с перечнем аргументов. Переходим в категорию «Статистические» или «Полный алфавитный перечень». Выбираем наименование «СТАНДОТКЛОН.Г» или «СТАНДОТКЛОН.В», в зависимости от того, по генеральной совокупности или по выборке следует произвести расчет. Жмем на кнопку «OK».

Открывается окно аргументов данной функции. Оно может иметь от 1 до 255 полей, в которых могут содержаться, как конкретные числа, так и ссылки на ячейки или диапазоны. Ставим курсор в поле «Число1». Мышью выделяем на листе тот диапазон значений, который нужно обработать. Если таких областей несколько и они не смежные между собой, то координаты следующей указываем в поле «Число2» и т.д. Когда все нужные данные введены, жмем на кнопку «OK»

  • В предварительно выделенной ячейке отображается итог расчета выбранного вида стандартного отклонения.
  • Шаг 2: расчет среднего арифметического

    Среднее арифметическое является отношением общей суммы всех значений числового ряда к их количеству. Для расчета этого показателя тоже существует отдельная функция – СРЗНАЧ. Вычислим её значение на конкретном примере.

      Выделяем на листе ячейку для вывода результата. Жмем на уже знакомую нам кнопку «Вставить функцию».

    В статистической категории Мастера функций ищем наименование «СРЗНАЧ». После его выделения жмем на кнопку «OK».

    Запускается окно аргументов СРЗНАЧ. Аргументы полностью идентичны тем, что и у операторов группы СТАНДОТКЛОН. То есть, в их качестве могут выступать как отдельные числовые величины, так и ссылки. Устанавливаем курсор в поле «Число1». Так же, как и в предыдущем случае, выделяем на листе нужную нам совокупность ячеек. После того, как их координаты были занесены в поле окна аргументов, жмем на кнопку «OK».

  • Результат вычисления среднего арифметического выводится в ту ячейку, которая была выделена перед открытием Мастера функций.
  • Шаг 3: нахождение коэффициента вариации

    Теперь у нас имеются все необходимые данные для того, чтобы непосредственно рассчитать сам коэффициент вариации.

      Выделяем ячейку, в которую будет выводиться результат. Прежде всего, нужно учесть, что коэффициент вариации является процентным значением. В связи с этим следует поменять формат ячейки на соответствующий. Это можно сделать после её выделения, находясь во вкладке «Главная». Кликаем по полю формата на ленте в блоке инструментов «Число». Из раскрывшегося списка вариантов выбираем «Процентный». После этих действий формат у элемента будет соответствующий.

    Снова возвращаемся к ячейке для вывода результата. Активируем её двойным щелчком левой кнопки мыши. Ставим в ней знак «=». Выделяем элемент, в котором расположен итог вычисления стандартного отклонения. Кликаем по кнопке «разделить» (/) на клавиатуре. Далее выделяем ячейку, в которой располагается среднее арифметическое заданного числового ряда. Для того, чтобы произвести расчет и вывести значение, щёлкаем по кнопке Enter на клавиатуре.

  • Как видим, результат расчета выведен на экран.
  • Таким образом мы произвели вычисление коэффициента вариации, ссылаясь на ячейки, в которых уже были рассчитаны стандартное отклонение и среднее арифметическое. Но можно поступить и несколько по-иному, не рассчитывая отдельно данные значения.

      Выделяем предварительно отформатированную под процентный формат ячейку, в которой будет выведен результат. Прописываем в ней формулу по типу:

    Вместо наименования «Диапазон значений» вставляем реальные координаты области, в которой размещен исследуемый числовой ряд. Это можно сделать простым выделением данного диапазона. Вместо оператора СТАНДОТКЛОН.В, если пользователь считает нужным, можно применять функцию СТАНДОТКЛОН.Г.

  • После этого, чтобы рассчитать значение и показать результат на экране монитора, щелкаем по кнопке Enter.
  • Существует условное разграничение. Считается, что если показатель коэффициента вариации менее 33%, то совокупность чисел однородная. В обратном случае её принято характеризовать, как неоднородную.

    Как видим, программа Эксель позволяет значительно упростить расчет такого сложного статистического вычисления, как поиск коэффициента вариации. К сожалению, в приложении пока не существует функции, которая высчитывала бы этот показатель в одно действие, но при помощи операторов СТАНДОТКЛОН и СРЗНАЧ эта задача очень упрощается. Таким образом, в Excel её может выполнить даже человек, который не имеет высокого уровня знаний связанных со статистическими закономерностями.

    Разделы: Математика

    • Совершенствование умений и навыков нахождения статистических характеристик случайной величины, работа с расчетами в Excel;
    • применение информационно коммутативных технологий для анализа данных; работа с различными информационными носителями.
    1. Сегодня мы научимся рассчитывать статистические характеристики для больших по объему выборок, используя возможности современных компьютерных технологий.
    2. Для начала вспомним:

    – что называется случайной величиной? (Случайной величиной называют переменную величину, которая в зависимости от исхода испытания принимает одно значение из множества возможных значений.)

    – Какие виды случайных величин мы знаем? (Дискретные, непрерывные.)

    – Приведите примеры непрерывных случайных величин (рост дерева), дискретных случайных величин (количество учеников в классе).

    – Какие статистические характеристики случайных величин мы знаем (мода, медиана, среднее выборочное значение, размах ряда).

    – Какие приемы используются для наглядного представления статистических характеристик случайной величины (полигон частот, круговые и столбчатые диаграммы, гистограммы).

    1. Рассмотрим, применение инструментов Excel для решения статистических задач на конкретном примере.

    Пример. Проведена проверка в 100 компаниях. Даны значения количества работающих в компании (чел.):

    23 25 24 25 30 24 30 26 28 26
    32 33 31 31 25 33 25 29 30 28
    23 30 29 24 33 30 30 28 26 25
    26 29 27 29 26 28 27 26 29 28
    29 30 27 30 28 32 28 26 30 26
    31 27 30 27 33 28 26 30 31 29
    27 30 30 29 27 26 28 31 29 28
    33 27 30 33 26 31 34 28 32 22
    29 30 27 29 34 29 32 29 29 30
    29 29 36 29 29 34 23 28 24 28
    рассчитать числовые характеристики:

    • моду
    • медиану
    • размах ряда
    • построить полигон частот
    • построить столбчатую и круговую диаграммы
    • раскрыть смысловую сторону каждой характеристики

    1. Занести данные в EXCEL, каждое число в отдельную ячейку.

    23 25 24 25 30 24 30 26 28 26
    32 33 31 31 25 33 25 29 30 28
    23 30 29 24 33 30 30 28 26 25
    26 29 27 29 26 28 27 26 29 28
    29 30 27 30 28 32 28 26 30 26
    31 27 30 27 33 28 26 30 31 29
    27 30 30 29 27 26 28 31 29 28
    33 27 30 33 26 31 34 28 32 22
    29 30 27 29 34 29 32 29 29 30
    29 29 36 29 29 34 23 28 24 28

    2. Для расчета числовых характеристик используем опцию Вставка – Функция. И в появившемся окне в строке категория выберем – статистические, в списке: МОДА

    В поле Число 1 ставим курсор и мышкой выделяем нашу таблицу:

    Нажимаем клавишу ОК. Получили Мо = 29 (чел) – Фирм у которых в штате 29 человек больше всего.

    Используя тот же путь вычисляем медиану.

    Вставка – Функция – Статистические – Медиана.

    В поле Число 1 ставим курсор и мышкой выделяем нашу таблицу:

    Нажимаем клавишу ОК. Получили Ме = 29 (чел) – среднее значение сотрудников в фирме.

    Размах ряда чисел – разница между наименьшим и наибольшим возможным значением случайной величины. Для вычисления размаха ряда нужно найти наибольшее и наименьшее значения нашей выборки и вычислить их разность.

    Вставка – Функция – Статистические – МАКС.

    В поле Число 1 ставим курсор и мышкой выделяем нашу таблицу:

    Нажимаем клавишу ОК. Получили наибольшее значение = 36.

    Вставка – Функция – Статистические – МИН.

    В поле Число 1 ставим курсор и мышкой выделяем нашу таблицу:

    Нажимаем клавишу ОК. Получили наименьшее значение = 22.

    36 – 22 = 14 (чел) – разница между фирмой с наибольшим штатом сотрудников и фирмой с наименьшим штатом сотрудников.

    Для построения диаграммы и полигона частот необходимо задать закон распределения, т.е. составить таблицу значений случайной величины и соответствующих им частот. Мы ухе знаем, что наименьшее число сотрудников в фирме = 22, а наибольшее = 36. Составим таблицу, в которой значения xi случайной величины меняются от 22 до 36 включительно шагом 1.

    xi 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36
    ni

    Чтобы сосчитать частоту каждого значения воспользуемся

    Вставка – Функция – Статистические – СЧЕТЕСЛИ.

    В окне Диапазон ставим курсор и выделяем нашу выборку, а в окне Критерий ставим число 22

    Нажимаем клавишу ОК, получаем значение 1, т.е. число 22 в нашей выборке встречается 1 раз и его частота =1. Аналогичным образом заполняем всю таблицу.

    xi 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36
    ni 1 3 4 5 11 9 13 18 16 6 4 6 3 0 1

    Для проверки вычисляем объем выборки, сумму частот (Вставка – Функция – Математические – СУММА). Должно получиться 100 (количество всех фирм).

    Чтобы построить полигон частот выделяем таблицу – Вставка – Диаграмма – Стандартные – Точечная (точечная диаграмма на которой значения соединены отрезками)

    Нажимаем клавишу Далее, в Мастере диаграмм указываем название диаграммы (Полигон частот), удаляем легенду, редактируем шкалу и характеристики диаграммы для наибольшей наглядности.

    Для построения столбчатой и круговой диаграмм используем тот же путь (выбирая нужный нам тип диаграммы).

    Диаграмма – Стандартные – Круговая.

    Диаграмма – Стандартные – Гистограмма.

    4. Сегодня на уроке мы научились применять компьютерные технологии для анализа и обработки статистической информации.

    Простая формула для расчета объема выборки

    где: n – объем выборки;

    z – нормированное отклонение, определяемое исходя из выбранного уровня доверительности. Этот показатель характеризует возможность, вероятность попадания ответов в специальный – доверительный интервал. На практике уровень доверительности часто принимают за 95% или 99%. Тогда значения z будут соответственно 1,96 и 2,58;

    p – вариация для выборки, в долях. По сути, p – это вероятность того, что респонденты выберут той или иной вариант ответа. Допустим, если мы считаем, что четверть опрашиваемых выберут ответ «Да», то p будет равно 25%, то есть p = 0,25;

    q = (1 – p);

    e – допустимая ошибка, в долях.

    Пример расчета объема выборки

    Компания планирует провести социологическое исследование с целью выявить долю курящих лиц в населении города. Для этого сотрудники компании будут задавать прохожим один вопрос: «Вы курите?». Возможных вариантов ответа, таким образом, только два: «Да» и «Нет».

    Объем выборки в этом случае рассчитывается следующим образом. Уровень доверительности принимается за 95%, тогда нормированное отклонение z = 1,96. Вариацию принимаем за 50%, то есть условно считаем, что половина респондентов может ответить на вопрос о том, курят ли они – «Да». Тогда p = 0,5. Отсюда находим q = 1 – p = 1 – 0,5 = 0,5. Допустимую ошибку выборки принимаем за 10%, то есть e = 0,1.

    Подставляем эти данные в формулу и считаем:

    Получаем объем выборки n = 96 человек.

    Задачи о генеральной доле

    На вопрос «Накрывает ли доверительный интервал заданное значение p0?» — можно ответить, проверив статистическую гипотезу H0:p=p0. При этом предполагается, что опыты проводятся по схеме испытаний Бернулли (независимы, вероятность p появления события А постоянна). По выборке объема n определяют относительную частоту p* появления события A: где m — количество появлений события А в серии из n испытаний. Для проверки гипотезы H0 используется статистика, имеющая при достаточно большом объеме выборки стандартное нормальное распределение (табл. 1).
    Таблица 1 – Гипотезы о генеральной доле

    Гипотеза

    H0:p=p0 H0:p1=p2
    Предположения Схема испытаний Бернулли Схема испытаний Бернулли
    Оценки по выборке
    Статистика K
    Распределение статистики K Стандартное нормальное N(0,1) Стандартное нормальное N(0,1)

    Пример №1. С помощью случайного повторного отбора руководство фирмы провело выборочный опрос 900 своих служащих. Среди опрошенных оказалось 270 женщин. Постройте доверительный интервал, с вероятностью 0.95 накрывающий истинную долю женщин во всем коллективе фирмы.
    Решение. По условию выборочная доля женщин составляет (относительная частота женщин среди всех опрошенных). Так как отбор является повторным, и объем выборки велик (n=900) предельная ошибка выборки определяется по формуле
    (относительная частота женщин среди всех опрошенных). Так как отбор является повторным, и объем выборки велик (n=900) предельная ошибка выборки определяется по формуле

    Значение uкр находим по таблице функции Лапласа из соотношения 2Ф(uкр)=γ, т.е. Функция Лапласа (приложение 1) принимает значение 0.475 при uкр=1.96. Следовательно, предельная ошибка Функция Лапласа (приложение 1) принимает значение 0.475 при uкр=1.96. Следовательно, предельная ошибка и искомый доверительный интервал
    (p – ε, p + ε) = (0.3 – 0.18; 0.3 + 0.18) = (0.12; 0.48)
    Итак, с вероятностью 0.95 можно гарантировать, что доля женщин во всем коллективе фирмы находится в интервале от 0.12 до 0.48.

    Пример №2. Владелец автостоянки считает день «удачным», если автостоянка заполнена более, чем на 80 %. В течение года было проведено 40 проверок автостоянки, из которых 24 оказались «удачными». С вероятностью 0.98 найдите доверительный интервал для оценки истинной доли «удачных» дней в течение года.
    Решение. Выборочная доля «удачных» дней составляет
    По таблице функции Лапласа найдем значение uкр при заданной
    доверительной вероятности
    По таблице функции Лапласа найдем значение uкр при заданной
    доверительной вероятности

    Ф(2.23) = 0.49, uкр = 2.33.
    Считая отбор бесповторным (т.е. две проверки в один день не проводилось), найдем предельную ошибку:
    где n=40, N = 365 (дней). Отсюда
    где n=40, N = 365 (дней). Отсюда

    и доверительный интервал для генеральной доли: (p – ε, p + ε) = (0.6 – 0.17; 0.6 + 0.17) = (0.43; 0.77)
    С вероятностью 0.98 можно ожидать, что доля «удачных» дней в течение года находится в интервале от 0.43 до 0.77.

    Пример №3. Проверив 2500 изделий в партии, обнаружили, что 400 изделий высшего сорта, а n–m – нет. Сколько надо проверить изделий, чтобы с уверенностью 95% определить долю высшего сорта с точностью до 0.01?
    Решение ищем по формуле определения численности выборки для повторного отбора.

    Ф(t) = γ/2 = 0.95/2 = 0.475 и этому значению по таблице Лапласа соответствует t=1.96
    Выборочная доля w = 0.16; ошибка выборки ε = 0.01

    Пример №4. Партия изделий принимается, если вероятность того, что изделие окажется соответствующим стандарту, составляет не менее 0.97. Среди случайно отобранных 200 изделий проверяемой партии оказалось 193 соответствующих стандарту. Можно ли на уровне значимости α=0,02 принять партию?
    Решение. Сформулируем основную и альтернативную гипотезы.
    H0:p=p0=0,97 — неизвестная генеральная доля p равна заданному значению p0=0,97. Применительно к условию — вероятность того, что деталь из проверяемой партии окажется соответствующей стандарту, равна 0.97; т.е. партию изделий можно принять.
    H1:p<0,97 – вероятность того, что деталь из проверяемой партии окажется соответствующей стандарту, меньше 0.97; т.е. партию изделий нельзя принять. При такой альтернативной гипотезе критическая область будет левосторонней.
    Наблюдаемое значение статистики K (таблица) вычислим при заданных значениях p0=0,97, n=200, m=193


    Критическое значение находим по таблице функции Лапласа из равенства


    По условию α=0,02 отсюда Ф(Ккр)=0,48 и Ккр=2,05. Критическая область левосторонняя, т.е. является интервалом (-∞;-Kkp)= (-∞;-2,05). Наблюдаемое значение Кнабл=-0,415 не принадлежит критической области, следовательно, на данном уровне значимости нет оснований отклонять основную гипотезу. Партию изделий принять можно.

    Пример №5. Два завода изготавливают однотипные детали. Для оценки их качества сделаны выборки из продукции этих заводов и получены следующие результаты. Среди 200 отобранных изделий первого завода оказалось 20 бракованных, среди 300 изделий второго завода — 15 бракованных.
    На уровне значимости 0.025 выяснить, имеется ли существенное различие в качестве изготавливаемых этими заводами деталей.
    Решение. Это задача о сравнении генеральных долей двух совокупностей. Сформулируем основную и альтернативную гипотезы.
    H0:p1=p2 — генеральные доли равны. Применительно к условию — вероятность появления бракованного изделия в продукции первого завода равна вероятности появления бракованного изделия в продукции второго завода (качество продукции одинаково).
    H0:p1≠p2 — заводы изготавливают детали разного качества.
    Для вычисления наблюдаемого значения статистики K (таблица) рассчитаем оценки по выборке.


    Наблюдаемое значение равно


    Так как альтернативная гипотеза двусторонняя, то критическое значение статистики K≈ N(0,1) находим по таблице функции Лапласа из равенства
    Так как альтернативная гипотеза двусторонняя, то критическое значение статистики K≈ N(0,1) находим по таблице функции Лапласа из равенства

    По условию α=0,025 отсюда Ф(Ккр)=0,4875 и Ккр=2,24. При двусторонней альтернативе область допустимых значений имеет вид (-2,24;2,24). Наблюдаемое значение Kнабл=2,15 попадает в этот интервал, т.е. на данном уровне значимости нет оснований отвергать основную гипотезу. Заводы изготавливают изделия одинакового качества.

    По части судить о целом

    О возможности судить о целом по части миру рассказал российский математик П.Л. Чебышев. «Закон больших чисел» простым языком можно сформулировать так: количественные закономерности массовых явлений проявляются только при

    достаточном числе наблюдений

    . Чем больше выборка, тем лучше случайные отклонения компенсируют друг друга и проявляется общая тенденция.
    А.М. Ляпунов чуть позже сформулировал центральную предельную теорему. Она стала фундаментом для создания формул, которые позволяют рассчитать вероятность ошибки (при оценке среднего по выборке) и размер выборки, необходимый для достижения заданной точности.
    Строгие формулировки:

    С увеличением числа случайных величин их среднее арифметическое стремится к среднему арифметическому математических ожиданий и перестает быть случайным. Общий смысл закона больших чисел — совместное действие большого числа случайных факторов приводит к результату, почти не зависящему от случая.
    Таким образом з.б.ч. гарантирует устойчивость для средних значений некоторых случайных событий при достаточно длинной серии экспериментов.

    Распределение случайной величины, которая получена в результате сложения большого числа независимых случайных величин (ни одно из которых не доминирует, не вносит в сумму определяющего вклада и имеет дисперсию значительно меньшею по сравнению с дисперсией суммы) имеет распределение, близкое к нормальному.
    Из ц.п.т. следует, что ошибки выборки также подчиняется нормальному распределению.

    Еще раз: чтобы корректно оценивать популяцию по выборке, нам нужна не обычная выборка, а репрезентативная выборка достаточного размера. Начнем с определения этого самого размера.

    Как рассчитать объем выборки

    Достаточный размер выборки зависит от следующих составляющих:

    • изменчивость признака (чем разнообразней показания, тем больше наблюдений нужно, чтобы это уловить);
    • размер эффекта (чем меньшие эффекты мы стремимся зафиксировать, тем больше наблюдений необходимо);
    • уровень доверия (уровень вероятности при который мы готовы отвергнуть нулевую гипотезу)

    ЗАПОМНИТЕ
    Объем выборки зависит от изменчивости признака и планируемой строгости эксперимента

    Формулы для расчета объема выборки:

    Формулы расчета объема выборки

    Ошибка выборки значительно возрастает, когда наблюдений меньше ста. Для исследований в которых используется 30-100 объектов применяется особая статистическая методология: критерии, основанные на распределении Стьюдента или бутстрэп-анализ. И наконец, статистика совсем слаба, когда наблюдений меньше 30.

    График зависимости ошибки выборки от ее объема при оценке доли признака в г.с.

    Чем больше неопределенность, тем больше ошибка. Максимальная неопределенность при оценке доли — 50% (например, 50% респондентов считают концепцию хорошей, а другие 50% плохой). Если 90% опрошенных концепция понравится — это, наоборот, пример согласованности. В таких случаях оценить долю признака по выборке проще.

    Для экспонирования и выделения цветом значений статистических выбросов от медианы можно использовать несколько простых формул и условное форматирование.

    Первым шагом в поиске значений выбросов статистики является определение статистического центра диапазона данных. С этой целью необходимо сначала определить границы первого и третьего квартала. Определение границ квартала – значит разделение данных на 4 равные группы, которые содержат по 25% данных каждая. Группа, содержащая 25% наибольших значений, называется первым квартилем.

    Границы квартилей в Excel можно легко определить с помощью простой функции КВАРТИЛЬ. Данная функция имеет 2 аргумента: диапазон данных и номер для получения желаемого квартиля.

    В примере показанному на рисунке ниже значения в ячейках E1 и E2 содержат показатели первого и третьего квартиля данных в диапазоне ячеек B2:B19:

    Вычитая от значения первого квартиля третьего, можно определить набор 50% статистических данных, который называется межквартильным диапазоном. В ячейке E3 определен размер межквартильного диапазона.

    В этом месте возникает вопрос, как сильно данное значение может отличаться от среднего значения 50% данных и оставаться все еще в пределах нормы? Статистические аналитики соглашаются с тем, что для определения нижней и верхней границы диапазона данных можно смело использовать коэффициент расширения 1,5 умножив на значение межквартильного диапазона. То есть:

    1. Нижняя граница диапазона данных равна: значение первого квартиля – межкваритльный диапазон * 1,5.
    2. Верхняя граница диапазона данных равна: значение третьего квартиля + расширенных диапазон * 1,5.

    Как показано на рисунке ячейки E5 и E6 содержат вычисленные значения верхней и нижней границы диапазона данных. Каждое значение, которое больше верхней границы нормы или меньше нижней границы нормы считается значением статистического выброса.

    Чтобы выделить цветом для улучшения визуального анализа данных можно создать простое правило для условного форматирования.

    Способ 1: применение расширенного автофильтра

    Наиболее простым способом произвести отбор является применение расширенного автофильтра. Рассмотрим, как это сделать на конкретном примере.

    1. Выделяем область на листе, среди данных которой нужно произвести выборку. Во вкладке «Главная» щелкаем по кнопке «Сортировка и фильтр». Она размещается в блоке настроек «Редактирование». В открывшемся после этого списка выполняем щелчок по кнопке «Фильтр».

      Есть возможность поступить и по-другому. Для этого после выделения области на листе перемещаемся во вкладку «Данные». Щелкаем по кнопке «Фильтр», которая размещена на ленте в группе «Сортировка и фильтр».

    2. После этого действия в шапке таблицы появляются пиктограммы для запуска фильтрования в виде перевернутых острием вниз небольших треугольников на правом краю ячеек. Кликаем по данному значку в заглавии того столбца, по которому желаем произвести выборку. В запустившемся меню переходим по пункту «Текстовые фильтры». Далее выбираем позицию «Настраиваемый фильтр…».
    3. Активируется окно пользовательской фильтрации. В нем можно задать ограничение, по которому будет производиться отбор. В выпадающем списке для столбца содержащего ячейки числового формата, который мы используем для примера, можно выбрать одно из пяти видов условий:
      • равно;
      • не равно;
      • больше;
      • больше или равно;
      • меньше.

      Давайте в качестве примера зададим условие так, чтобы отобрать только значения, по которым сумма выручки превышает 10000 рублей. Устанавливаем переключатель в позицию «Больше». В правое поле вписываем значение «10000». Чтобы произвести выполнение действия, щелкаем по кнопке «OK».

    4. Как видим, после фильтрации остались только строчки, в которых сумма выручки превышает 10000 рублей.
    5. Но в этом же столбце мы можем добавить и второе условие. Для этого опять возвращаемся в окно пользовательской фильтрации. Как видим, в его нижней части есть ещё один переключатель условия и соответствующее ему поле для ввода. Давайте установим теперь верхнюю границу отбора в 15000 рублей. Для этого выставляем переключатель в позицию «Меньше», а в поле справа вписываем значение «15000».

      Кроме того, существует ещё переключатель условий. У него два положения «И» и «ИЛИ». По умолчанию он установлен в первом положении. Это означает, что в выборке останутся только строчки, которые удовлетворяют обоим ограничениям. Если он будет выставлен в положение «ИЛИ», то тогда останутся значения, которые подходят под любое из двух условий. В нашем случае нужно выставить переключатель в положение «И», то есть, оставить данную настройку по умолчанию. После того, как все значения введены, щелкаем по кнопке «OK».

    6. Теперь в таблице остались только строчки, в которых сумма выручки не меньше 10000 рублей, но не превышает 15000 рублей.
    7. Аналогично можно настраивать фильтры и в других столбцах. При этом имеется возможность сохранять также фильтрацию и по предыдущим условиям, которые были заданы в колонках. Итак, посмотрим, как производится отбор с помощью фильтра для ячеек в формате даты. Кликаем по значку фильтрации в соответствующем столбце. Последовательно кликаем по пунктам списка «Фильтр по дате» и «Настраиваемый фильтр».
    8. Снова запускается окно пользовательского автофильтра. Выполним отбор результатов в таблице с 4 по 6 мая 2016 года включительно. В переключателе выбора условий, как видим, ещё больше вариантов, чем для числового формата. Выбираем позицию «После или равно». В поле справа устанавливаем значение «04.05.2016». В нижнем блоке устанавливаем переключатель в позицию «До или равно». В правом поле вписываем значение «06.05.2016». Переключатель совместимости условий оставляем в положении по умолчанию – «И». Для того, чтобы применить фильтрацию в действии, жмем на кнопку «OK».
    9. Как видим, наш список ещё больше сократился. Теперь в нем оставлены только строчки, в которых сумма выручки варьируется от 10000 до 15000 рублей за период с 04.05 по 06.05.2016 включительно.
    10. Мы можем сбросить фильтрацию в одном из столбцов. Сделаем это для значений выручки. Кликаем по значку автофильтра в соответствующем столбце. В выпадающем списке щелкаем по пункту «Удалить фильтр».
    11. Как видим, после этих действий, выборка по сумме выручки будет отключена, а останется только отбор по датам (с 04.05.2016 по 06.05.2016).
    12. В данной таблице имеется ещё одна колонка – «Наименование». В ней содержатся данные в текстовом формате. Посмотрим, как сформировать выборку с помощью фильтрации по этим значениям.

      Кликаем по значку фильтра в наименовании столбца. Последовательно переходим по наименованиям списка «Текстовые фильтры» и «Настраиваемый фильтр…».

    13. Опять открывается окно пользовательского автофильтра. Давайте сделаем выборку по наименованиям «Картофель» и «Мясо». В первом блоке переключатель условий устанавливаем в позицию «Равно». В поле справа от него вписываем слово «Картофель». Переключатель нижнего блока так же ставим в позицию «Равно». В поле напротив него делаем запись – «Мясо». И вот далее мы выполняем то, чего ранее не делали: устанавливаем переключатель совместимости условий в позицию «ИЛИ». Теперь строчка, содержащая любое из указанных условий, будет выводиться на экран. Щелкаем по кнопке «OK».
    14. Как видим, в новой выборке существуют ограничения по дате (с 04.05.2016 по 06.05.2016) и по наименованию (картофель и мясо). По сумме выручки ограничений нет.
    15. Полностью удалить фильтр можно теми же способами, которые использовались для его установки. Причем неважно, какой именно способ применялся. Для сброса фильтрации, находясь во вкладке «Данные» щелкаем по кнопке «Фильтр», которая размещена в группе «Сортировка и фильтр».

      Второй вариант предполагает переход во вкладку «Главная». Там выполняем щелчок на ленте по кнопке «Сортировка и фильтр» в блоке «Редактирование». В активировавшемся списке нажимаем на кнопку «Фильтр».

    При использовании любого из двух вышеуказанных методов фильтрация будет удалена, а результаты выборки – очищены. То есть, в таблице будет показан весь массив данных, которыми она располагает.

    Способ 2: применение формулы массива

    Сделать отбор можно также применив сложную формулу массива. В отличие от предыдущего варианта, данный метод предусматривает вывод результата в отдельную таблицу.

    1. На том же листе создаем пустую таблицу с такими же наименованиями столбцов в шапке, что и у исходника.
    2. Выделяем все пустые ячейки первой колонки новой таблицы. Устанавливаем курсор в строку формул. Как раз сюда будет заноситься формула, производящая выборку по указанным критериям. Отберем строчки, сумма выручки в которых превышает 15000 рублей. В нашем конкретном примере, вводимая формула будет выглядеть следующим образом:

      =ИНДЕКС(A2:A29;НАИМЕНЬШИЙ(ЕСЛИ(15000<=C2:C29;СТРОКА(C2:C29);"");СТРОКА()-СТРОКА($C$1))-СТРОКА($C$1))

      Естественно, в каждом конкретном случае адрес ячеек и диапазонов будет свой. На данном примере можно сопоставить формулу с координатами на иллюстрации и приспособить её для своих нужд.

    3. Так как это формула массива, то для того, чтобы применить её в действии, нужно нажимать не кнопку Enter, а сочетание клавиш Ctrl+Shift+Enter. Делаем это.
    4. Выделив второй столбец с датами и установив курсор в строку формул, вводим следующее выражение:

      =ИНДЕКС(B2:B29;НАИМЕНЬШИЙ(ЕСЛИ(15000<=C2:C29;СТРОКА(C2:C29);"");СТРОКА()-СТРОКА($C$1))-СТРОКА($C$1))

      Жмем сочетание клавиш Ctrl+Shift+Enter.

    5. Аналогичным образом в столбец с выручкой вписываем формулу следующего содержания:

      =ИНДЕКС(C2:C29;НАИМЕНЬШИЙ(ЕСЛИ(15000<=C2:C29;СТРОКА(C2:C29);"");СТРОКА()-СТРОКА($C$1))-СТРОКА($C$1))

      Опять набираем сочетание клавиш Ctrl+Shift+Enter.

      Во всех трех случаях меняется только первое значение координат, а в остальном формулы полностью идентичны.

    6. Как видим, таблица заполнена данными, но внешний вид её не совсем привлекателен, к тому же, значения даты заполнены в ней некорректно. Нужно исправить эти недостатки. Некорректность даты связана с тем, что формат ячеек соответствующего столбца общий, а нам нужно установить формат даты. Выделяем весь столбец, включая ячейки с ошибками, и кликаем по выделению правой кнопкой мыши. В появившемся списке переходим по пункту «Формат ячейки…».
    7. В открывшемся окне форматирования открываем вкладку «Число». В блоке «Числовые форматы» выделяем значение «Дата». В правой части окна можно выбрать желаемый тип отображения даты. После того, как настройки выставлены, жмем на кнопку «OK».
    8. Теперь дата отображается корректно. Но, как видим, вся нижняя часть таблицы заполнена ячейками, которые содержат ошибочное значение «#ЧИСЛО!». По сути, это те ячейки, данных из выборки для которых не хватило. Более привлекательно было бы, если бы они отображались вообще пустыми. Для этих целей воспользуемся условным форматированием. Выделяем все ячейки таблицы, кроме шапки. Находясь во вкладке «Главная» кликаем по кнопке «Условное форматирование», которая находится в блоке инструментов «Стили». В появившемся списке выбираем пункт «Создать правило…».
    9. В открывшемся окне выбираем тип правила «Форматировать только ячейки, которые содержат». В первом поле под надписью «Форматировать только ячейки, для которых выполняется следующее условие» выбираем позицию «Ошибки». Далее жмем по кнопке «Формат…».
    10. В запустившемся окне форматирования переходим во вкладку «Шрифт» и в соответствующем поле выбираем белый цвет. После этих действий щелкаем по кнопке «OK».
    11. На кнопку с точно таким же названием жмем после возвращения в окно создания условий.

    Теперь у нас имеется готовая выборка по указанному ограничению в отдельной надлежащим образом оформленной таблице.

    СРЗНАЧ()

    Статистическая функция СРЗНАЧ возвращает среднее арифметическое своих аргументов.

    Данная функция может принимать до 255 аргументов и находить среднее сразу в нескольких несмежных диапазонах и ячейках:

    Если в рассчитываемом диапазоне встречаются пустые или содержащие текст ячейки, то они игнорируются. В примере ниже среднее ищется по четырем ячейкам, т.е. (4+15+11+22)/4 = 13

    Если необходимо вычислить среднее, учитывая все ячейки диапазона, то можно воспользоваться статистической функцией СРЗНАЧА. В следующем примере среднее ищется уже по 6 ячейкам, т.е. (4+15+11+22)/6 = 8,6(6).

    Статистическая функция СРЗНАЧ может использовать в качестве своих аргументов математические операторы и различные функции Excel:

    СРЗНАЧЕСЛИ()

    Если необходимо вернуть среднее арифметическое значений, которые удовлетворяют определенному условию, то можно воспользоваться статистической функцией СРЗНАЧЕСЛИ. Следующая формула вычисляет среднее чисел, которые больше нуля:

    В данном примере для подсчета среднего и проверки условия используется один и тот же диапазон, что не всегда удобно. На этот случай у функции СРЗНАЧЕСЛИ существует третий необязательный аргумент, по которому можно вычислять среднее. Т.е. по первому аргументу проверяем условие, по третьему – находим среднее.

    Допустим, в таблице ниже собрана статистика по стоимости лекарств в городе. В одной аптеке лекарство стоит дороже, в другой дешевле. Чтобы посчитать стоимость анальгина в среднем по городу, воспользуемся следующей формулой:

    Если требуется соблюсти несколько условий, то всегда можно применить статистическую функцию СРЗНАЧЕСЛИМН, которая позволяет считать среднее арифметическое ячеек, удовлетворяющих двум и более критериям.

    МАКС()

    Статистическая функция МАКС возвращает наибольшее значение в диапазоне ячеек:

    МИН()

    Статистическая функция МИН возвращает наименьшее значение в диапазоне ячеек:

    Источники

    • https://lumpics.ru/descriptive-statistics-in-excel/
    • https://statanaliz.info/statistica/opisanie-dannyx/variatsiya-razmakh-srednee-linejnoe-otklonenie/
    • https://www.hd01.ru/info/kak-poschitat-razmah-v-excel/
    • http://galyautdinov.ru/post/formula-vyborki-prostaya
    • https://math.semestr.ru/group/interval-estimation-share.php
    • https://tidydata.ru/sample-size
    • https://exceltable.com/formuly/raschet-statisticheskih-vybrosov
    • https://lumpics.ru/how-to-make-a-sample-in-excel/
    • https://office-guru.ru/excel/statisticheskie-funkcii-excel-kotorye-neobhodimo-znat-96.html
    • Редакция Кодкампа

    17 авг. 2022 г.
    читать 2 мин


    Вы можете использовать следующие формулы, чтобы найти среднее значение, медиану и моду набора данных в Excel:

    =AVERAGE( A1:A10 )
    
    =MEDIAN( A1:A10 ) 
    
    =MODE.MULT( A1:A10 ) 
    

    Стоит отметить, что каждая из этих формул просто игнорирует нечисловые или пустые значения при расчете этих показателей для диапазона ячеек в Excel.

    В следующих примерах показано, как использовать эти формулы на практике со следующим набором данных:

    Пример: нахождение среднего значения в Excel

    Среднее значение представляет собой среднее значение в наборе данных.

    На следующем снимке экрана показано, как рассчитать среднее значение набора данных в Excel:

    Среднее значение получается 19,11 .

    Пример: поиск медианы в Excel

    Медиана представляет собой среднее значение в наборе данных, когда все значения расположены от наименьшего к наибольшему.

    На следующем снимке экрана показано, как рассчитать медиану набора данных в Excel:

    Медиана получается 20 .

    Пример: поиск режима в Excel

    Мода представляет значение, которое чаще всего встречается в наборе данных. Обратите внимание, что набор данных может не иметь режима, иметь один режим или несколько режимов.

    На следующем снимке экрана показано, как рассчитать режим(ы) набора данных в Excel:

    Моды оказываются 7 и 25.Каждое из этих значений встречается в наборе данных дважды, что встречается чаще, чем любое другое значение.

    Примечание. Если вместо этого вы используете функцию =MODE() , она вернет только первый режим. Для этого набора данных будет возвращено только значение 7. По этой причине всегда рекомендуется использовать функцию =MODE.MULT() , если в наборе данных окажется более одной моды.

    Дополнительные ресурсы

    Как рассчитать межквартильный диапазон (IQR) в Excel
    Как рассчитать средний диапазон в Excel
    Как рассчитать стандартное отклонение в Excel

    Написано

    Редакция Кодкампа

    Замечательно! Вы успешно подписались.

    Добро пожаловать обратно! Вы успешно вошли

    Вы успешно подписались на кодкамп.

    Срок действия вашей ссылки истек.

    Ура! Проверьте свою электронную почту на наличие волшебной ссылки для входа.

    Успех! Ваша платежная информация обновлена.

    Ваша платежная информация не была обновлена.

    Статистика – наука, которая используется для любых других исследований, а также обработки большого количества количественных и даже качественных данных. И что важно, это одно из главных применений электронных таблиц Excel, поэтому давайте более подробно рассмотрим, статистические формулы. Во-первых, что они нам дают? Прежде всего, они позволяют структурировать информацию и осуществить ее анализ. Статистические функции в Excel относятся к совершенно отдельной категории.

    Содержание

    1. Как пользоваться статистическими функциями
    2. Перечень статистических функций
    3. Функция СРГЕОМ
    4. Функция СТАНДОТКЛОН
    5. Функция МОДА.ОДН
    6. Функция НАИМЕНЬШИЙ
    7. Функция НАИБОЛЬШИЙ
    8. Функция МЕДИАНА
    9. Функция СРЗНАЧЕСЛИ
    10. Функция МИН
    11. Функция МАКС
    12. Функции СРЗНАЧ и СРЗНАЧА
    13. Функция РАНГ.СР

    Как пользоваться статистическими функциями

    Есть несколько способов ввода любой функции, и статистические не являются исключением:

    1. Ввести непосредственно в ячейке, предварительно нажав клавишу =. Это касается самых простых функций, несложных для запоминания и содержащих один или два аргумента. Например, так можно делать для операции умножения, сложения, вычитания и деления. А вот если функция сложная, то можно воспользоваться помощником. Это уже второй способ.
    2. Помощник по использованию функций. Он не только подсказывает, какая формула что означает, а и помогает ввести правильные аргументы применительно к конкретной функции.

    Вызвать помощник можно несколькими способами:

    1. Воспользоваться кнопкой «Вставить функцию», расположенной слева от строки формул. Статистические функции в Excel. Описание всех функций, как их использовать
    2. Вызвать мастер ввода функций через кнопку «Вставить функцию», которая находится в левой части панели, которая открывается по клику на вкладку «Формулы». Статистические функции в Excel. Описание всех функций, как их использовать
    3. Воспользовавшись горячими клавишами Shift+F3.

    Любой из этих методов приводит к одному результату – вызову мастера функций. Можно использовать тот, который больше всего подходит в конкретной ситуации. После того, как окно откроется, нам первым делом нужно выбрать категорию: статистические функции. Статистические функции в Excel. Описание всех функций, как их использовать

    После того, как тип функции будет выбран, нам нужно выбрать подходящую формулу из списка. Под перечнем видим, что есть описание, в котором рассказывается, что конкретная функция делает. Статистические функции в Excel. Описание всех функций, как их использовать

    Чтобы подтвердить выбор функции, которая будет вводиться, нужно нажать клавишу ОК. После этого появится такое окно, в котором можно ввести параметры функции (или, как их еще называют, аргументы). Статистические функции в Excel. Описание всех функций, как их использовать

    Интересный факт. Можно выбрать функцию еще одним способом. Для этого нужно перейти на вкладку «Формулы» и нажать на кнопку «Другие функции», расположенной на ленте.

    Далее будет пункт «Другие функции» – «Статистические» и в появившемся списке ищем подходящую функцию и выбираем ее. Этот перечень может прокручиваться. Статистические функции в Excel. Описание всех функций, как их использовать

    Перечень статистических функций

    А теперь давайте перейдем непосредственно к рассмотрению статистических функций.

    Функция СРГЕОМ

    Много кто знает о таком параметре, как среднее арифметическое. Вычисляется оно с помощью функции, о которой мы еще сегодня обязательно поговорим. Но есть еще одна функция, которая определяет среднее геометрическое. Статистические функции в Excel. Описание всех функций, как их использовать

    Формула очень простая: =СРГЕОМ(число1;число2;…). Кроме чисел также можно указать диапазон значений, которые учитываются этой функцией. Что же такое среднее геометрическое? Это число, которое может заменять любое из чисел в последовательности таким образом, чтобы не менялось произведение этих значений. Еще один часто используемый термин – среднее пропорциональное. Это синоним к среднему геометрическому. Такой второй термин используется, потому что среднее геометрическое пропорционально к первому и второму числам.

    Функция СТАНДОТКЛОН

    Один из главных статистических параметров, который должен рассчитываться вместо со средним арифметическим – стандартное отклонение. Это мера, демонстрирующая степень разброса значений. Выполняет ту же функцию, что и дисперсия, просто представлена в том же виде, что и среднее значение, в отличие от дисперсии.

    Вообще, стандартное отклонение рассчитывается, как квадратный корень из дисперсии. Но в Эксель есть специальная формула, которая сразу вычисляет степень дисперсии, после чего на основе полученного значения получает стандартное (или среднеквадратическое) отклонение.

    Сама эта формула довольно старая, но знать о ней надо, потому что время от времени ее можно найти в готовых таблицах. Сейчас уже есть более новые версии этой функции – СТАНДОТКЛОН.В и СТАНДОТКЛОН.Г. Последняя функция находит среднеквадратическое отклонение по генеральной совокупности, в то время как первая ориентируется исключительно на выборку.

    В остальном, синтаксис обеих функций такой же, как и для вычисления среднего арифметического (об этом мы поговорим позже) – числа, которые перечислены через скобку.

    Функция МОДА.ОДН

    Мода выборки абсолютно не связана с одеждой или популярными машинами. Но при этом она связана со словом «популярный». Если говорить о статистике, то это значение в выборке, которое встречается наиболее часто. Соответственно, функция МОДА.ОДН дает возможность определить это значение.

    Если говорить о синтаксисе, то он похож на многие другие статистические функции. Сначала пишется оператор, после чего в скобках записываются его аргументы, которые являют собой числа, разделенные запятой. В качестве значения аргумента может выступать не только число, но и отдельные ячейки, диапазоны значений. Это дает возможность более гибко управлять выборкой. На этом скриншоте отчетливо видно, как это работает на практике.

    Статистические функции в Excel. Описание всех функций, как их использовать

    Эта функция подходит для горизонтальных массивов. Если же нужно определить моду выборки для вертикального массива, используется похожая функция МОДА.НСК. Общий внешний вид функции следующий: =МОДА.ОДН(аргумент 1, аргумент 2; аргумент …).

    Функция НАИМЕНЬШИЙ

    Задача этой функции – выполнение поиска из того набора значений, который был указан пользователем. Принцип ее работы такой же, как и следующий, только поиск осуществляется по направлению снизу вверх, от наименьшего числа к самому большому. Синтаксис этой функции предельно простой: =НАИМЕНЬШИЙ(массив;k).

    Статистические функции в Excel. Описание всех функций, как их использовать

    Функция имеет два основных аргумента: массив данных, по которым будет осуществляться поиск и порядковый номер элемента, который надо найти. Далее функция работает следующим образом: сначала она ищет самое маленькое значение, потом начинает перебирать цифры снизу вверх. Первое значение считается 1. То есть, если использовать число 1 во втором аргументе, то результат будет эквивалентным функции МИН, о которой мы поговорим немного позже.

    Функция НАИБОЛЬШИЙ

    Функция НАИБОЛЬШИЙ является аналогичной, только отсчет выполняет, начиная с самого большого значения. После того, как передать ей коэффициент, она ищет в порядковом ряду с большего в меньший число, занимающее соответствующее место и возвращает его. Работают обе функции аналогичным образом. Предположим, у нас есть числовой ряд. Если в нем в качестве числа k указать 2, то в результате получится число 15, поскольку оно является вторым по величине в диапазоне, который прописан в первом аргументе.

    Статистические функции в Excel. Описание всех функций, как их использовать

    Эта функция может быть полезной в ситуациях, например, когда товар поступал в определенной последовательности, и нужно определить, сколько стоила, например, шубка, которая пришла второй по счету.

    Функция МЕДИАНА

    В статистике медиана – это разновидность среднего числа, которое находится ровно посередине числового ряда. Очень часто медиана является лучшим решением, чем стандартное среднее арифметическое, потому что позволяет определить действительно среднестатистическое значение. Синтаксис этой функции аналогичен тому, который имеет любой другой оператор, определяющий среднее значение – перечень цифр, ячеек или диапазонов, из которых данные будут получаться.

    На этом примере видно, как на практике осуществляется работа с функцией. В диалоговом окне «Аргументы функции» можно вводить большое количество чисел, ячеек и диапазонов. На картинке мы попробовали ввести число в первую строку, ячейку во вторую и диапазон значений в третью. Получили в результате число 12. Максимальное количество аргументов этой функции – 255, что более, чем достаточно для полноценного использования этой функции. Статистические функции в Excel. Описание всех функций, как их использовать

    Функция СРЗНАЧЕСЛИ

    Это улучшенная версия функции СРЗНАЧ, задача которой – находить среднее арифметическое, но лишь при условии, что определенное условие выполняется. Эта функция уже несколько сложнее тех, которые приводились выше: =СРЗНАЧЕСЛИ(диапазон;условие;диапазон_усреднения). Давайте рассмотрим каждый аргумент более подробно:

    1. Диапазон. Это ячейки, которые проверяются на предмет соответствия определенному условию.
    2. Условие. Это критерий, на предмет соответствия которому проверяется диапазон.
    3. Диапазон усреднения. Это тот диапазон, из которого будет доставаться среднее арифметическое. Этот аргумент вводить необязательно, поскольку диапазон ячеек и диапазон усреднения могут совпадать.

    Статистические функции в Excel. Описание всех функций, как их использовать

    Функция МИН

    В статистических подсчетах нередко нужно не только определить среднее значение, среднеквадратическое отклонение и вычислить другие показатели. Также важно значение наименьшего и наибольшего числа, в том числе, для получения указанных показателей. Практическое применение этой функции довольно обширное:

    1. На рынке акций для определения времени, когда цела была наиболее низкой.
    2. Для определения слабых мест в годовом бюджете (например, в каком месяце доходы компании были минимальными) с целью их дальнейшего исправления. Например, можно определить наименее доходный месяц и проанализировать факторы, которые этому способствовали.

    Существует огромное количество других ситуаций, когда можно использовать функцию МИН. В самом общем виде она выглядит следующим образом: =МИН(число1;число2;…). Принцип заполнения аргументов этой функции аналогичен функции МАКС.

    Статистические функции в Excel. Описание всех функций, как их использовать

    Функция МАКС

    Как становится понятно из названия, эта функция ищет максимальное значение в определенной числовой выборке. Ситуации, в которых она может использоваться, в принципе, те же за тем лишь исключением, что все в противоположную сторону. Например, компания может с помощью функции МАКС определить самый доходный месяц и понять, каковы причины этого успеха.

    Функции СРЗНАЧ и СРЗНАЧА

    Стандартная функция СРЗНАЧ определяет среднее арифметическое в числовой выборке. Общий вид формулы такой же, как и для любой другой выборки значений. Сначала пишется название функции, после чего в скобках приводятся числа и диапазоны, которые необходимо обработать с помощью этой функции. То есть, общий вид формулы следующий: =СРЗНАЧ(число1;число2;…).

    Как мы поняли, можно использовать как обычные числа (очень полезно для использования значений, которые не будут меняться в течение ближайшего времени), ссылки на ячейку (они применяются для тех значений, которые в будущем изменятся) и на диапазон (в этом случае будет использоваться целый набор чисел за один раз). Чтобы после ввода одного аргумента начать записывать другой, достаточно нажать на соответствующее поле в мастере функций или просто нажать на клавишу Tab.

    Статистические функции в Excel. Описание всех функций, как их использовать

    Максимальное количество аргументов, которые можно использовать в этой функции – 255. При этом обязательным аргументом является только первое число. В качестве аргументов не могут использоваться текстовые и логические значения. Они просто не учитываются формулой, в которой используется указанный оператор. Основное отличие функции СРЗНАЧА от СРЗНАЧ заключается в том, что текстовые значения и «ЛОЖЬ» считаются нулевыми, а значение «Истина» приравнивается к единице.

    Функция РАНГ.СР

    С помощью функции РАНГ.СР пользователь может вернуть ранг числа. Если несколько чисел в одном диапазоне относятся к одному рангу, то возвращается среднее. Имеет три аргумента, два из которых – обязательные:

    1. Число. Это то число, для которого осуществляется определение ранга.
    2. Ссылка. Это массив чисел, или ссылка на этот массив.
    3. Порядок. Это число, которое влияет на способ, в который значения будут упорядочиваться.

    Таким образом, статистические функции Excel – это превосходный инструмент для обработки больших массивов информации.

    Оцените качество статьи. Нам важно ваше мнение:

    Расчет коэффициента вариации в Microsoft Excel

    Коэффициент вариации в Microsoft Excel

    ​Смотрите также​ большим. Причем показатель​ доверительный интервал содержит​ что к его​ параметров распределений в​ равны среднему значению.​ этом случае функция​ МОДА() вернет ошибку.​ Это свойство использовано​

    ​ медиана. Для определения​ указать ссылку на​

    Вычисление коэффициента вариации

    ​Мода и среднее значение;​ содержит текст, логические​Если аргумент является массивом​После этого, чтобы рассчитать​Как посчитать среднее значение​

    ​ функции. Оно может​Одним из основных статистических​ значительно меняется при​ истинное значение оцениваемого​ центральной части, можно​ MS EXCEL) и​Чем больше величина дисперсии,​ МОДА() дает хорошую​Даже в нашем массиве​ в статье Есть​

    Шаг 1: расчет стандартного отклонения

    ​ медианы необходимо сначала​ несколько столбцов данных,​Дисперсия выборки;​ значения или пустые​ или ссылкой, то​ значение и показать​ в Excel​​ иметь от 1​​ показателей последовательности чисел​ незначительном изменении доходности.​ параметра распределения.​ использовать границы μ​ статью про Центральную​ тем больше разброс​ оценку «наиболее вероятного»​ с модой, которая​​ ли повторы в​​ отсортировать множество чисел.​​ то будет рассчитано​​Стандартное отклонение выборки;​

    ​ ячейки, то такие​ учитываются только числа.​


    ​ результат на экране​
    ​Теперь у нас имеются​
    ​ до 255 полей,​

    1. ​ является коэффициент вариации.​В Excel не существует​Вместо термина Уровеньнадежности часто​ +/- σ.​ предельную теорему.​ значений в массиве​ значения зарплаты.​ была определена с​ списке?​​ Например, медианой для​​ соответствующее количество наборов​Стандартная ошибка;​ значения пропускаются; однако​ Пустые ячейки, логические​

      Переход в Мастер функций в Microsoft Excel

    2. ​ монитора, щелкаем по​​ все необходимые данные​​ в которых могут​ Для его нахождения​ встроенной функции для​ используется термин Уровень​​Примечание​​Стандартное отклонение распределения выборочного​​ относительно среднего.​​Примечание​​ помощью надстройки Пакет​​Начиная с MS EXCEL​​ чисел 2, 3,​​ показателей. Такой подход​Ассиметричность;​ ячейки, которые содержат​ значения, текст и​ кнопке​ для того, чтобы​​ содержаться, как конкретные​​ производятся довольно сложные​

      Переход к аргументам функции СТАНДОТКЛОН.В в Microsoft Excel

    3. ​ расчета коэффициента вариации.​ доверия. Про Уровень​: Не смотря на​ среднего вычисляется по​Размерность дисперсии соответствует квадрату​: Строго говоря, в​ анализа, творится, что-то​ 2010 вместо функции​ 3,​ позволяет сравнить несколько​​Эксцесс выборки;​​ нулевые значения, учитываются.​ значения ошибок в​Enter​ непосредственно рассчитать сам​ числа, так и​ расчеты. Инструменты Microsoft​ Но можно найти​ надежности (Confidence Level​ старания профессиональных статистиков,​​ формуле σ/√n, где​​ единицы измерения исходных​ примере с зарплатой​ не то. Действительно,​ МОДА() рекомендуется использовать​​4​

      Аргументы функции СТАНДОТКЛОН.В в Microsoft Excel

    4. ​ наборов данных. При​Уровень надежности.​Аргументы со значениями ошибок​ массиве или ссылке​

    Результат расчета функции СТАНДОТКЛОН.В в Microsoft Excel

    ​.​​ коэффициент вариации.​ ссылки на ячейки​

    Шаг 2: расчет среднего арифметического

    ​ Excel позволяют значительно​ частное от стандартного​ for Mean) читайте​ в литературе еще​ n — объём выборки, σ​ значений. Например, если​ мы имеем дело​​ модой нашего массива​​ функцию МОДА.ОДН(), которая​, 5, 7, 10​

    1. ​ сравнении нескольких наборов​Для вычисления статистических показателей​ или текстом, который​ игнорируются.​​Существует условное разграничение. Считается,​​Выделяем ячейку, в которую​

      Перемещение в Мастер функций в Microsoft Excel

    2. ​ или диапазоны. Ставим​ облегчить их для​​ отклонения и среднего​​ статью Уровень значимости​ попадается определение Эксцесса​​ — стандартное отклонение​​ значения в выборке​

      Переход к аргументам функции СРЗНАЧ в Microsoft Excel

    3. ​ скорее с генеральной​​ значений является число​​ является ее полным​ будет 4.​ данных используйте заголовки​​ одномерных выборок, используем​​ нельзя преобразовать в​Аргументы, которые представляют собой​ что если показатель​ будет выводиться результат.​ курсор в поле​ пользователя.​​ арифметического значения. Рассмотрим​​ и уровень надежности​ как меры «остроконечности»​ исходного распределения, из которого​ представляют собой измерения​ совокупностью, чем с​ 477, т.к. оно​ аналогом. Кроме того,​Если множество содержит четное​ (включите их во​ надстройку Пакет анализа.​​ числа, приводят к​​ значения ошибок или​

      Аргументы функции СРЗНАЧ в Microsoft Excel

    4. ​ коэффициента вариации менее​ Прежде всего, нужно​«Число1»​Скачать последнюю версию​​ на примере.​​ в MS EXCEL.​

    Результат расчета функции СРЗНАЧ в Microsoft Excel

    ​ (peakedness) или сглаженности​​ взята выборка. Т.к. обычно​ веса детали (в​

    Шаг 3: нахождение коэффициента вариации

    ​ выборкой. Т.к. других​ встречается 2 раза,​ в MS EXCEL​ количество чисел, то​ Входной интервал и​

    1. ​ Затем, все показатели​ ошибке.​ текст, не преобразуемый​ 33%, то совокупность​ учесть, что коэффициент​. Мышью выделяем на​ Excel​Доходность двух ценных бумаг​Задав значение Уровня надежности в​ распределения. Но, на​ стандартное отклонение исходного​ кг), то размерность​​ зарплат в компании​​ остальные значения не​ 2010 появилась новая​ вычисляется среднее для​​ установите галочку в​​ рассчитанные надстройкой, вычислим​Уравнение для суммы квадратов​​ в числа, вызывают​​ чисел однородная. В​ вариации является процентным​ листе тот диапазон​

      Форматированиае ячейки в Microsoft Excel

    2. ​Этот показатель представляет собой​ за предыдущие пять​ окне надстройки Пакет​ самом деле, значение​ распределения неизвестно, то в​ дисперсии будет кг2.​​ просто нет.​​ повторяются. Но, если​ функция МОДА.НСК(), которая​ двух чисел, находящихся​ поле Метки в​ с помощью встроенных​​ отклонений имеет следующий​​ ошибку.​ обратном случае её​ значением. В связи​ значений, который нужно​ отношение стандартного отклонения​ лет:​ анализа, MS EXCEL​ Эксцесса ничего не​​ расчетах вместо σ используют​​ Это бывает сложно​

      Вычисление коэффициента вариации в Microsoft Excel

    3. ​О вычислении моды для​ мы посмотрим на​

    Результат расчета коэффициента вариации в Microsoft Excel

    ​ возвращает несколько наиболее​ в середине множества.​ первой строке). Если​ функций MS EXCEL.​ вид:​Чтобы включить логические значения​ принято характеризовать, как​ с этим следует​ обработать. Если таких​ к среднему арифметическому.​

    1. ​Наглядно это можно продемонстрировать​ вычислит половину ширины​ говорит о форме​ ее оценку s​ интерпретировать, поэтому для​ распределения непрерывной случайной​

      ​ гистограмму распределения, построенную​

      ​ часто повторяющихся значений​​ Например, медианой для​​ наборы данных разной​СОВЕТ​Скопируйте образец данных из​ и текстовые представления​ неоднородную.​ поменять формат ячейки​ областей несколько и​​ Полученный результат выражается​​ на графике:​ доверительного интервала для​ пика распределения.​​ — стандартное отклонение​​ характеристики разброса значений​

      Расчет коэффициента вариации в Microsoft Excel

    2. ​ величины читайте статью​ для нашего массива,​ (если количество их​ чисел 2, 3,​ длины, то это​​: Подробнее о других​​ следующей таблицы и​

    Результат расчета коэффициента вариации в программме Microsoft Excel

    ​ чисел в ссылку​Как видим, программа Эксель​ на соответствующий. Это​ они не смежные​ в процентах.​Обычно показатель выражается в​ оценки среднего (дисперсия​Согласно определения, Эксцесс равен​

    ​ выборки. А соответствующая​ чаще используют величину​ Мода в MS​ то увидим, что​ повторов совпадает). НСК​3 5​ не проблема -​ инструментах надстройки Пакет​ вставьте их в​ как часть вычисления,​ позволяет значительно упростить​ можно сделать после​​ между собой, то​​В Экселе не существует​​ процентах. Поэтому для​​ неизвестна).​ четвертому стандартизированному моменту:​ величина s/√n имеет​ равную квадратному корню​ EXCEL.​ 477 не принадлежит​ – это сокращение​, 7, 10 будет​

    ​ пустые ячейки будут​

    lumpics.ru

    ДИСП (функция ДИСП)

    ​ анализа и ее​

    ​ ячейку A1 нового​​ используйте функцию ДИСПА.​ расчет такого сложного​ её выделения, находясь​ координаты следующей указываем​ отдельно функции для​ ячеек с результатами​Тот же результат можно​Для нормального распределения четвертый​ специальное название — Стандартная​ из дисперсии –​Не смотря на то,​ интервалу наиболее часто​ от слова НеСКолько.​ 4, т.к. (3+5)/2.​ проигнорированы.​

    ​ подключении – читайте​ листа Excel. Чтобы​Функция ДИСП вычисляется по​ статистического вычисления, как​

    Синтаксис

    ​ во вкладке​

    ​ в поле​ вычисления этого показателя,​

    • ​ установлен процентный формат.​​ получить по формуле​ момент равен 3*σ4,​ ошибка среднего. Именно эта​

    • ​ стандартное отклонение.​​ что мода –​ встречающихся значений (от​Например, в массиве (1;​

    Замечания

    • ​Если имеется длинный хвост​Зеленым цветом на картинке​ в статье Надстройка​ отобразить результаты формул,​ следующей формуле:​ поиск коэффициента вариации.​«Главная»​«Число2»​

    • ​ но имеются формулы​Значение коэффициента для компании​ (см. файл примера):​ следовательно, Эксцесс равен​

    • ​ величина вычисляется в Пакете анализа.​Подробнее о дисперсии см.​ это наиболее вероятное​ 150 до 250).​

    • ​ 1;​ распределения, то Медиана​ выше и в​ Пакет анализа MS​ выделите их и​где x — выборочное среднее​ К сожалению, в​. Кликаем по полю​

    • ​и т.д. Когда​ для расчета стандартного​ А – 33%,​=ДОВЕРИТ.СТЬЮДЕНТ(1-0,95;s;n)​ 3. Многие компьютерные​

    • ​В MS EXCEL стандартную​ статью Дисперсия и​ значение случайной величины​Проблема в том, что​2 2 2444​

    • ​ лучше, чем среднее​ файле примера выделены​

      Формула

      ​ EXCEL.​ нажмите клавишу F2,​ СРЗНАЧ(число1,число2,…), а n —​

    Пример

    ​ приложении пока не​ формата на ленте​ все нужные данные​ отклонения и среднего​ что свидетельствует об​s — стандартное​ программы используют для​ ошибку среднего можно​ стандартное отклонение в​ (вероятность выбрать это​ мы определили моду​; 5) числа 2​ значение, отражает «типичное»​

    ​ показатели, которые не​

    ​Выборку разместим на листе Пример в файле​

    ​ а затем —​

    ​ размер выборки.​

    ​ существует функции, которая​

    ​ в блоке инструментов​

    ​ введены, жмем на​

    ​ арифметического ряда чисел,​

    ​ относительной однородности ряда.​

    ​ отклонение выборки, n​

    ​ расчетов не сам​

    ​ также вычислить по​

    ​ MS EXCEL.​

    ​ значение из Генеральной​

    ​ как наиболее часто​

    ​ и 4 встречаются​ или «центральное» значение.​

    ​ требуют особого пояснения.​

    support.office.com

    КВАДРОТКЛ (функция КВАДРОТКЛ)

    ​ примера в диапазоне ​ клавишу ВВОД. При​Скопируйте образец данных из​​ высчитывала бы этот​​«Число»​

    Описание

    ​ кнопку​ а именно они​ Формула расчета коэффициента​

    Синтаксис

    ​ – объем выборки.​

    ​ Эксцесс, а так​ формуле​

    • ​Стандартное отклонение выборки (Standard​​ совокупности максимальна), не​ встречающееся значение, а​ наиболее часто –​ Например, рассмотрим несправедливое​ Для большинства из​А6:А55​ необходимости измените ширину​ следующей таблицы и​ показатель в одно​. Из раскрывшегося списка​

    Замечания

    • ​«OK»​ используются для нахождения​ вариации в Excel:​Подробнее см. статью про​

    • ​ называемый Kurtosis excess,​=СТАНДОТКЛОН.В(Выборка)/ КОРЕНЬ(СЧЁТ(Выборка))​ Deviation), как и​ следует ожидать, что​ не как наиболее​

    • ​ по 3 раза.​ распределение зарплат в​ них имеется специализированная​ (50 значений).​ столбцов, чтобы видеть​ вставьте их в​ действие, но при​ вариантов выбираем​

    • ​В предварительно выделенной ячейке​ коэффициента вариации.​Сравните: для компании В​ построение доверительного интервала​ который меньше на​

    • ​Асимметричность или коэффициент асимметрии​ дисперсия, — это​ среднее значение обязательно​

      Уравнение, используемое для функции КВАДРОТКЛ

    Пример

    ​ вероятное. Поэтому, моду​ Значит, оба числа​ компании, в которой​ функция:​Примечание​ все данные.​ ячейку A1 нового​ помощи операторов​«Процентный»​ отображается итог расчета​Стандартное отклонение, или, как​ коэффициент вариации составил​ для оценки среднего​

    ​ 3. Т.е. для​

    ​ (skewness) характеризует степень​

    ​ мера того, насколько​

    ​ будет близко к​

    ​ в учебниках статистики​

    ​ являются модами. Функции​

    ​ руководство получает существенно​

    ​Интервал (Range) — разница​

    ​: Для удобства написания​

    ​Данные​

    ​ листа Excel. Чтобы​

    ​СТАНДОТКЛОН​

    ​. После этих действий​ выбранного вида стандартного​ его называют по-другому,​

    ​ 50%: ряд не​

    support.office.com

    Описательная статистика в MS EXCEL

    ​ (дисперсия неизвестна).​ нормального распределения Kurtosis​ несимметричности распределения (плотности​ широко разбросаны значения​ моде.​ часто определяют не​ МОДА.ОДН() и МОДА()​

    ​ больше, чем основная​ между максимальным и​ формул для диапазона ​4​ отобразить результаты формул,​и​ формат у элемента​ отклонения.​ среднеквадратичное отклонение, представляет​ является однородным, данные​Коэффициент вариации в статистике​ excess равен 0.​

    ​ распределения) относительно его​ в выборке относительно​Примечание​ для выборки (массива),​ вернут значение 2,​ масса сотрудников.​ минимальным  значениями;​А6:А55 ​5​ выделите их и​СРЗНАЧ​ будет соответствующий.​Урок:​ собой квадратный корень​ значительно разбросаны относительно​ применяется для сравнения​ Необходимо быть внимательным,​ среднего.​ их среднего.​: Мода и среднее​

    ​ а для функции​

    • ​ т.к. 2 встречается​
    • ​Очевидно, что средняя​
    • ​Минимум (Minimum) – минимальное​
    • ​создан Именованный диапазон Выборка.​
    • ​8​
    • ​ нажмите клавишу F2,​
    • ​эта задача очень​
    • ​Снова возвращаемся к ячейке​
    • ​Формула среднего квадратичного отклонения​
    • ​ из дисперсии. Для​
    • ​ среднего значения.​

    Надстройка Пакет анализа

    ​ разброса двух случайных​ т.к. часто не​Положительное значение коэффициента асимметрии​По определению, стандартное отклонение​ симметричных распределений совпадает​ распределения. Например, для​ первым, среди наиболее​

    ​ зарплата (71 тыс.​​ значение в диапазоне​В диалоговом окне Анализ​7​ а затем —​ упрощается. Таким образом,​ для вывода результата.​ в Excel​

    ​ расчета стандартного отклонения​​​ величин с разными​​ очевидно, какая формула​

    ​ указывает, что размер​​ равно квадратному корню​ (имеется ввиду симметричность​​ логнормального распределения мода​​ повторяющихся значений (см.​

    ​ руб.) не отражает​ ячеек, указанном во​ данных выберите инструмент​

    ​11​​ клавишу ВВОД. При​​ в Excel её​ Активируем её двойным​

    ​Среднее арифметическое является отношением​

    • ​ используется функция​Прежде чем включить в​ единицами измерения относительно​ лежит в основе​ правого «хвоста» распределения​ из дисперсии:​ плотности распределения).​ (наиболее вероятное значение​ файл примера, лист​ тот факт, что​ Входном интервале (см.​ Описательная статистика.​4​ необходимости измените ширину​ может выполнить даже​ щелчком левой кнопки​ общей суммы всех​СТАНДОТКЛОН​ инвестиционный портфель дополнительный​ ожидаемого значения. В​
    • ​ расчетов.​ больше, чем левого​Стандартное отклонение не учитывает​Представим, что мы бросаем​ непрерывной случайной величины​ Мода).​
    • ​ 86% сотрудников получает​ статью про функцию​После нажатия кнопки​3​ столбцов, чтобы видеть​ человек, который не​ мыши. Ставим в​
    • ​ значений числового ряда​. Начиная с версии​ актив, финансовый аналитик​ итоге можно получить​Примечание​ (относительно среднего). Отрицательная​

    ​ величину значений в​ некий «неправильный» кубик,​

    ​ х), вычисляется как​Чтобы исправить эту несправедливость​ не более 30​ МИН());​ОК​Формула​

    ​ все данные.​ имеет высокого уровня​ ней знак​ к их количеству.​ Excel 2010 она​ должен обосновать свое​ сопоставимые результаты. Показатель​: Еще большую путаницу​ асимметрия, наоборот, указывает​ выборке, а только​ у которого на​ exp(m-s2), где m​ и была введена​ тыс. руб. (т.е.​Максимум (Maximum)– максимальное значение​будет выведено другое​Описание​Прочность​ знаний связанных со​«=»​

    ​ Для расчета этого​ разделена, в зависимости​ решение. Один из​ наглядно иллюстрирует однородность​ вносит перевод этих​ на то, что​ степень рассеивания значений​ гранях имеются значения​

    • ​ и s параметры​ функция МОДА.НСК(), которая​ 86% сотрудников получает​
    • ​ (см. статью про​ диалоговое окно,​Результат​1345​ статистическими закономерностями.​. Выделяем элемент, в​
    • ​ показателя тоже существует​ от того, по​ способов – расчет​
    • ​ временного ряда.​ терминов на русский​ левый хвост распределения​ вокруг их среднего.​
    • ​ (1; 2; 3;​ этого распределения.​ выводит все моды.​ зарплату в более,​ функцию МАКС());​
    • ​в котором нужно указать:​=КВАДРОТКЛ(A2:A8)​1301​Автор: Максим Тютюшев​ котором расположен итог​ отдельная функция –​
    • ​ генеральной совокупности происходит​ коэффициента вариации.​Коэффициент вариации используется также​ язык. Термин Kurtosis​ больше правого. Коэффициент​ Чтобы проиллюстрировать это​

    ​ 4; 6; 6),​Понятно, что для нашего​

    Среднее выборки

    ​ Для этого ее​ чем в 2​Сумма (Sum) – сумма​входной интервал (Input Range)​Сумма квадратов отклонений приведенных​1368​Оценивает дисперсию по выборке.​ вычисления стандартного отклонения.​СРЗНАЧ​ вычисление или по​Ожидаемая доходность ценных бумаг​ инвесторами при портфельном​ происходит от греческого​ асимметрии идеально симметричного​ приведем пример.​ т.е. значения 5​ массива число 477,​

    Медиана выборки

    ​ нужно ввести как​ раза меньше средней!).​ всех значений (см.​ – это диапазон​ выше данных от​1322​Важно:​ Кликаем по кнопке​. Вычислим её значение​ выборке, на два​ составит:​ анализе в качестве​ слова «изогнутый», «имеющий​ распределения или выборки​​Вычислим стандартное отклонение для​​ нет, а есть​ хотя и является​

    ​ формулу массива.​ В то же​ статью про функцию​ ячеек, в котором​ их среднего значения.​1310​ Эта функция была заменена​​ «разделить»​​ на конкретном примере.​ отдельных варианта:​

    ​Среднеквадратическое отклонение доходности для​ количественного показателя риска,​ арку». Так сложилось,​ равно 0.​ 2-х выборок: (1;​ вторая 6. Модой​ наиболее часто повторяющимся​Как видно из картинки​ время медиана (15​ СУММ());​ содержится массив данных.​


    ​48​1370​ одной или несколькими​(/)​Выделяем на листе ячейку​СТАНДОТКЛОН.Г​ активов компании А​ связанного с вложением​ что на русский​Примечание​ 5; 9) и​ является 6, а​ значением, но все​ выше, функция МОДА.НСК()​ тыс. руб.) показывает,​​Счет (Count) – количество​​ Если в указанный​Рассмотрим инструмент Описательная статистика,​1318​ новыми функциями, которые​

    ​на клавиатуре. Далее​ для вывода результата.​и​ и В составляет:​ средств в определенные​

    ​ язык оба термина​: Асимметрия выборки может​

    ​ (1001; 1005; 1009).​
    ​ среднее значение –​

    ​ же является плохой​ вернула все три​ что​

    ​ значений во Входном​​ диапазон входит текстовый​ входящий в надстройку​1350​ обеспечивают более высокую​

    Мода выборки

    ​ выделяем ячейку, в​ Жмем на уже​СТАНДОТКЛОН.В​Ценные бумаги компании В​ активы. Особенно эффективен​​ Kurtosis и Kurtosis​​ отличаться расчетного значения​ В обоих случаях,​ 3,6666.​ оценкой для моды​ моды из массива​как минимум​ интервале (пустые ячейки​ заголовок набора данных,​ Пакет Анализа. Рассчитаем​

    ​1303​​ точность и имеют​ которой располагается среднее​ знакомую нам кнопку​.​ имеют более высокую​ в ситуации, когда​ excess переводятся как​ асимметрии теоретического распределения.​

    ​ s=4. Очевидно, что​Другой пример. Для Логнормального​ распределения, из которого​ чисел в диапазоне​у 50% сотрудников​ игнорируются, см. статью​ то нужно поставить​ показатели выборки: среднее,​1299​ имена, лучше отражающие​ арифметическое заданного числового​«Вставить функцию»​Синтаксис данных функций выглядит​ ожидаемую доходность. Они​ у активов разная​

    ​ Эксцесс (от англ.​ Например, Нормальное распределение​​ отношение величины стандартного​​ распределения LnN(0;1) мода​ взята выборка (наиболее​A2:A11​ зарплата меньше или​ про функцию СЧЁТ());​ галочку в поле​ медиана, мода, дисперсия,​Формула​ их назначение. Хотя​ ряда. Для того,​.​ соответствующим образом:​ превышают ожидаемую доходность​

    ​ доходность и различный​ excess — «излишек»).​ является симметричным распределением​ отклонения к значениям​ равна =EXP(m-s2)= EXP(0-1*1)=0,368,​ вероятного значения или​: 1; 3 и​

    ​ равна 15 тыс.​Наибольший (Kth Largest) –​ Метки в первой​ стандартное отклонение и​Описание​​ эта функция все​​ чтобы произвести расчет​В статистической категории Мастера​= СТАНДОТКЛОН(Число1;Число2;…)​​ компании А в​​ уровень риска. К​ Например, функция MS​ (плотность его распределения​​ массива у выборок​​ а среднее значение​​ для которого плотность​​ 7. Для этого,​ руб.​ выводится К-й наибольший.​ строке (Labelsinfirstrow). В​ др.​Результат​ еще используется для​ и вывести значение,​ функций ищем наименование​= СТАНДОТКЛОН.Г(Число1;Число2;…)​ 1,14 раза. Но​ примеру, у одного​ EXCEL ЭКСЦЕСС() на​ симметрична относительно среднего)​

    ​ существенно отличается.​ 1,649.​ вероятности распределения максимальна).​ выделите диапазон​Для определения медианы в​ Например, 1-й наибольший​ этом случае заголовок​Задача описательной статистики (descriptive​=ДИСП(A2:A11)​ обеспечения обратной совместимости,​ щёлкаем по кнопке​«СРЗНАЧ»​= СТАНДОТКЛОН.В(Число1;Число2;…)​ и инвестировать в​ актива высокая ожидаемая​ самом деле вычисляет​

    ​ и, поэтому имеет​В MS EXCEL 2007​Дисперсия выборки или выборочная​Для того, чтобы получить​C6:C9​ MS EXCEL существует​ – это максимальное​ будет выведен в​ statistics) заключается в​Дисперсия предела прочности для​ она может стать​Enter​. После его выделения​Для того, чтобы рассчитать​ активы предприятия В​ доходность, а у​ Kurtosis excess.​ асимметрию равную 0.​ и более ранних​ дисперсия (samplevariance) характеризует​

    ​ оценку моды распределения,​, в Строку формул​ одноименная функция МЕДИАНА(),​ значение (см. статью​ Выходном интервале. Пустые​ том, чтобы с​ всех протестированных инструментов.​ недоступной в последующих​на клавиатуре.​ жмем на кнопку​ стандартное отклонение, выделяем​ рискованнее. Риск выше​ другого – низкий​Функция ЭКСЦЕСС(), английский вариант​ Понятно, что при​ версиях для вычисления​ разброс значений в​ из генеральной совокупности​

    ​ введите формулу =МОДА.НСК(A2:A11)​ английский вариант -​ про функцию НАИБОЛЬШИЙ());​ ячейки будут проигнорированы,​ использованием математических инструментов​754,2667​ версиях Excel, поэтому​Как видим, результат расчета​«OK»​ любую свободную ячейку​ в 1,7 раза.​ уровень риска.​

    ​ KURT(), вычисляет на​ этом значения в​ Стандартного отклонения выборки​ массиве, отклонение от​ которого взята выборка,​ и нажмите​ MEDIAN().​Наименьший (Kth Smallest) –​ поэтому нулевые значения​ свести сотни значений​В этой статье описаны​ мы рекомендуем использовать​ выведен на экран.​.​

    ​ на листе, которая​​ Как сопоставить акции​Коэффициент вариации представляет собой​ основе значений выборки​ выборке из соответствующей​ используется функция СТАНДОТКЛОН().​ среднего.​ можно, например, построить​CTRL+SHIFT+ENTER​Медиану также можно вычислить​ выводится К-й наименьший.​ необходимо обязательно указывать​ выборки к нескольким​ синтаксис формулы и​

    ​ новые функции.​Таким образом мы произвели​Запускается окно аргументов​ удобна вам для​ с разной ожидаемой​ отношение среднеквадратического отклонения​ несмещенную оценку эксцесса​ генеральной совокупности не​ С версии MS​Из формулы №1 видно,​ гистограмму. Оценкой для​. Диапазон​

    ​ с помощью формул​​ Например, 1-й наименьший​ в ячейках, а​ итоговым показателям, которые​ использование функции​Дополнительные сведения о новом​ вычисление коэффициента вариации,​СРЗНАЧ​ того, чтобы выводить​

    ​ доходностью и различным​ к среднему арифметическому.​ распределения случайной величины​ обязательно должны располагаться​ EXCEL 2010 рекомендуется​

    Мода и среднее значение

    ​ что дисперсия выборки​ моды может служить​C6:C9​=КВАРТИЛЬ.ВКЛ(Выборка;2)​ – это минимальное​ не оставлять их​ дают представление о​КВАДРОТКЛ​ варианте этой функции​ ссылаясь на ячейки,​. Аргументы полностью идентичны​

    ​ в неё результаты​​ уровнем риска?​ Для расчета в​ и определяется следующим​ совершенно симметрично относительно​

    ​ использовать ее аналог​ это сумма квадратов​ интервал наиболее часто​охватывает 4 ячейки,​=ПРОЦЕНТИЛЬ.ВКЛ(Выборка;0,5).​ значение (см. статью​ пустыми;​ выборке.В качестве таких​в Microsoft Excel.​ см. в статье​ в которых уже​ тем, что и​

    ​ расчетов. Щелкаем по​Для сопоставления активов двух​ статистике используется следующая​ образом:​ среднего. Поэтому, асимметрия​

    Дисперсия выборки

    ​ СТАНДОТКЛОН.В().​ отклонений каждого значения​ встречающихся значений (самого​ т.е. количество выделяемых​Подробнее о медиане см.​

    ​ про функцию НАИМЕНЬШИЙ()).​выходной интервал (Output Range).​ статистических показателей используются:​Возвращает сумму квадратов отклонений​ Функция ДИСП.В.​​ были рассчитаны стандартное​​ у операторов группы​ кнопке​

    ​ компаний рассчитан коэффициент​ формула:​Как видно из формулы​ выборки, являющейся оценкой​Стандартное отклонение можно также​ в массиве​ высокого столбца). Как​ ячеек должно быть​ специальную статью Медиана​

    ​Ниже даны подробные описания​ Здесь укажите адрес​ среднее, медиана, мода,​ точек данных от​
    ​ДИСП(число1;[число2];…)​
    ​ отклонение и среднее​СТАНДОТКЛОН​
    ​«Вставить функцию»​ вариации доходности. Показатель​

    ​CV = σ / ǩ,​ MS EXCEL использует​ асимметрии распределения, может​ вычислить непосредственно по​от среднего​ было сказано выше,​

    ​ больше или равно​ в MS EXCEL.​ остальных показателей.​ верхней левой ячейки​

    ​ дисперсия, стандартное отклонение и др.​ их среднего.​Аргументы функции ДИСП описаны​ арифметическое. Но можно​. То есть, в​. Она имеет внешний​ для предприятия В​CV – коэффициент вариации;​ именно Kurtosis excess,​ отличаться от 0.​ нижеуказанным формулам (см.​, деленная на размер​ в нашем случае​ количеству мод. Если​СОВЕТ​

    ​Среднее (mean, average) или​ диапазона, в который​Опишем набор числовых данных​КВАДРОТКЛ(число1;[число2];…)​

    Стандартное отклонение выборки

    ​ ниже.​ поступить и несколько​ их качестве могут​ вид пиктограммы и​ – 50%, для​σ – среднеквадратическое отклонение​ т.е. для выборки​

    ​Функция СКОС(), английский вариант​ файл примера):​ выборки минус 1.​

    ​ это интервал от​ ячеек больше чем​: Подробнее про квартили​ выборочное среднее или​ будут выведены статистические​ с помощью определенных​Аргументы функции КВАДРОТКЛ описаны​

    ​Число1​ по-иному, не рассчитывая​ выступать как отдельные​ расположена слева от​ предприятия А –​ по выборке;​ из нормального распределения​ SKEW(), возвращает коэффициент​=КОРЕНЬ(КВАДРОТКЛ(Выборка)/(СЧЁТ(Выборка)-1))​В MS EXCEL 2007​

    ​ 150 до 250.​ мод, то избыточные​ см. статью, про​ среднее выборки (sample​ показатели;​ показателей. Для чего​ ниже.​     Обязательный. Первый числовой​ отдельно данные значения.​

    ​ числовые величины, так​ строки формул.​ 33%. Риск инвестирования​ǩ – среднеарифметическое значение​
    ​ формула вернет близкое​
    ​ асимметрии выборки, являющейся​

    ​=КОРЕНЬ((СУММКВ(Выборка)-СЧЁТ(Выборка)*СРЗНАЧ(Выборка)^2)/(СЧЁТ(Выборка)-1))​ и более ранних​Вывод​ ячейки будут заполнены​

    Стандартная ошибка

    ​ перцентили (процентили) см.​ average) представляет собой​Итоговая статистика (SummaryStatistics). Поставьте​ нужны эти показатели?​Число1, число2, …​ аргумент, соответствующий выборке​Выделяем предварительно отформатированную под​ и ссылки. Устанавливаем​Выполняется активация​

    ​ в ценные бумаги​​ разброса значений.​ к 0 значение.​ оценкой асимметрии соответствующего​Подробнее о стандартном отклонении​ версиях для вычисления​: Значение моды для​ значениями ошибки #Н/Д.​ статью.​ арифметическое среднее всех​ галочку напротив этого​ Эти показатели позволят​

    ​    Число1 является обязательным, последующие​ из генеральной совокупности.​ процентный формат ячейку,​ курсор в поле​Мастера функций​ фирмы В выше​Коэффициент вариации позволяет сравнить​Если задано менее четырех​ распределения, и определяется​ см. статью Дисперсия и​ дисперсии выборки используется​ выборки, рассчитанное с​ Если мода только​Мода (Mode) – это​ значений массива. В​ поля – будут​ сделать определенные статистические​

    ​ числа — нет.​Число2…​ в которой будет​«Число1»​
    ​, который запускается в​

    Асимметричность

    ​ в 1,54 раза​ риск инвестирования и​ точек данных, то​ следующим образом:​ стандартное отклонение в​

    ​ функция ДИСП(). С​ помощью функции МОДА(),​ одна, то все​ наиболее часто встречающееся​ MS EXCEL для​ выведены основные показатели​ выводы о распределении,​ От 1 до​     Необязательный. Числовые аргументы​ выведен результат. Прописываем​. Так же, как​ виде отдельного окна​

    ​ (50% / 33%).​​ доходность двух и​ функция ЭКСЦЕСС() возвращает​где n – размер​ MS EXCEL.​ версии MS EXCEL​ может ввести в​ выделенные ячейки будут​ (повторяющееся) значение в​ вычисления среднего выборки​ выборки: среднее, медиана,​ из которого была​ 255 аргументов, квадраты​ 2—255, соответствующие выборке​ в ней формулу​ и в предыдущем​ с перечнем аргументов.​ Это означает, что​ более портфелей активов.​ значение ошибки #ДЕЛ/0!​

    ​ выборки, s – стандартное​В Пакете анализа под​ 2010 рекомендуется использовать​ заблуждение, особенно для​ заполнены значением этой​ выборке. Например, в​

    ​ используется функция СРЗНАЧ().​ мода, стандартное отклонение​ взята выборка. Например,​

    ​ отклонений которых суммируются.​ из генеральной совокупности.​ по типу:​ случае, выделяем на​ Переходим в категорию​ акции компании А​ Причем последние могут​Вернемся к распределениям случайной​ отклонение выборки.​

    Эксцесс выборки

    ​ термином стандартная ошибка​ ее аналог -​ небольших выборок. Эта​

    ​ моды.​ массиве (1; 1;​ Выборочное среднее является​ и др.;​ если у нас​ Вместо аргументов, разделенных​В функции ДИСП предполагается,​

    ​= СТАНДОТКЛОН.В(диапазон_значений)/СРЗНАЧ(диапазон_значений)​​ листе нужную нам​«Статистические»​ имеют лучшее соотношение​ существенно отличаться. То​ величины. Эксцесс (Kurtosis​В файле примера на​ имеется ввиду Стандартная​ функцию ДИСП.В().​ функция эффективна, когда​Теперь вспомним, что мы​2 2 2​

    ​ «хорошей» (несмещенной и​Также можно поставить галочки​

    ​ есть выборка значений​ точками с запятой,​ что аргументы являются​Вместо наименования​ совокупность ячеек. После​или​ риск / доходность.​ есть показатель увязывает​ excess) для нормального​ листе СКОС приведен​ ошибка среднего (Standard​Дисперсию можно также вычислить​ случайная величина может​ определили моду для​; 3; 4; 5)​ эффективной) оценкой математического​ напротив полей Уровень​

    ​ толщины трубы, которая​​ можно использовать один​ только выборкой из​«Диапазон значений»​ того, как их​«Полный алфавитный перечень»​ Следовательно, предпочтительнее вложить​ риск и доходность.​ распределения всегда равен​ расчет коэффициента асимметрии​ Error of the​ непосредственно по нижеуказанным​ принимать лишь несколько​ выборки, т.е. для​ число 2 встречается​ ожидания случайной величины​ надежности (ConfidenceLevelforMean), К-й​ изготавливается на определенном​

    ​ массив или ссылку​ генеральной совокупности. Если​вставляем реальные координаты​ координаты были занесены​. Выбираем наименование​ средства именно в​ Позволяет оценить отношение​

    ​ 0, т.е. не​ на примере случайной​ Mean, SEM). Стандартная​ формулам (см. файл​ дискретных значений, а​ конечного множества значений,​ чаще всего –​

    ​ (подробнее см. статью​ наименьший (Kth Largest)​ оборудовании, то на​ на массив.​

    ​ данные представляют всю​ области, в которой​ в поле окна​«СТАНДОТКЛОН.Г»​ них.​ между среднеквадратическим отклонением​ зависит от параметров​ выборки из распределения​ ошибка среднего — это​ примера):​ размер выборки существенно​ взятых из генеральной​ 3 раза. Значит,​ Среднее и Математическое​

    Уровень надежности

    ​ и К-й наибольший​ основании анализа этой​Аргументы могут быть либо​ генеральную совокупность, для​ размещен исследуемый числовой​

    ​ аргументов, жмем на​или​Таким образом, коэффициент вариации​ и ожидаемой доходностью​ распределения μ и​ Вейбулла, которое имеет​ оценка стандартного отклонения​=КВАДРОТКЛ(Выборка)/(СЧЁТ(Выборка)-1)​

    ​ превышает количество этих​ совокупности. Для непрерывных​ число 2 –​ ожидание в MS​ (Kth Smallest).​ выборки мы сможем​ числами, либо содержащими​

    ​ вычисления дисперсии следует​ ряд. Это можно​ кнопку​
    ​«СТАНДОТКЛОН.В»​
    ​ показывает уровень риска,​ в относительном выражении.​ σ. Для большинства​

    ​ значительную положительную асимметрию​ распределения выборочного среднего.​=(СУММКВ(Выборка)-СЧЁТ(Выборка)*СРЗНАЧ(Выборка)^2)/ (СЧЁТ(Выборка)-1) –​ значений.​

    excel2.ru

    Коэффициент вариации: формула и расчет в Excel и интерпретация результатов

    ​ случайных величин вполне​ это мода. Для​ EXCEL).​В результате будут выведены​ сделать, с некой​ числа именами, массивами​ использовать функцию ДИСПР.​ сделать простым выделением​«OK»​, в зависимости от​

    ​ что может оказаться​ Соответственно, сопоставить полученные​ других распределений Эксцесс​ при параметрах распределения​Примечание​ обычная формула​Например, в рассмотренном примере​ может оказаться, что​ вычисления моды используется​Медиана (Median) – это​ следующие статистические показатели:​ определенной вероятностью, заключение​ или ссылками.​Аргументы могут быть либо​ данного диапазона. Вместо​.​

    Как рассчитать коэффициент вариации в Excel

    ​ того, по генеральной​ полезным при включении​ результаты.​ зависит от параметров​ W(1,5; 1).​: Чтобы разобраться с​

    ​=СУММ((Выборка -СРЗНАЧ(Выборка))^2)/ (СЧЁТ(Выборка)-1)​

    • ​ о распределении заработных​
    • ​ выборка состоит из​ функция МОДА(), английский​
    • ​ число, которое является​Все показатели выведены в​

    ​ о состоянии процесса​Функция учитывает логические значения​ числами, либо содержащими​ оператора​Результат вычисления среднего арифметического​ совокупности или по​ нового актива в​При принятии инвестиционного решения​ распределения: см., например,​Эксцесс показывает относительный вес​ понятием Стандартная ошибка​ – формула массива​ плат (см. раздел​ массива на подобие​

    ​ вариант MODE().​ серединой множества чисел​ виде значений, а​ изготовления.​ и текстовые представления​ числа именами, массивами​СТАНДОТКЛОН.В​ выводится в ту​ выборке следует произвести​

    ​ портфель. Показатель позволяет​ необходимо учитывать следующий​ распределение Вейбулла или распределение Пуассона,​ «хвостов» распределения относительно​ среднего необходимо прочитать​Дисперсия выборки равна 0,​ статьи выше, о​ этого (0,935; 1,211;​

    ​Примечание​ (в данном случае​ не формул. Если​

    Доходность по ценным бумагам.

    ​Содержание статьи:​ чисел, которые указаны​

    Формула.

    ​ или ссылками.​, если пользователь считает​ ячейку, которая была​ расчет. Жмем на​

    ​ сопоставить ожидаемую доходность​ момент: когда ожидаемая​ для котрого Эксцесс =​ его центральной части.​ о выборочном распределении​ только в том​

    График.

    ​ Медиане), модой является​ 2,430; 3,668; 3,874;​: Если в массиве​ выборки): половина чисел​ массив данных изменился,​Надстройка Пакет анализа;​

    ​ непосредственно в списке​

    Интерпретация результатов

    ​Учитываются логические значения и​ нужным, можно применять​ выделена перед открытием​ кнопку​ и риск. То​ доходность актива близка​ 1/λ.​

    ​Для того чтобы определить,​ (см. статью Статистики,​

    СРЗНАЧ.

    ​ случае, если все​ число 15 (17​ …), в котором​

    СТАНДОТКЛОН.

    ​ нет повторяющихся значений,​ множества больше, чем​ то необходимо перезапустить​Среднее выборки;​ аргументов.​ текстовые представления чисел,​ функцию​Мастера функций​«OK»​ есть величины с​ к 0, коэффициент​Уровень надежности — означает​ что относится к​ их выборочные распределения​

    ​ значения равны между​ значений из 51,​ может не оказаться​ то функция вернет​ медиана, а половина​ расчет.​Медиана выборки;​Если аргумент, который является​ которые непосредственно введены​СТАНДОТКЛОН.Г​.​.​ разными единицами измерения.​ вариации может получиться​ вероятность того, что​ хвостам распределения, а​ и точечные оценки​ собой и, соответственно,​

    ​ т.е. 33%). В​ повторов и функция​ значение ошибки #Н/Д.​ чисел меньше, чем​Если во входном интервале​Мода выборки;​ массивом или ссылкой,​ в список аргументов.​.​Урок:​

    exceltable.com

    ​Открывается окно аргументов данной​

    Основная цель работы — научиться вычислять характеристики центра распределения и вариативности.

    Среднее арифметическое, мода и медиана

    Для вычислений будем использовать 20 наблюдений курсов доллара и евро за 2007 год.

    2016-05-11_01-56-10

    На первом шаге вычисляются среднеарифметические значения курсов валют. Для этого устанавливаем курсор на свободную ячейку столбца В и инициируем команду суммирование. Далее растягиваем формулу вправо. Полученный результат делится на число наблюдений (20). Получаем средние значения для курса доллара и евро. Они выделены на рисунке желтым цветом.

    Ниже представлены вычисленные по специальным формулам среднее значение, моду и медиану. Заметим, что среднее значение, вычисленное по заложенной в Excel формулы совпало со значением, рассчитанным первым способом.

    2016-05-11_02-02-36

    Мода — это наиболее часто встречающийся вариант ряда.

    Мода вычислена по формуле =МОДА(B3:B22), где B3:B22 — ряд данных.

    Медиана — это значение признака, которое лежит в основе ранжированного ряда и делит этот ряд на две равные по численности части.

    Медиана вычислена по формуле =МЕДИАНА(B3:B22), где B3:B22 — ряд данных.

    Дисперсия и среднеквадратичное отклонение

    Дисперсия в статистике — это мера разброса данной случайной величины, то есть её отклонения от математического ожидания. Она в статистике находится как среднее квадратическое отклонение индивидуальных значений признака в квадрате от средней арифметической.

    Среднее квардратическое отклонение равно корню из дисперсии.

    Вычисления представлены на рисунке ниже.

    2016-05-11_02-20-30

    Формула для дисперсии в данном случае =ДИСП(Лист1!B3:B22) Среднее квадратическое отклонение вычислили следующим образом: =КОРЕНЬ(B24), где B24 — ячейка со значением дисперсии.

    Понравилась статья? Поделить с друзьями:
  • Excel мобильный скачать бесплатно
  • Excel мобильный как пользоваться
  • Excel мобильная версия скачать
  • Excel множество значений в одной ячейке
  • Excel многоуровневые промежуточные итоги