Excel для Microsoft 365 Excel для Microsoft 365 для Mac Excel для Интернета Excel 2021 Excel 2021 для Mac Excel 2019 Excel 2019 для Mac Excel 2016 Excel 2016 для Mac Excel 2013 Excel Web App Excel 2010 Excel для Mac 2011 Excel Starter 2010 Еще…Меньше
В этой статье описаны синтаксис формулы и использование функции ХИ2.РАСП в Microsoft Excel.
Описание
Возвращает распределение хи-квадрат.
Функция распределения хи-квадрат обычно используется для изучения вариации в процентах какой-либо величины между выборками — например, части дня, которую люди проводят у телевизора.
Синтаксис
ХИ2.РАСП(x;степени_свободы;интегральная)
Аргументы функции ХИ2.РАСП описаны ниже.
-
X — обязательный аргумент. Значение, для которого требуется вычислить распределение.
-
Степени_свободы — обязательный аргумент. Число степеней свободы.
-
Интегральная — обязательный аргумент. Логическое значение, определяющее форму функции. Если аргумент «интегральная» имеет значение ИСТИНА, функция ХИ2.РАСП возвращает интегральную функцию распределения; если этот аргумент имеет значение ЛОЖЬ, возвращается функция плотности распределения.
Замечания
-
Если какой-либо из аргументов не является числом, ХИ2. DIST возвращает #VALUE! значение ошибки #ЗНАЧ!.
-
Если x имеет отрицательное отношение, ХИ2. DIST возвращает #NUM! значение ошибки #ЗНАЧ!.
-
Если значение степени_свободы не целое, оно усекается.
-
Если deg_freedom < 1 или deg_freedom > 10^10, ХИ2. DIST возвращает #NUM! значение ошибки #ЗНАЧ!.
Пример
Скопируйте образец данных из следующей таблицы и вставьте их в ячейку A1 нового листа Excel. Чтобы отобразить результаты формул, выделите их и нажмите клавишу F2, а затем — клавишу ВВОД. При необходимости измените ширину столбцов, чтобы видеть все данные.
Формула |
Описание |
Результат |
=ХИ2.РАСП(0,5;1;ИСТИНА) |
Распределение хи-квадрат для 0,5, возвращаемое как интегральная функция распределения с 1 степенью свободы. |
0,52049988 |
=ХИ2.РАСП(2;3;ЛОЖЬ) |
Распределение хи-квадрат для 2, возвращаемое как интегральная функция распределения с 3 степенями свободы. |
0,20755375 |
Нужна дополнительная помощь?
17 авг. 2022 г.
читать 2 мин
Хи-квадрат критерий согласия используется для определения того, следует ли категориальная переменная гипотетическому распределению.
В этом руководстве объясняется, как выполнить критерий согласия Хи-квадрат в Excel.
Пример: критерий согласия хи-квадрат в Excel
Владелец магазина утверждает, что каждый будний день в его магазин приходит одинаковое количество покупателей. Чтобы проверить эту гипотезу, независимый исследователь записывает количество покупателей, которые заходят в магазин на определенной неделе, и обнаруживает следующее:
- Понедельник: 50 клиентов
- вторник: 60 клиентов
- Среда: 40 клиентов
- Четверг: 47 клиентов
- Пятница: 53 клиента
Мы будем использовать следующие шаги, чтобы выполнить критерий согласия Хи-квадрат, чтобы определить, согласуются ли данные с заявлением владельца магазина.
Шаг 1: Введите данные.
Во-первых, мы будем вводить значения данных для ожидаемого количества клиентов каждый день в одном столбце и наблюдаемое количество клиентов каждый день в другом столбце:
Примечание. Всего было 250 клиентов. Таким образом, если владелец магазина ожидает, что каждый день в магазин будет приходить такое же количество покупателей, то он ожидает 50 покупателей в день.
Шаг 2: Найдите разницу между наблюдаемыми и ожидаемыми значениями.
Статистика критерия хи-квадрат для теста согласия равна X 2 = Σ(OE) 2 / E
куда:
- Σ: причудливый символ, означающий «сумма».
- O: наблюдаемое значение
- E: ожидаемое значение
Следующая формула показывает, как рассчитать (OE) 2 / E для каждой строки:
Шаг 3: Рассчитайте статистику теста хи-квадрат и соответствующее значение p.
Наконец, мы рассчитаем статистику теста хи-квадрат вместе с соответствующим значением p, используя следующие формулы:
Примечание. Функция Excel ХИ.РАСП.ВР(x, степень_свободы) возвращает правостороннюю вероятность распределения хи-квадрат, связанную с тестовой статистикой x и определенными степенями свободы. Степени свободы рассчитываются как n-1. В этом случае deg_freedom = 5 – 1 = 4.
Шаг 4: Интерпретируйте результаты.
Статистика теста X 2 для теста составляет 4,36 , а соответствующее значение p равно 0,3595.Поскольку это p-значение не меньше 0,05, мы не можем отвергнуть нулевую гипотезу. Это означает, что у нас нет достаточных доказательств того, что истинное распределение покупателей отличается от распределения, о котором заявил владелец магазина.
Критерий независимости хи-квадрат используется для определения связи между двумя категориальными переменными. Примерами пар категориальных переменных являются: Семейное положение vs. Уровень занятости респондента; Порода собак vs. Профессия хозяина, Уровень з/п vs. Специализация инженера и др. При вычислении критерия независимости проверяется гипотеза о том, что между переменными связи нет. Вычисления будем производить с помощью функции MS EXCEL 2010
ХИ2.ТЕСТ()
и обычными формулами.
Предположим у нас есть
выборка
данных, представляющая результат опроса 500 человек. Людям задавалось 2 вопроса: про их семейное положение (женаты, гражданский брак, не состоят в отношениях) и их уровень занятости (полный рабочий день, частичная занятость, временно не работает, на домохозяйстве, на пенсии, учеба). Все ответы поместили в таблицу:
Данная таблица называется
таблицей сопряжённости признаков
(или факторной таблицей, англ. Contingency table). Элементы на пересечении строк и столбцов таблицы обычно обозначают O
ij
(от англ. Observed, т.е. наблюденные, фактические частоты).
Нас интересует вопрос «Влияет ли Семейное положение на Занятость?», т.е. существует ли зависимость между двумя методами классификации
выборки
?
При
проверке гипотез
такого вида обычно принимают, что
нулевая гипотеза
утверждает об отсутствии зависимости способов классификации.
Рассмотрим предельные случаи. Примером полной зависимости двух категориальных переменных является вот такой результат опроса:
В этом случае семейное положение однозначно определяет занятость (см.
файл примера лист Пояснение
). И наоборот, примером полной независимости является другой результат опроса:
Обратите внимание, что процент занятости в этом случае не зависит от семейного положения (одинаков для женатых и не женатых). Это как раз совпадает с формулировкой
нулевой гипотезы
. Если
нулевая гипотеза
справедлива, то результаты опроса должны были бы так распределиться в таблице, что процент занятых был бы одинаковым независимо от семейного положения. Используя это, вычислим результаты опроса, которые соответствуют
нулевой гипотезе
(см.
файл примера лист Пример
).
Сначала вычислим оценку вероятности, того, что элемент
выборки
будет иметь определенную занятость (см. столбец u
i
):
где
с
– количество столбцов (columns), равное количеству уровней переменной «Семейное положение».
Затем вычислим оценку вероятности, того, что элемент
выборки
будет иметь определенное семейное положение (см. строку v
j
).
где
r
– количество строк (rows), равное количеству уровней переменной «Занятость».
Теоретическая частота для каждой ячейки E
ij
(от англ. Expected, т.е. ожидаемая частота) в случае независимости переменных вычисляется по формуле: E
ij
=n* u
i
* v
j
Известно, что статистика Х
2
0
при больших n имеет приблизительно
ХИ2-распределение
с (r-1)(c-1) степенями свободы (df – degrees of freedom):
Примечание
: Вышеуказанная статистика при с=1 используется для вычисления
критерия согласия Пирсона ХИ-квадрат
(см. статью
Проверка гипотез критерием хи-квадрат Пирсона в MS EXCEL
).
Если вычисленное на основе
выборки
значение этой статистики «слишком большое» (больше порогового), то
нулевая гипотеза
отвергается. Пороговое значение вычисляется на основании
уровня значимости
, например с помощью формулы
=ХИ2.ОБР.ПХ(0,05; df)
.
Примечание
:
Уровень значимости
обычно принимается равным 0,1; 0,05; 0,01.
При
проверке гипотезы
также удобно вычислять
p-значение
, которое мы сравниваем с
уровнем значимости
.
p
-значение
рассчитывается с использованием
ХИ2-распределения
с (r-1)*(c-1)=df степеней свободы.
Если вероятность, того что случайная величина имеющая
ХИ2-распределение
с (r-1)(c-1)
степенями свободы
примет значение больше вычисленной статистики Х
2
0
, т.е. P{Х
2
(r-1)*(c-1)
>Х
2
0
}, меньше
уровня значимости
, то
нулевая гипотеза
отклоняется.
В MS EXCEL
p-значение
можно вычислить с помощью формулы
=ХИ2.РАСП.ПХ(Х
2
0
;df)
, конечно, вычислив непосредственно перед этим значение статистики Х
2
0
(это сделано в
файле примера
). Однако, удобнее всего воспользоваться функцией
ХИ2.ТЕСТ()
. В качестве аргументов этой функции указываются ссылки на диапазоны содержащие фактические (Observed) и вычисленные теоретические частоты (Expected).
Если
уровень значимости
>
p
-значения
, то означает это фактические и теоретические частоты, вычисленные из предположения справедливости
нулевой гипотезы
, серьезно отличаются. Поэтому,
нулевую гипотезу
нужно отклонить.
Использование функции
ХИ2.ТЕСТ()
позволяет ускорить процедуру
проверки гипотез
, т.к. не нужно вычислять значение
статистики
. Теперь достаточно сравнить результат функции
ХИ2.ТЕСТ()
с заданным
уровнем значимости
.
Примечание
: Функция
ХИ2.ТЕСТ()
, английское название CHISQ.TEST, появилась в MS EXCEL 2010. Ее более ранняя версия
ХИ2ТЕСТ()
, доступная в MS EXCEL 2007 имеет тот же функционал. Но, как и для
ХИ2.ТЕСТ()
, теоретические частоты нужно вычислить самостоятельно.
СОВЕТ
: О проверке других видов гипотез см. статью
Проверка статистических гипотез в MS EXCEL
.
This step-by-step tutorial explains how to plot the following Chi-Square distribution in Excel:
Step 1: Define the X Values
First, let’s define a range of x-values to use for our plot.
For this example, we’ll create a range from 0 to 20:
Step 2: Calculate the Y Values
The y values on the plot will represent the PDF values associated with the Chi-Square distribution.
We can type the following formula into cell B2 to calculate the PDF value of the Chi-Square distribution associated with an x value of 0 and a degrees of freedom value of 3:
=CHISQ.DIST(A2, $E$1, FALSE)
We can then copy and paste this formula down to every remaining cell in column B:
Step 3: Plot the Chi-Square Distribution
Next, highlight the cell range A2:B22, then click the Insert tab along the top ribbon, then click the Scatter option within the Charts group and click Scatter with Smooth Lines:
The following chart will be created:
The x-axis shows the values of a random variable that follows a Chi-Square distribution with 3 degrees of freedom and the y-axis shows the corresponding PDF values of the Chi-Square distribution.
Note that if you change the value for the degrees of freedom in cell E1, the chart will automatically update.
For example, we could change the degrees of freedom to 7:
Notice that the shape of the plot automatically changes to reflect a Chi-Square distribution with 7 degrees of freedom.
Step 4: Modify the Appearance of the Plot
Feel free to add a title, axis labels, and remove the gridlines to make the plot more aesthetically pleasing:
Additional Resources
The following tutorials explain how to plot other common distributions in Excel:
How to Plot a Bell Curve in Excel
How to Plot a Binomial Distribution in Excel
How to Plot a Poisson Distribution in Excel
До конца XIX века нормальное распределение считалась всеобщим законом вариации данных. Однако К. Пирсон заметил, что эмпирические частоты могут сильно отличаться от нормального распределения. Встал вопрос, как это доказать. Требовалось не только графическое сопоставление, которое имеет субъективный характер, но и строгое количественное обоснование.
Так был изобретен критерий χ2 (хи квадрат), который проверяет значимость расхождения эмпирических (наблюдаемых) и теоретических (ожидаемых) частот. Это произошло в далеком 1900 году, однако критерий и сегодня на ходу. Более того, его приспособили для решения широкого круга задач. Прежде всего, это анализ категориальных данных, т.е. таких, которые выражаются не количеством, а принадлежностью к какой-то категории. Например, класс автомобиля, пол участника эксперимента, вид растения и т.д. К таким данным нельзя применять математические операции вроде сложения и умножения, для них можно только подсчитать частоты.
Наблюдаемые частоты обозначим О (Observed), ожидаемые – E (Expected). В качестве примера возьмем результат 60-кратного бросания игральной кости. Если она симметрична и однородна, вероятность выпадения любой стороны равна 1/6 и, следовательно, ожидаемое количество выпадения каждой из сторон равна 10 (1/6∙60). Наблюдаемые и ожидаемые частоты запишем в таблицу и нарисуем гистограмму.
Нулевая гипотеза заключается в том, что частоты согласованы, то есть фактические данные не противоречат ожидаемым. Альтернативная гипотеза – отклонения в частотах выходят за рамки случайных колебаний, расхождения статистически значимы. Чтобы сделать строгий вывод, нам потребуется.
- Обобщающая мера расхождения между наблюдаемыми и ожидаемыми частотами.
- Распределение этой меры при справедливости гипотезы о том, что различий нет.
Начнем с расстояния между частотами. Если взять просто разницу О — E, то такая мера будет зависеть от масштаба данных (частот). Например, 20 — 5 =15 и 1020 – 1005 = 15. В обоих случаях разница составляет 15. Но в первом случае ожидаемые частоты в 3 раза меньше наблюдаемых, а во втором случае – лишь на 1,5%. Нужна относительная мера, не зависящая от масштаба.
Обратим внимание на следующие факты. В общем случае количество категорий, по которым измеряются частоты, может быть гораздо больше, поэтому вероятность того, что отдельно взятое наблюдение попадет в ту или иную категорию, довольно мала. Раз так, то, распределение такой случайной величины будет подчинятся закону редких событий, известному под названием закон Пуассона. В законе Пуассона, как известно, значение математического ожидания и дисперсии совпадают (параметр λ). Значит, ожидаемая частота для некоторой категории номинальной переменной Ei будет являться одновременное и ее дисперсией. Далее, закон Пуассона при большом количестве наблюдений стремится к нормальному. Соединяя эти два факта, получаем, что, если гипотеза о согласии наблюдаемых и ожидаемых частот верна, то, при большом количестве наблюдений, выражение
имеет стандартное нормальное распределение.
Важно помнить, что нормальность будет проявляться только при достаточно больших частотах. В статистике принято считать, что общее количество наблюдений (сумма частот) должна быть не менее 50 и ожидаемая частота в каждой группе должна быть не менее 5. Только в этом случае величина, показанная выше, имеет стандартное нормальное распределение. Предположим, что это условие выполнено.
У стандартного нормального распределения почти все значение находятся в пределах ±3 (правило трех сигм). Таким образом, мы получили относительную разность в частотах для одной группы. Нам нужна обобщающая мера. Просто сложить все отклонения нельзя – получим 0 (догадайтесь почему). Пирсон предложил сложить квадраты этих отклонений.
Это и есть статистика для критерия Хи-квадрат Пирсона. Если частоты действительно соответствуют ожидаемым, то значение статистики Хи-квадрат будет относительно не большим (отклонения находятся близко к нулю). Большое значение статистики свидетельствует в пользу существенных различий между частотами.
«Большой» статистика Хи-квадрат становится тогда, когда появление наблюдаемого или еще большего значения становится маловероятным. И чтобы рассчитать такую вероятность, необходимо знать распределение статистики Хи-квадрат при многократном повторении эксперимента, когда гипотеза о согласии частот верна.
Как нетрудно заметить, величина хи-квадрат также зависит от количества слагаемых. Чем больше слагаемых, тем больше ожидается значение статистики, ведь каждое слагаемое вносит свой вклад в общую сумму. Следовательно, для каждого количества независимых слагаемых, будет собственное распределение. Получается, что χ2 – это целое семейство распределений.
И здесь мы подошли к одному щекотливому моменту. Что такое число независимых слагаемых? Вроде как любое слагаемое (т.е. отклонение) независимо. К. Пирсон тоже так думал, но оказался неправ. На самом деле число независимых слагаемых будет на один меньше, чем количество групп номинальной переменной n. Почему? Потому что, если мы имеем выборку, по которой уже посчитана сумма частот, то одну из частот всегда можно определить, как разность общего количества и суммой всех остальных. Отсюда и вариация будет несколько меньше. Данный факт Рональд Фишер заметил лет через 20 после разработки Пирсоном своего критерия. Даже таблицы пришлось переделывать.
По этому поводу Фишер ввел в статистику новое понятие – степень свободы (degrees of freedom), которое и представляет собой количество независимых слагаемых в сумме. Понятие степеней свободы имеет математическое объяснение и проявляется только в распределениях, связанных с нормальным (Стьюдента, Фишера-Снедекора и сам Хи-квадрат).
Чтобы лучше уловить смысл степеней свободы, обратимся к физическому аналогу. Представим точку, свободно движущуюся в пространстве. Она имеет 3 степени свободы, т.к. может перемещаться в любом направлении трехмерного пространства. Если точка движется по какой-либо поверхности, то у нее уже две степени свободы (вперед-назад, вправо-влево), хотя и продолжает находиться в трехмерном пространстве. Точка, перемещающаяся по пружине, снова находится в трехмерном пространстве, но имеет лишь одну степень свободы, т.к. может двигаться либо вперед, либо назад. Как видно, пространство, где находится объект, не всегда соответствует реальной свободе перемещения.
Примерно также распределение статистики может зависеть от меньшего количества элементов, чем нужно слагаемых для его расчета. В общем случае количество степеней свободы меньше наблюдений на число имеющихся зависимостей.
Таким образом, распределение хи квадрат (χ2) – это семейство распределений, каждое из которых зависит от параметра степеней свободы. Формальное определение следующее. Распределение χ2 (хи-квадрат) с k степенями свободы — это распределение суммы квадратов k независимых стандартных нормальных случайных величин.
Далее можно было бы перейти к самой формуле, по которой вычисляется функция распределения хи-квадрат, но, к счастью, все давно подсчитано за нас. Чтобы получить интересующую вероятность, можно воспользоваться либо соответствующей статистической таблицей, либо готовой функцией в Excel.
Интересно посмотреть, как меняется форма распределения хи-квадрат в зависимости от количества степеней свободы.
С увеличением степеней свободы распределение хи-квадрат стремится к нормальному. Это объясняется действием центральной предельной теоремы, согласно которой сумма большого количества независимых случайных величин имеет нормальное распределение. Про квадраты там ничего не сказано )).
Проверка гипотезы по критерию Хи квадрат Пирсона
Вот мы и подошли к проверке гипотез по методу хи-квадрат. В целом техника остается прежней. Выдвигается нулевая гипотеза о том, что наблюдаемые частоты соответствуют ожидаемым (т.е. между ними нет разницы, т.к. они взяты из той же генеральной совокупности). Если этот так, то разброс будет относительно небольшим, в пределах случайных колебаний. Меру разброса определяют по статистике Хи-квадрат. Далее либо полученную статистику сравнивают с критическим значением (для соответствующего уровня значимости и степеней свободы), либо, что более правильно, рассчитывают наблюдаемый p-value, т.е. вероятность получить такое или еще больше значение статистики при справедливости нулевой гипотезы.
Т.к. нас интересует согласие частот, то отклонение гипотезы произойдет, когда статистика окажется больше критического уровня. Т.е. критерий является односторонним. Однако иногда (иногда) требуется проверить левостороннюю гипотезу. Например, когда эмпирические данные уж оооочень сильно похожи на теоретические. Тогда критерий может попасть в маловероятную область, но уже слева. Дело в том, что в естественных условиях, маловероятно получить частоты, практически совпадающие с теоретическими. Всегда есть некоторая случайность, которая дает погрешность. А вот если такой погрешности нет, то, возможно, данные были сфальсифицированы. Но все же обычно проверяют правостороннюю гипотезу.
Вернемся к задаче с игральной костью. Рассчитаем по имеющимся данным значение статистики критерия хи-квадрат.
Теперь найдем критическое значение при 5-ти степенях свободы (k) и уровне значимости 0,05 (α) по таблице критических значений распределения хи квадрат.
То есть квантиль 0,05 хи квадрат распределения (правый хвост) с 5-ю степенями свободы χ20,05; 5 = 11,1.
Сравним фактическое и табличное значение. 3,4 (χ2) < 11,1 (χ20,05; 5). Расчетный значение оказалось меньшим, значит гипотеза о равенстве (согласии) частот не отклоняется. На рисунке ситуация выглядит вот так.
Если бы расчетное значение попало в критическую область, то нулевая гипотеза была бы отклонена.
Более правильным будет рассчитать еще и p-value. Для этого нужно в таблице найти ближайшее значение для заданного количества степеней свободы и посмотреть соответствующий ему уровень значимости. Но это прошлый век. Воспользуемся ЭВМ, в частности MS Excel. В эксель есть несколько функций, связанных с хи-квадрат.
Ниже их краткое описание.
ХИ2.ОБР – критическое значение Хи-квадрат при заданной вероятности слева (как в статистических таблицах)
ХИ2.ОБР.ПХ – критическое значение при заданной вероятности справа. Функция по сути дублирует предыдущую. Но здесь можно сразу указывать уровень α, а не вычитать его из 1. Это более удобно, т.к. в большинстве случаев нужен именно правый хвост распределения.
ХИ2.РАСП – p-value слева (можно рассчитать плотность).
ХИ2.РАСП.ПХ – p-value справа.
ХИ2.ТЕСТ – по двум диапазонам частот сразу проводит тест хи-квадрат. Количество степеней свободы берется на одну меньше, чем количество частот в столбце (так и должно быть), возвращая значение p-value.
Давайте пока рассчитаем для нашего эксперимента критическое (табличное) значение для 5-ти степеней свободы и альфа 0,05. Формула Excel будет выглядеть так:
=ХИ2.ОБР(0,95;5)
Или так
=ХИ2.ОБР.ПХ(0,05;5)
Результат будет одинаковым – 11,0705. Именно это значение мы видим в таблице (округленное до 1 знака после запятой).
Рассчитаем, наконец, p-value для 5-ти степеней свободы критерия χ2 = 3,4. Нужна вероятность справа, поэтому берем функцию с добавкой ПХ (правый хвост)
=ХИ2.РАСП.ПХ(3,4;5) = 0,63857
Значит, при 5-ти степенях свободы вероятность получить значение критерия χ2 = 3,4 и больше равна почти 64%. Естественно, гипотеза не отклоняется (p-value больше 5%), частоты очень хорошо согласуются.
А теперь проверим гипотезу о согласии частот с помощью теста хи квадрат и функции Excel ХИ2.ТЕСТ.
Никаких таблиц, никаких громоздких расчетов. Указав в качестве аргументов функции столбцы с наблюдаемыми и ожидаемыми частотами, сразу получаем p-value. Красота.
Представим теперь, что вы играете в кости с подозрительным типом. Распределение очков от 1 до 5 остается прежним, но он выкидывает 26 шестерок (количество всех бросков становится 78).
p-value в этом случае оказывается 0,003, что гораздо меньше чем, 0,05. Есть серьезные основания сомневаться в правильности игральной кости. Вот, как выглядит эта вероятность на диаграмме распределения хи-квадрат.
Статистика критерия хи-квадрат здесь получается 17,8, что, естественно, больше табличного (11,1).
Надеюсь, мне удалось объяснить, что такое критерий согласия χ2 (хи-квадрат) Пирсона и как с его помощью проверяются статистические гипотезы.
Напоследок еще раз о важном условии! Критерий хи-квадрат исправно работает только в случае, когда количество всех частот превышает 50, а минимальное ожидаемое значение для каждой группы не меньше 5. Если в какой-либо категории ожидаемая частота менее 5, но при этом сумма всех частот превышает 50, то такую категорию объединяют с ближайшей, чтобы их общая частота превысила 5. Если это сделать невозможно, или сумма частот меньше 50, то следует использовать более точные методы проверки гипотез. О них поговорим в другой раз.
Ниже находится видео ролик о том, как в Excel проверить гипотезу с помощью критерия хи-квадрат.
Скачать файл с примером.
Поделиться в социальных сетях:
Данный пост не отвечает, как в принципе считать критерий Хи квадрат, его цель — показать, как можно автоматизировать расчет Хи квадрат в excel, какие функции для расчета критерия Хи квадрат там есть. Ибо не всегда под рукой есть SPSS или программа R.
В каком-то смысле это напоминалка и подсказка участникам семинара Аналитика для HR, надеюсь вы используете эти методы в работе, этот пост будет еще одной подсказкой.
Я не даю файл ссылкой на скачивание, но вы вполне можете просто скопировать приведенные мной таблицы примеров и провести вычисления Хи квадрат в excel по приведенным мной данным и формулам
Вводная
Например, мы хотим проверить независимость (случайность / неслучайность) распределения результатов корпоративного опроса, где в строках ответы на какой либо вопрос анкеты, а в столбцах — распределение по стажу.
На вычисление Хи квадрат вы выходите через сводную таблицу, когда ваши данные сведены в таблицу сопряжения, например в таком виде
Таблица №1
менее 1 года |
1 |
2 |
3 |
4 |
Сумма по строкам |
|
Да |
26 |
28 |
24 |
30 |
43 |
151 |
Нет |
44 |
18 |
10 |
8 |
19 |
99 |
Не знаю |
13 |
9 |
7 |
10 |
6 |
45 |
Сумма по столбцам |
83 |
55 |
41 |
48 |
68 |
295 |
Для вычисления Хи квадрат в excel существуют следующие формулы
ХИ2.ТЕСТ
Формула ХИ2.ТЕСТ вычисляет вероятность независимости (случайность / неслучайность) распределения
Синаксис такой
ХИ2.ТЕСТ(фактический_интервал,ожидаемый_интервал)
В нашем случае фактический интервал это содержимое таблицы, т.е.
26 |
28 |
24 |
30 |
43 |
44 |
18 |
10 |
8 |
19 |
13 |
9 |
7 |
10 |
6 |
42,48474576 |
28,15254 |
20,98644 |
24,56949 |
34,80678 |
27,85423729 |
18,45763 |
13,75932 |
16,10847 |
22,82034 |
12,66101695 |
8,389831 |
6,254237 |
7,322034 |
10,37288 |
Т.е. получив две таблицы — эмпирических и ожидаемых (или теоретических частот) — мы фактически снимаем с себя работу по получению разницы, возведению в квадрат и прочим вычислениям, а также сверки с таблицей критических значений.
в нашем случае значение ХИ2.ТЕСТ = 0,000466219908895455 — т.е. вероятность независимости распределения 0, 046 %, что значительно ниже принятых в статистике норм в 5 и 1 %. Т.е. мы отвергаем гипотезу о независимости распределения.
НО
Обращаю ваше внимание, что ХИ2.ТЕСТ считает вероятнсть без поправки на непрерывность. Т.е. в таблицах размерностью 2Х2 вы не сможете применить данную формулу по вычислению Хи квадрат
ХИ2.РАСП.ПХ
Возвращает правостороннюю вероятность распределения хи-квадрат (или вероятность случайности / не случайности распределения)
Синаксис
ХИ2.РАСП.ПХ(x;степени_свободы), где х — Хи квадрат эмпирическое
В нашем случае формула будет выглядеть так
ХИ2.РАСП.ПХ(28, 04258;8)
Т.е. в отличие от формулы вычисления Хи квадрат в excel ХИ2.ТЕСТ в данном случае мы считает Хи квадрат эмпирические = 28, 04258 и число степеней свободы
В нашем случае ХИ2.РАСП.ПХ = 0,000466219908895455, как и в примере с ХИ2.ТЕСТ
Примечание
Эта формула вычисления Хи квадрат в excel подойдет вам для вычисления таблиц размерностью 2Х2, поскольку вы сами считаете Хиквадрат эмпирическое и можете ввести в расчеты поправку на непрерывность
Примечание 2
Есть также формула ХИ2.РАСП (вы с неизбежностью увидите ее в excel) — она считает левостороннюю вероятность (если по простому, то левосторонняя считается как 1 — правосторонняя, т.е. мы просто переворачиваем формулу, поэтому я и не даю ее в расчетах Хи квадрат, в нашем примере ХИ2.РАСП = 0,999533780091105.
Итого ХИ2.РАСП + ХИ2.РАСП.ПХ = 1.
ХИ2.ОБР.ПХ
Возвращает значение, обратное правосторонней вероятности распределения хи-квадрат (или просто значение Хи квадрат для определенного уровня вероятности и количества степеней свободы)
Синаксис
ХИ2.ОБР.ПХ(вероятность;степени_свободы)
В нашем случае Хи квадрат эмпирическое = 28, 04258, а число степеней свободы = 8, мы хотим проверить критические значения Хи квадрат для данного распределения. Как уже сказал, в статистике принято принимать гипотезы при уровне 0, 05 и 0, 01. В нашем случае
ХИ2.ОБР.ПХ(0, 05;8) = 15,5073130558655
ХИ2.ОБР.ПХ(0, 01;1) = 20,0902350296632
Наш Хи квадрат эмпирический превышает необходимое критическое значение в 1 %, поэтому мы отвергаем гипотезу о независимости (случайности) распределения.
Примечание
С помощью формулы можно получить не только Хи квадрат критический, но и собственно Хи квадрат эмпирический.
В первом примере мы получили вероятность ХИ2.ТЕСТ = 0,000466219908895455
Теперь мы вычисляем
ХИ2.ОБР.ПХ(0,000466219908895455;8) = 28, 04258
Круг замкнулся)
Примечание 2
Есть также формула ХИ2.ОБР, для этой формулы справедливо примечание 2, которое я привел для формулы ХИ2.РАСП.ПХ
Заключение
Честно признаюсь, не владею точной информацией, насколько полученные результаты вычисления Хи квадрат в excel отличаются от результатов вычисления Хи квадрат в SPSS. Точно понимаю. что отличаются, хотя бы потому, что при самостоятельном вычислении Хи квадрат значения округляются и теряется какое-то количество знаков после запятой. Но не думаю, что это является критичным. Рекомендую лишь страховаться в том случае, когда вероятность распределения Хи квадрат близко к порогу (p-value) 0, 05.
Не очень здорово, что не учитывается поправка на непрерывность — у нас многое вычисляется в таблицах 2Х2. Поэтому мы почти не достигаем оптимизации в случае расчета таблиц 2Х2
Ну и тем не менее, думаю, что приведенных знаний достаточно, чтобы сделать вычисление Хи квадрат в excel чуть быстрее, чтобы сэкономить время на более важные вещи
Читайте нас в фейсбуке и телеграме
Statistics is a subject with a number of probability distributions and formulas. Historically many of the calculations involving these formulas were quite tedious. Tables of values were generated for some of the more commonly used distributions and most textbooks still print excerpts of these tables in appendices. Although it is important to understand the conceptual framework that works behind the scenes for a particular table of values, quick and accurate results require the use of statistical software.
There are a number of statistical software packages. One that is commonly used for calculations at the introductory is Microsoft Excel. Many distributions are programmed into Excel. One of these is the chi-square distribution. There are several Excel functions that use the chi-square distribution.
Details of Chi-square
Before seeing what Excel can do, let’s remind ourselves about some details concerning the chi-square distribution. This is a probability distribution that is asymmetric and highly skewed to the right. Values for the distribution are always nonnegative. There is actually an infinite number of chi-square distributions. The one in particular that we are interested in is determined by the number of degrees of freedom that we have in our application. The greater the number of degrees of freedom, the less skewed our chi-square distribution will be.
Use of Chi-square
A chi-square distribution is used for several applications. These include:
- Chi-square test—To determine if the levels of two categorical variables are independent of one another.
- Goodness of fit test—To determine how well-observed values of a single categorical variable match with values expected by a theoretical model.
- Multinomial Experiment—This is a specific use of a chi-square test.
All of these applications require us to use a chi-square distribution. Software is indispensable for calculations concerning this distribution.
CHISQ.DIST and CHISQ.DIST.RT in Excel
There are several functions in Excel that we can use when dealing with chi-square distributions. The first of these is CHISQ.DIST( ). This function returns the left-tailed probability of the chi-squared distribution indicated. The first argument of the function is the observed value of the chi-square statistic. The second argument is the number of degrees of freedom. The third argument is used to obtain a cumulative distribution.
Closely related to CHISQ.DIST is CHISQ.DIST.RT( ). This function returns the right-tailed probability of the selected chi-squared distribution. The first argument is the observed value of the chi-square statistic, and the second argument is the number of degrees of freedom.
For example, entering =CHISQ.DIST(3, 4, true) into a cell will output 0.442175. This means that for the chi-square distribution with four degrees of freedom, 44.2175% of the area under the curve lies to the left of 3. Entering =CHISQ.DIST.RT(3, 4 ) into a cell will output 0.557825. This means that for the chi-square distribution with four degrees of freedom, 55.7825% of the area under the curve lies to the right of 3.
For any values of the arguments, CHISQ.DIST.RT(x, r) = 1 – CHISQ.DIST(x, r, true). This is because the part of the distribution that does not lie to the left of a value x must lie to the right.
CHISQ.INV
Sometimes we start with an area for a particular chi-square distribution. We wish to know what value of a statistic we would need in order to have this area to the left or the right of the statistic. This is an inverse chi-square problem and is helpful when we want to know the critical value for a certain level of significance. Excel handles this sort of problem by using an inverse chi-square function.
The function CHISQ.INV returns the inverse of the left tailed probability for a chi-square distribution with specified degrees of freedom. The first argument of this function is the probability to the left of the unknown value. The second argument is the number of degrees of freedom.
Thus, for example, entering =CHISQ.INV(0.442175, 4) into a cell will give an output of 3. Note how this is the inverse of the calculation we looked at earlier concerning the CHISQ.DIST function. In general, if P = CHISQ.DIST(x, r), then x = CHISQ.INV( P, r).
Closely related to this is the CHISQ.INV.RT function. This is the same as CHISQ.INV, with the exception that it deals with right-tailed probabilities. This function is particularly helpful in determining the critical value for a given chi-square test. All we need to do is to enter the level of significance as our right-tailed probability, and the number of degrees of freedom.
Excel 2007 and Earlier
Earlier versions of Excel use slightly different functions to work with chi-square. Previous versions of Excel only had a function to directly calculate right-tailed probabilities. Thus CHIDIST corresponds with the newer CHISQ.DIST.RT, In a similar way, CHIINV corresponds to CHI.INV.RT.