Как провести дисперсионный анализ в excel

Чтобы проанализировать изменчивость признака под воздействием контролируемых переменных, применяется дисперсионный метод.

Для изучения связи между значениями – факторный метод. Рассмотрим подробнее аналитические инструменты: факторный, дисперсионный и двухфакторный дисперсионный метод оценки изменчивости.

Дисперсионный анализ в Excel

Условно цель дисперсионного метода можно сформулировать так: вычленить из общей вариативности параметра 3 частные вариативности:

  • 1 – определенную действием каждого из изучаемых значений;
  • 2 – продиктованную взаимосвязью между исследуемыми значениями;
  • 3 – случайную, продиктованную всеми неучтенными обстоятельствами.

В программе Microsoft Excel дисперсионный анализ можно выполнить с помощью инструмента «Анализ данных» (вкладка «Данные» — «Анализ»). Это надстройка табличного процессора. Если надстройка недоступна, нужно открыть «Параметры Excel» и включить настройку для анализа.

Работа начинается с оформления таблицы. Правила:

  1. В каждом столбце должны быть значения одного исследуемого фактора.
  2. Столбцы расположить по возрастанию/убыванию величины исследуемого параметра.

Рассмотрим дисперсионный анализ в Excel на примере.

Психолог фирмы проанализировал с помощью специальной методики стратегии поведения сотрудников в конфликтной ситуации. Предполагается, что на поведение влияет уровень образования (1 – среднее, 2 – среднее специальное, 3 – высшее).

Внесем данные в таблицу Excel:

Таблица с исходными данными.

  1. Открываем диалоговое окно нашего аналитического инструмента. В раскрывшемся списке выбираем «Однофакторный дисперсионный анализ» и нажимаем ОК.
  2. Инструмент Анализ данных.

  3. В поле «Входной интервал» ввести ссылку на диапазон ячеек, содержащихся во всех столбцах таблицы.
  4. Диапазон ячеек.

  5. «Группирование» назначить по столбцам.
  6. «Параметры вывода» — новый рабочий лист. Если нужно указать выходной диапазон на имеющемся листе, то переключатель ставим в положение «Выходной интервал» и ссылаемся на левую верхнюю ячейку диапазона для выводимых данных. Размеры определятся автоматически.
  7. Результаты анализа выводятся на отдельный лист (в нашем примере).

Результаты анализа.

Значимый параметр залит желтым цветом. Так как Р-Значение между группами больше 1, критерий Фишера нельзя считать значимым. Следовательно, поведение в конфликтной ситуации не зависит от уровня образования.



Факторный анализ в Excel: пример

Факторным называют многомерный анализ взаимосвязей между значениями переменных. С помощью данного метода можно решить важнейшие задачи:

  • всесторонне описать измеряемый объект (причем емко, компактно);
  • выявить скрытые переменные значения, определяющие наличие линейных статистических корреляций;
  • классифицировать переменные (определить взаимосвязи между ними);
  • сократить число необходимых переменных.

Рассмотрим на примере проведение факторного анализа. Допустим, нам известны продажи каких-либо товаров за последние 4 месяца. Необходимо проанализировать, какие наименования пользуются спросом, а какие нет.

Исходные данные.

  1. Посмотрим, за счет, каких наименований произошел основной рост по итогам второго месяца. Если продажи какого-то товара выросли, положительная дельта – в столбец «Рост». Отрицательная – «Снижение». Формула в Excel для «роста»: =ЕСЛИ((C2-B2)>0;C2-B2;0), где С2-В2 – разница между 2 и 1 месяцем. Формула для «снижения»: =ЕСЛИ(J3=0;B2-C2;0), где J3 – ссылка на ячейку слева («Рост»). Во втором столбце – сумма предыдущего значения и предыдущего роста за вычетом текущего снижения.
  2. Рост по итогам.

  3. Рассчитаем процент роста по каждому наименованию товара. Формула: =ЕСЛИ(J3/$I$11=0;-K3/$I$11;J3/$I$11). Где J3/$I$11 – отношение «роста» к итогу за 2 месяц, ;-K3/$I$11 – отношение «снижения» к итогу за 2 месяц.
  4. Детализация роста.

  5. Выделяем область данных для построения диаграммы. Переходим на вкладку «Вставка» — «Гистограмма».
  6. Гистограмма.

  7. Поработаем с подписями и цветами. Уберем накопительный итог через «Формат ряда данных» — «Заливка» («Нет заливки»). С помощью данного инструментария меняем цвет для «снижения» и «роста».

Формат ряда данных.

Теперь наглядно видно, продажи какого товара дают основной рост.

Двухфакторный дисперсионный анализ в Excel

Показывает, как влияет два фактора на изменение значения случайной величины. Рассмотрим двухфакторный дисперсионный анализ в Excel на примере.

Задача. Группе мужчин и женщин предъявляли звук разной громкости: 1 – 10 дБ, 2 – 30 дБ, 3 – 50 дБ. Время ответа фиксировали в миллисекундах. Необходимо определить, влияет ли пол на реакцию; влияет ли громкость на реакцию.

Исходная таблица.

  1. Переходим на вкладку «Данные» — «Анализ данных» Выбираем из списка «Двухфакторный дисперсионный анализ без повторений».
  2. Двухфакторный дисперсионный анализ без повторений.

  3. Заполняем поля. В диапазон должны войти только числовые значения.
  4. Параметры анализа.

  5. Результат анализа выводится на новый лист (как было задано).

Результат.

Та как F-статистики (столбец «F») для фактора «Пол» больше критического уровня F-распределения (столбец «F-критическое»), данный фактор имеет влияние на анализируемый параметр (время реакции на звук).

Скачать пример факторного и дисперсионного анализа

скачать факторный анализ отклонений
скачать пример 2

Для фактора «Громкость»: 3,16 < 6,94. Следовательно, данный фактор не влияет на время ответа.

Для примера также прилагаем факторный анализ отклонений в маржинальном доходе.

  • Редакция Кодкампа

17 авг. 2022 г.
читать 3 мин


Однофакторный дисперсионный анализ («дисперсионный анализ») используется для определения наличия или отсутствия статистически значимой разницы между средними значениями трех или более независимых групп.

В этом руководстве объясняется, как выполнить однофакторный дисперсионный анализ в Excel.

Пример. Однофакторный дисперсионный анализ в Excel

Предположим, исследователь набирает 30 студентов для участия в исследовании. Студентам случайным образом назначают использовать один из трех методов обучения в течение следующих трех недель для подготовки к экзамену. По истечении трех недель все студенты сдают одинаковый тест.

Ниже представлены результаты тестов учащихся:

Пример необработанных данных Anova в Excel

Исследователь хочет выполнить однофакторный дисперсионный анализ, чтобы определить, одинаковы ли средние баллы для всех трех групп.

Чтобы выполнить однофакторный дисперсионный анализ в Excel, перейдите на вкладку « Данные », затем щелкните параметр «Анализ данных» в группе « Анализ ».

Если вы не видите опцию Анализ данных , вам сначала нужно загрузить бесплатный пакет инструментов анализа .

Пакет инструментов анализа в Excel

После того, как вы нажмете на нее, появится окно с различными параметрами инструментов анализа. Выберите Anova: Single Factor , затем нажмите OK .

Однофакторный дисперсионный анализ в Excel

Появится новое окно с запросом Input Range.Вы можете либо перетащить рамку вокруг ваших данных, либо вручную ввести диапазон данных. В этом случае наши данные находятся в ячейках C4:E13 .

Затем выберите альфа -уровень для теста. По умолчанию это число равно 0,05. В этом случае я оставлю значение 0,05.

Наконец, выберите ячейку для выходного диапазона , в которой появятся результаты однофакторного дисперсионного анализа. В этом случае я выбираю ячейку G4 .

Односторонний ANOVA в Excel

После того, как вы нажмете OK , появится результат однофакторного дисперсионного анализа:

Односторонний вывод ANOVA в Excel Интерпретация вывода

В выводе показаны две таблицы. Первая представляет собой сводную таблицу, в которой показано количество тестовых баллов в каждой группе, сумма тестовых баллов, среднее значение тестов и дисперсия тестовых баллов.

Сводная таблица в ANOVA для Excel

Напомним, что однофакторный дисперсионный анализ используется для определения наличия или отсутствия статистически значимой разницы между средними значениями трех или более групп.

Из этой первой таблицы мы видим, что средний балл для каждой из трех групп отличается, но чтобы узнать, являются ли эти различия статистически значимыми, нам нужно взглянуть на вторую таблицу.

Вторая таблица показывает статистику теста F, критическое значение F и значение p:

Критическое значение однофакторного дисперсионного анализа F и значение p в Excel

В этом случае статистика F-теста равна 2,3575 , а критическое значение F равно 3,3541.Поскольку статистика F-теста меньше критического значения F, у нас нет достаточных доказательств, чтобы отклонить нулевую гипотезу о том, что средние значения для трех групп равны.

Это означает, что у нас нет достаточных доказательств того, что между тремя методами обучения есть разница в результатах тестов.

Мы могли бы также использовать p-значение , чтобы прийти к такому же выводу. В этом случае p-значение равно 0,1138 , что больше, чем альфа-уровень 0,05 .

Это означает, что у нас нет достаточных доказательств, чтобы отвергнуть нулевую гипотезу о том, что средние значения для трех групп равны.

Примечание. В тех случаях, когда вы отвергаете нулевую гипотезу, вы можете выполнить апостериорный тест Тьюки-Крамера, чтобы точно определить, какие средние значения групп различаются.

Однофакторный дисперсионный анализ изучает влияния одного фактора на анализируемый признак.

В таблицы приведены статистические данные по количеству изготовленных деталей на заводе каждым мастером в течение каждой недели.

Необходимо выяснить зависимость количества изготовленных деталей от производительности мастера. Уровень значимости равен α=0.05.

таблица задача однофакторный дисперсионный анализ

№ п/п Номер недели Количество изготовленных деталей
Первым мастером Вторым мастером Третьим мастером Четвертым мастером Пятым мастером
1. Первая неделя 260 253 258 257 251
2. Вторая неделя 257 255 255 252 250
3. Третья неделя 259 250 254 253 255
4. Четвёртая неделя 254 254 260 257 251

Решение

Переходим на вкладку Данные -> Анализ данных. Выбираем однофакторный дисперсионный анализ и жмём Ок.

анализ данных excel однофакторный дисперсионный анализ

Появляется окно, здесь во входном интервале выбираем диапазон данный в нашей таблицы в нашем случае это диапазон ячеек $C$3:$G$6, альфа ставим 0,05 (обычно в Excel данная величина стоит по умолчанию) и в выходном интервале указываем произвольную ячейку на листе Excel, где желаете, чтобы отобразился результат, далее Ок.

однофакторный дисперсионный анализ

В результате получим решение в виде таблицы.

однофакторный дисперсионный анализ решение

Однофакторный дисперсионный анализ
ИТОГИ
Группы Счет Сумма Среднее Дисперсия
Столбец 1 4 1030 257,5 7
Столбец 2 4 1012 253 4,666666667
Столбец 3 4 1027 256,75 7,583333333
Столбец 4 4 1019 254,75 6,916666667
Столбец 5 4 1007 251,75 4,916666667
Дисперсионный анализ
Источник вариации SS df MS F P-Значение F критическое
Между группами 94,5 4 23,625 3,800268097 0,025089214 3,055568276
Внутри групп 93,25 15 6,21666667
Итого 187,75 19

Из таблицы значения F-критерия равно Fнабл=3.8, а Fкрит=3, правосторонний интервал (3; +∞) Fнабл>Fкрит, отсюда следует, что Fнабл лежит в этом интервале, следовательно, нулевую гипотезу H0 о равенстве групповых матожиданий — отвергаем, следовательно фактор — количества изготовленных деталей зависит от признака — производительности мастера.

Найдём выборочный коэффициент детерминации:

${R^2} = frac{{frac{{94,5}}{{20}}}}{{frac{{187,75}}{{20}}}} approx 0,5$

Этот показатель говорит о том, что около половины еженедельного количества изготовленных деталей мастерами связано с номером недели.

7272


В программе MS Excel
для статистического анализа данных
имеется надстройка «Пакет анализа»,
которая позволяет проводить дисперсионный
анализ следующих видов:

  • однофакторный
    дисперсионный анализ,

  • двухфакторный
    дисперсионный анализ без повторений,

  • двухфакторный
    дисперсионный анализ с повторениями.

Последний вид
двухфакторного анализа используется
в том случае, когда в каждой группе
данных имеется более одной выборки.

3. Расчет однофакторного комплекса.

Рассмотрим задачу
проверки влияния дозы мерказолила на
время Y (в сутках) устранения тиреотоксикоза
у больных диффузным токсическим зобом.
При этом исследуемый фактор A имеет три
уровня:

A1
— 30 мг/сутки

A2
— 25 мг/сутки

A3
— 20 мг/сутки.

Статистический
комплекс представлен на рисунке 2. Он
включает 3 группы и в каждой группе
имеется по 2 наблюдения, т.е. n = 2, к =3.

ВАРИАНТЫ
РЕЗУЛЬТАТИВНОГО ПРИЗНАКА Y

Уровень

Уровень

Уровень

фактора
A1

фактора
A2

фактора
A3

54

67

73

57

63

70

Рисунок
2

Для выполнения
расчетов в MS Excel:

1. Сформируйте
таблицу с исходными данными (Рисунок
3):

Рисунок 3

2.Выполните
команду Анализ
данных
из меню Сервис.

3.Выберите в
появившемся диалоговом окне метод
«Однофакторный дисперсионный анализ»
и нажмите кнопку [OK].

4.В окне «Однофакторный
дисперсионный анализ» (Рисунок 4)
установите для входных данных следующие
параметры:

  • входной
    интервал равен $A$1:$C$3,

  • входной
    диапазон содержит метки в первой строке,

  • альфа
    (уровень значимости) равен
    0,05.

Рисунок 4

5.Для параметров
вывода установите переключатель в
положение «Новый рабочий лист».

6.После завершения
настройки параметров нажмите кнопку
[OK].

Результаты
дисперсионного анализа будут представлены
на новом листе и состоять из двух таблиц
(Рисунок 5). В первой таблице для каждой
строки и каждого столбца исходной
таблицы приведены числовые параметры:
количество чисел, сумма, среднее и
дисперсия.

Рисунок 5

Вторая часть –
это результаты дисперсионного анализа.
В таблице результатов Excel использует
следующие обозначения:

В таблице результатов
MS Excel использует следующие обозначения:

  • SS
    — сумма квадратов,

  • df
    — степени свободы,

  • MS
    — средний квадрат (дисперсия),

  • F
    – наблюдаемое значение F-статистики
    Фишера,

  • p-значение
    — значимость критерия Фишера,

  • F-критическое
    — критическое значение F-статистики при
    p=0,05.

Проанализируем
полученные результаты. В соответствии
с рисунком 5 имеем F = 22,85 и Fкр.
= 9,55, т.е. F > Fкр.
Следовательно влияние фактора на
результативный признак можно считать
достоверным, что и подтверждается
величиной значимости (p=0.0153), которая
меньше 0.05.

Итак,
конкурирующая гипотеза о достоверности
влияния фактора А может быть принята с
вероятностью 0.95. При этом сила влияния
мерказолила на устранение тиреотоксикоза
оценивается в
соответствии с формулой (10) величиной:

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #


Пусть имеется случайная переменная

Y

, значения которой мы можем измерять. Исследователь предполагает, что эта переменная зависит от фактора, значения которого мы можем контролировать, т.е. задавать с требуемой точностью. Покажем как методом дисперсионного анализа (

ANOVA

) проверить гипотезу о наличии или отсутствии влияния указанного фактора на зависимую переменную

Y

.


Disclaimer

: Эта статья – о применении MS EXCEL для целей

Дисперсионного анализа, поэтому

данную статью не стоит рассматривать, как пересказ главы из учебника по статистике. Статья не обладает ни полнотой, ни строгостью изложения положений статистической науки. Теоретические отступления приведены лишь из соображения логики изложения. Использование данной статьи для изучения теории

Дисперсионного анализа

– плохая идея. Хорошая идея — найти в этой статье формулы MS EXCEL для проведения

Дисперсионного анализа.

Перед прочтением этой статьи рекомендуется освежить в памяти следующие понятия статистики:

  • Проверка статистических гипотез

    ;

  • Дисперсия

    и

    среднее значение

    ;

  • Распределение Фишера

    и

    квантили

    этот распределения;

  • F-тест

    ;

  • Блочные диаграммы

    .


Дисперсионный анализ

(ANOVA, ANalysis Of VAriance) позволяет

проверить гипотезу

о равенстве нескольких

средних значений

выборок (взяты ли выборки из одного распределения или из разных распределений).


Примечание

: В статье

Двухвыборочный t-тест с одинаковыми дисперсиями

решалась подобная задача о сравнении

средних значений

2-х распределений. Здесь рассмотрим более общую задачу – будем одновременно сравнивать несколько

средних значений

выборок (более 2-х).

Чтобы пояснить суть

дисперсионного анализа

приведем пример.

Сгенерируем

2 выборки: первую возьмем из

нормального распределения

со средним значением равно 4, вторую со средним — 5 (

стандартные отклонения

одинаковые). Сказать, сильно ли они различаются или нет, невозможно, пока мы не знаем разброс (стандартное отклонение) значений в каждой выборке относительно среднего. Если зададим в распределениях небольшой разброс, скажем 0,1, то в каждой выборке получим близкое к нему значение. В этом случае, очевидно, что наблюдаемое различие между

средними

равное 1 (5-4=1) – значительное и можно говорить, что выборки взяты из разных распределений (см. картинку ниже).

Если же разброс в выборках составляет около 2, то наблюжаемое различие средних значений выборок равное 1 уже не кажется таким значительным.

В дисперсионном анализе эти значения выборок представляют собой значения зависимой переменной Y, а выборки берутся при различных уровнях фактора Х. В первом случае для того дать ответ о зависимости Y от фактора Х, даже не нужно проводить

дисперсионный анализ

: из диаграммы итак очевидно, что отличие между средними значениями выборок (5-4=1), гораздо больше разброса внутри выборки (0,1). Следовательно, очевидно, что выборки взяты из различных генеральных совокупностей (с различными распределениями), которые соответствуют разным значениям Х.

Во втором случае без

дисперсионного анализа

не обойтись. Различие между

средними значениями

может быть обусловлено просто случайностью выборок, взятых из одного распределения.

В конце статьи мы определим математически точно условие «значимости» различия

средних выборок

.

Немного теории


Примечание

: Пользователи, уверенно владеющие методом

дисперсионного анализа

, могут перейти непосредственно к

формулам MS EXCEL

.

Пусть необходимо исследовать зависимость некой

количественной

случайной величины Y от одной переменной, которую мы можем контролировать (устанавливать их значения с требуемой точностью). В теории

дисперсионного анализа

переменная Y называется

зависимой переменной

(

dependent

или

response

variable

), а переменные, от которых исследуется зависимость переменной Y, называются факторами или зависимыми переменными (

factors

или

dependent

variables

).

Для целей этой статьи будем предполагать, что Y зависит только от одного фактора.


Примечание

: Случай зависимости от 2-х факторов рассмотрен в статье

Двухфакторный дисперсионный анализ

.

Отдельные, заданные значения фактора называются уровнями (

levels

) или испытаниями (

treatments

).

Так как мы можем контролировать значения, которые принимает

фактор

, то данные (набор значений Y), которые получены в результате испытаний, мы назовем

экспериментальными

, а сам процесс получения этих данных —

экспериментом

.

Целью эксперимента является исследование влияния различных уровней фактора на переменную Y. В самом деле, так как фактор нами контролируется, то у нас есть возможность сделать несколько наблюдений (измерений) величины Y при определенном заданном уровне фактора. Зачем их делать несколько, ведь значения Y должны получиться одинаковыми? Нет. Так как мы предполагаем, что на переменную Y может влиять множество неконтролируемых нами факторов, то мы будем получать в ходе каждого измерения несколько отличающиеся значения Y. Единственное, что мы можем сделать, это обеспечить одинаковые условия проведения эксперимента для всех измерений.

Например, измеряя расход бензина на 100 км/ч одной и той же марки бензина на одном и том же автомобиле, мы будем получать несколько различные значения. Может непредсказуемо измениться направление ветра, состояние дороги или автомобиля, что в свою очередь повлияет на расход.

Уровни фактора (treatments) будем обозначать буквой j (j изменяется от 1 до

a

). Каждому уровню фактора соответствует одна выборка (состоит из нескольких измерений). Предполагается, что

дисперсии

всех выборок σ

2

неизвестны, но равны между собой.

Непосредственно измеренные значения Y при заданном уровне фактора j будем обозначать y

ij

. Количество наблюдений для разных уровней факторов может быть одинаковым или отличаться.


Примечание

: Чем больше количество измерений/наблюдений (т.е. размер выборки) мы сделаем, тем более обоснованным будет наш статистический вывод о равенстве

средних значений

этих выборок.

В тексте статьи будем рассматривать только равные выборки, их размер обозначим n. В Этом случае общее количество измерений N=n*a.


Примечание

: В

файле примера

выполнены вычисления для обоих случаев (равные и неравные по размеру выборки).

Если фактор действительно оказывает влияние на зависимую переменную Y, то при различных уровнях фактора мы должны в среднем получать различные значения Y. Другими словами, мы должны получить «заметно различающиеся»

средние выборок

при различных уровнях фактора:

Остается выяснить, что значит средние выборок «заметно отличаются».

Стандартные обозначения дисперсионного анализа

Общий подход при проведении Дисперсионного анализа: проверить значимость различия средних значений выборок, сравнив один источник разброса (проверяемый фактор) с другим источником разброса (обоснованный лишь случайностью выборок/ случайным воздействием неконтролируемых факторов):

Введя нижеуказанные обозначения, выражение можно записать в компактной форме:

SST=SSA+SSE

Эти общеупотребительные обозначения расшифровываются следующим образом: SS – это сокращение английского выражения Sum of Squares (сумма квадратов отклонений от среднего), T – это сокращение от Total (Общее среднее), А – это фактор А, E – это сокращение от Error (ошибка).

На основании данных определений, вышеуказанное выражение может быть преобразовано в вычислительную форму:

где,

– общее среднее:

Обратите внимание, что квадраты отклонений имеют размерность

дисперсии

, т.е. меры изменчивости. Теперь очевидно, что левая часть выражения представляет собой общую изменчивость (разброс) каждого из наблюдений относительно общего среднего. Эта общая изменчивость (SST) состоит из двух частей: SSA — изменчивость, объясненная нашей моделью (междувыборочная изменчивость, основанная на различиях в уровнях фактора) и из SSE — ошибка модели (внутривыборочная изменчивость, сумма разбросов наблюдений внутри каждой выборки).

Также в

дисперсионном анализе

используется понятие

среднего квадрата отклонений

(Mean Square), т.е. MS. Соответственно для SST имеем MST=SST/(N-1), для SSA имеем MSA=SSA/(n-1), для ошибки модели SSE имеем MSE=SSE/(a(n-1)).

MS имеет смысл средней изменчивости на 1 наблюдение (с некоторой поправкой). Эта поправка отражает тот факт, что MS должна вычисляться не делением SS на соответствующее количество наблюдений, а на число

степеней свободы

(degrees of freedom, DF). Например, чтобы вычислить MST, мы из N (общего количества наблюдений) должны вычесть 1, т.к. в выражении SST присутствует одно

среднее значение

(аналогично тому, как мы делали при вычислении

дисперсии выборки

). Одна степень свободы теряется при вычислении среднего – это видно в формуле выражения для SST.

В SSA мы имеем уже

а

средних значений (равно количеству уровней фактора, т.е. количеству выборок). Поэтому, из общего количества наблюдений

a

*n необходимо вычесть

а

– количество вычисленных средний значений выборок (an-a=a(n-1)).

Напомним, что в

дисперсионном анализе

проверяется гипотеза о равенстве

средних значений

этих выборок. Т.е. формулируется нулевая гипотеза Н

0

, которая утверждает, что Y не зависит от фактора и все выборки, измеренные при различных уровнях фактора, на самом деле взяты из одного распределения с общим средним.

Идем дальше. Оказывается,

если нулевая справедлива

, то:

  • случайная величина MSА представляет собой оценку σ

    2
  • отношение MSА/MSE имеет

    распределение Фишера

    с

    а-1

    и

    a

    (

    n

    -1)

    степенями свободы.

MSА/MSE обозначают как F

0

(

тестовая статистика

для

однофакторного дисперсионного анализа

).


Примечание

: Можно показать, что MSE также представляет собой оценку σ

2

дисперсии выборок (

математическое ожидание

случайной величины MSE равно σ

2

). Но, в отличие от MSА, MSE представляет собой оценку σ

2

вне зависимости от того, справедлива ли нулевая справедлива или нет.

Теперь, введя основные понятия, рассмотрим вычислительную часть

дисперсионного анализа

на примере решения задачи.

Задача

В качестве задачи рассмотрим технологический процесс изготовления нити в химическом реакторе.

Пусть предполагается, что инженер исследует влияние некой добавки на

прочность нити

Y. Он решает провести эксперимент:

  • Использовать 4 различных концентраций добавки (1%; 5%; 7% и 10%).

    Прим

    .:

    эти значения концентраций не участвуют в расчетах.
  • Провести по 6 (n) измерений прочности нити для каждой концентрации добавки.

Таким образом, имеется только 1 фактор (концентрация добавки). Фактор имеет 4 (а=4) различные уровня (j=1; 2; 3; 4). Всего у нас имеется 24 (N=4*6) измерения.

Вроде бы эксперимент полностью описан, теперь инженеру требуется только провести измерения. Однако, есть еще одна сложность: на разброс результатов при различных уровнях фактора может повлиять то,

как

мы проводим эксперимент.

О рандомизированном эксперименте

Представим, что у нас есть только 1 реактор. Инженер включает реактор, делает 6 измерений для первого уровня, затем, для 2-го и т.д. В итоге, может случиться так, что первые 6 измерений у нас будут выполнены в реакторе, который только начал прогреваться, а последние 6, когда он полностью вышел в рабочий режим. Понятно, что такой подход не годится: на разброс выборок может влиять не только концентрация добавки, но и порядок, в котором проводились измерения.

Также не годится подход, когда используются 4 одинаковых, но отдельных реактора для каждого эксперимента: первый реактор для концентрации 1%, второй — для 5% и т.д. Однако, индивидуальные особенности каждого реактора (период эксплуатации, воздействие ремонтов, незначительное различие конструкции допущенное при изготовлении) могут сказаться на разбросе выборки.

То есть для постановки правильного эксперимента требуется исключить влияние конкретного устройства (experimental unit) на значение переменной Y.

Обычно используют

полностью рандомизированный эксперимент

(completely randomized experimental design) – это когда для каждого испытания (

treatment

) выбираются образцы экспериментального устройства выбираются случайным способом.

Например, для нашего случая можно предложить следующую схему

полностью рандомизированного эксперимента

: мы случайным образом выбираем из большого количества

одинаковых

ректоров (например, из 1000) 6 ректоров для наблюдений первого уровня фактора (для каждого наблюдения 1 реактор), 6 – для второго и т.д. Всего 24 ректора из 1000.

Или можно предложить схему попроще. Всего имеется 24

одинаковых

реакторов. Для

каждого

наблюдения выбираем случайным образом свой реактор.

Или еще проще: каждому из 24 измерений случайным образом (вне зависимости от уровня фактора) назначаем один из 4

одинаковых

реакторов. Каждый реактор участвует в 6 измерениях.


Примечание

: Т.к. не всегда представляется возможным иметь в распоряжении множество одинаковых экспериментальных устройств для проведения

полностью рандомизированного эксперимента

, то в статистике часто используются и другие формы проведения экспериментов, например,

блочный рандомизированный эксперимент

(

randomized block design

).

Вычисления в MS EXCEL

Итак, предположим, что все измерения проведены в соответствии со схемой

полностью рандомизированного эксперимент

а. Результаты измерений представлены в таблице ниже (см.

файл примера на листе Модель

).

Сначала изучим статистические характеристики набора данных, построив

блочную диаграмму

.

Из блочной диаграммы видно, что концентрация добавки влияет на

прочность нити

Y (чем выше концентрация, тем в среднем прочнее нить). Однако, мы пока не можем сделать статистически обоснованный вывод, о том что

концентрация добавки

влияет на

прочность нити

. Возможно, различие в

средних значениях

выборок обусловлено лишь случайностью выборок.


Примечание

: Из

блочной диаграммы

видно, что разброс данных (его отражает дисперсия выборки) имеет примерно одинаковую величину для всех 4-х выборок, что является обязательным условием для корректности применения метода

дисперсионного анализа

.

Сделаем вспомогательные вычисления по формулам из предыдущего раздела статьи: вычислим средние значения каждой выборки, общее среднее, суммы квадратов SS, степени свободы, MSE, MSA.


Тестовая статистика

вычисляется по формуле:

Т.к.

тестовая статистика

имеет

F

-распределение (

распределение Фишера

)

, то ее значение, вычисленное на основании наблюдений, должно лежать около

среднего значения

F

-распределения

с соответствующими

степенями свободы

.

В нашем случае среднее значение

F

-распределения

с

3

и

20

степенями свободы

равно 1,11. Если вычисленное нами значение F

0

«значительно» превосходит это значение, то это является маловероятным событием и у нас есть основания для отклонения

нулевой гипотезы

.

В нашей задаче F

0

равно 5,3358. «Значительно» это или нет? Для ответа на этот вопрос вычислим вероятность этого события (т.е. вероятность события, что случайная величина F, имеющая

распределение Фишера

с указанными степенями свободы, примет значение 5,3358 или более). Эта вероятность не высока =0,0072. Этого и следовало ожидать, т.к. 5,3358 значительно больше среднего значения 1,11. В MS EXCEL эту вероятность можно вычислить по формуле:

=

F.РАСП.ПХ((F

0

;a-1;a(n-1))=F.РАСП.ПХ((5,3358;3;20)

0,0072 – это так называемое

p

-значение

, т.е. вероятность, что статистика F

0

примет вычисленное значение.


Примечание

: Обычно под F

0

понимается как сама случайная величина —

тестовая статистика

F

0

, так и ее конкретное значение F

0

, вычисленное из условий задачи (исходных данных).

Теперь сравним

p

-значение

с

уровнем значимости

(обычно 0,05 или 0,01). Если

p

-значение

меньше

уровня значимости

, то нулевую гипотезу отклоняют.

В начале статьи мы задались вопросом о том, как математически точно определить «значимое» отличие

средних значений выборок

(чтобы мы могли сделать вывод, что уровни фактора влияют на значение переменной Y). Теперь мы можем утверждать, что

средние выборок

статистически значимо отличаются, если вычисленное

p

-значение

меньше заданного

уровня значимости

.

Таким образом, наша модель является полезной и наше предположение о зависимости Y (прочности нити) от фактора (концентрации добавки) является статистически обоснованным.


Примечание

: Однофакторный дисперсионный анализ можно также выполнить с помощью

надстройки Пакет анализа

. Об этом см.

в статье здесь

.

anovaexcelIf you thought there were a lot of functions and features already packed in to Excel, you may be surprised that there are even more available. Both Microsoft and third party developers publish additional tools, called add-ins, that are typically used for specialized number crunching in various fields.

If you are working on statistical analysis and, more specifically, undertaking a variation analysis, there is a tool available through add-ins that should help make the process much easier. Regardless of how complex the research you are working with, the ANOVA tool is simple and user friendly. Here we will briefly take a look at the tool and walk through the steps involved in using it.

If you are interested in learning more about Excel’s advanced analytical capabilities, you might be interested in an online advanced Excel course.

Understanding ANOVA in Excel

The ANOVA function in Excel is the analytical tool used for variance analysis. A form of hypothesis testing, it will determine whether two or more factors have the same mean. Currently, it has three different variations depending on the test you want to perform: Single factor, two-factor with replication and two factor without replication.

Single-factor: This offers a test on data of two or more samples. With it, you can test the hypothesis that each of the samples is drawn from the same underlying probability distribution against the hypothesis that the underlying probability distribution is not the same.

If you are working with only two samples, note that Excel gives you an alternative called T-Test, which is built in to its regular set of functions. If you would like to understand how this and other standard functions operate in Excel, you can take an online course in advanced Excel.

two-factor with replication: when you have two factors on which the variance depends and you are collecting multiple data points for a specified condition, you will want to use this option.

two-factor without replication: When variance depends on two factors and you are collecting a single dat point for a specified condition, you will use this test.

This tutorial assumes that you are familiar with these statistical concepts and will focus on explaining how to use Excel to help you run the tests.  If, however, you need to brush up on concepts in statistics, you can take an online introduction to statistics that should serve as a refresher.

Enable the Analysis Toolpak

The ANOVA function is part of an add-in for Excel, so if you haven’t already, you will need to enable the Excel Analysis Toolpak before you can use it. In addition to ANOVA, this add-in for Excel will give you access to a number of helpful tools for running statistical analysis in your workbooks. If you would like to dive in and understand the power of Excel for working with statistics, you can take a course on Excel’s statistical functions.

Here are instructions for enabling the toolpak in Excel 2010. Depending on the version you are using, the method may vary slightly. So if this does not work for you, you should be able to search for another method or find it on Office.com

1. Go to the file menu

2. Select Options

3. From the options menu, select add-ins from the left column

4. At the bottom of the menu, you will see a label that says “Manage:” followed by a drop-down box. Make sure Excel add-ins is selected from that drop-down and click Go.

5. Another menu will appear, showing you the available add-ins. Check the box next to Analysis Toolpak, and click OK

If the Analysis toolpak is not listed, click browse to locate it. If the program tells you it isn’t installed, click Yes to install it.

You should now have the Analysis Toolpak enabled. To verify, click on the data tab from the main ribbon.  You should see a data analysis option on the right. If you click on that Anova should be among the first options available.

Running ANOVA

Now that you have the Analysis toolpak enabled, you have what you need to complete the test.

Running the ANOVA function

To start with the Anova function, open the workbook containing the data you want to run the test on. Then, follow these steps:

1. click in a cell on your spreadsheet where your output will begin. The results, of course, will cover a range of cells.

2. Click on the Data tab from the main ribbon and select data analysis, which should be in the analysis menu on the right.

3. Select the appropriate Anova test from the options in the Data Analysis menu.

4. The function’s menu will pop up. Start by putting in the range containing the data to be analyzed. If you click the button to the right of the text box (containing a red arrow) you can select your cell range by clicking and dragging.

5. Select the number of rows each sample contains.

6. Specify the alpha (the default 0.05 represents a 95% confidence interval.

7. Specify the output range. Again, you can click the button to the right of the text box to click and drag.  All you really need to consider here is where the first cell of the results will be located. You do not need to indicate the exact number of rows and columns for the result.  Note that the output will be contained in a range of 7 columns by 30 rows.

You now have your result.  All that’s left is interpreting it! If you are a little bit fuzzy on what the numbers mean, don’t worry, you have resources available to help out. In fact you can take an online course that includes a walkthrough of ANOVA and its results.

Hopefully, your test has run smoothly and produced a useable outcome.

Like this post? Please share to your friends:
  • Как провести диагональ в ячейке excel
  • Как провести группировку в excel
  • Как провести графический анализ данных excel
  • Как провести вычисления в excel
  • Как провести выборку в excel