Содержание
- Определение среднего квадратичного отклонения
- Расчет в Excel
- Способ 1: мастер функций
- Способ 2: вкладка «Формулы»
- Способ 3: ручной ввод формулы
- Вопросы и ответы
Одним из основных инструментов статистического анализа является расчет среднего квадратичного отклонения. Данный показатель позволяет сделать оценку стандартного отклонения по выборке или по генеральной совокупности. Давайте узнаем, как использовать формулу определения среднеквадратичного отклонения в Excel.
Определение среднего квадратичного отклонения
Сразу определим, что же представляет собой среднеквадратичное отклонение и как выглядит его формула. Эта величина является корнем квадратным из среднего арифметического числа квадратов разности всех величин ряда и их среднего арифметического. Существует тождественное наименование данного показателя — стандартное отклонение. Оба названия полностью равнозначны.
Но, естественно, что в Экселе пользователю не приходится это высчитывать, так как за него все делает программа. Давайте узнаем, как посчитать стандартное отклонение в Excel.
Рассчитать указанную величину в Экселе можно с помощью двух специальных функций СТАНДОТКЛОН.В (по выборочной совокупности) и СТАНДОТКЛОН.Г (по генеральной совокупности). Принцип их действия абсолютно одинаков, но вызвать их можно тремя способами, о которых мы поговорим ниже.
Способ 1: мастер функций
- Выделяем на листе ячейку, куда будет выводиться готовый результат. Кликаем на кнопку «Вставить функцию», расположенную слева от строки функций.
- В открывшемся списке ищем запись СТАНДОТКЛОН.В или СТАНДОТКЛОН.Г. В списке имеется также функция СТАНДОТКЛОН, но она оставлена из предыдущих версий Excel в целях совместимости. После того, как запись выбрана, жмем на кнопку «OK».
- Открывается окно аргументов функции. В каждом поле вводим число совокупности. Если числа находятся в ячейках листа, то можно указать координаты этих ячеек или просто кликнуть по ним. Адреса сразу отразятся в соответствующих полях. После того, как все числа совокупности занесены, жмем на кнопку «OK».
- Результат расчета будет выведен в ту ячейку, которая была выделена в самом начале процедуры поиска среднего квадратичного отклонения.
Способ 2: вкладка «Формулы»
Также рассчитать значение среднеквадратичного отклонения можно через вкладку «Формулы».
- Выделяем ячейку для вывода результата и переходим во вкладку «Формулы».
- В блоке инструментов «Библиотека функций» жмем на кнопку «Другие функции». Из появившегося списка выбираем пункт «Статистические». В следующем меню делаем выбор между значениями СТАНДОТКЛОН.В или СТАНДОТКЛОН.Г в зависимости от того выборочная или генеральная совокупность принимает участие в расчетах.
- После этого запускается окно аргументов. Все дальнейшие действия нужно производить так же, как и в первом варианте.
Способ 3: ручной ввод формулы
Существует также способ, при котором вообще не нужно будет вызывать окно аргументов. Для этого следует ввести формулу вручную.
- Выделяем ячейку для вывода результата и прописываем в ней или в строке формул выражение по следующему шаблону:
=СТАНДОТКЛОН.Г(число1(адрес_ячейки1); число2(адрес_ячейки2);…)
или
=СТАНДОТКЛОН.В(число1(адрес_ячейки1); число2(адрес_ячейки2);…).
Всего можно записать при необходимости до 255 аргументов.
- После того, как запись сделана, нажмите на кнопку Enter на клавиатуре.
Урок: Работа с формулами в Excel
Как видим, механизм расчета среднеквадратичного отклонения в Excel очень простой. Пользователю нужно только ввести числа из совокупности или ссылки на ячейки, которые их содержат. Все расчеты выполняет сама программа. Намного сложнее осознать, что же собой представляет рассчитываемый показатель и как результаты расчета можно применить на практике. Но постижение этого уже относится больше к сфере статистики, чем к обучению работе с программным обеспечением.
Еще статьи по данной теме:
Помогла ли Вам статья?
Среднее арифметическое – один из самых популярных статистических методов, который рассчитывается повсеместно. Но сам по себе он абсолютно ненадежный. Многие знают поговорку, что один человек ест капусту, другой – мясо, а в среднем они оба едят голубцы. На примере средней зарплаты очень легко это изобразить. Несколько процентов людей, которые зарабатываются миллионы, не сильно повлияют на статистику, но способны значительно испортить ее объективность, завышая показатель на несколько десятков процентов.
Чем ниже разброс между значениями, тем больше можно доверять этому статистическому показателю. Поэтому настоятельно рекомендуется всегда вместе со средним арифметическим рассчитывать и стандартное отклонение. Сегодня мы разберемся, как правильно это делать средствами Microsoft Excel.
Содержание
- Среднеквадратичное отклонение — что это
- Расчет среднеквадратичного отклонения в Excel
- Метод 1. Ручной ввод формулы
- Метод 2. Вкладка «Формулы»
- Метод 3. Мастер функций
- Заключение
Среднеквадратичное отклонение — что это
Стандартное (или среднеквадратичное) отклонение – это квадратный корень из дисперсии. В свою очередь, под последним термином подразумевается степень разброса значений. Для получения дисперсии, и, как следствие, ее производного в виде стандартного отклонения, существует специальная формула, которая, впрочем, нам не так важна. Она довольно сложная по своей структуре, но при этом ее можно полностью автоматизировать средствами Excel. Главное – знать, какие параметры нужно передавать функции. В целом как для вычисления дисперсии, так и стандартного отклонения, аргументы используются одинаковые.
- Сначала мы получаем среднее арифметическое.
- После этого каждое исходное значение сопоставляется со средним и определяется разница между ними.
- После этого каждая разница возводится во вторую степень, после чего получившиеся результаты складываются между собой.
- Наконец, финальный шаг – деление получившегося значения на общее количество элементов в данной выборке.
Получив разницу между одним значением и средним арифметическим всей выборки, мы можем узнать расстояние к нему от определенной точки на координатной прямой. Начинающему человеку вся логика понятна равно до третьего шага. Зачем возводить значение в квадрат? Дело в том, что иногда разница может быть отрицательной, а нам нужно получить положительное число. И, как известно, минус на минус дает плюс. А далее нам нужно определить среднее арифметическое из получившихся значений. Дисперсия имеет несколько свойств:
- Если выводить дисперсию из одного числа, то она всегда будет равняться нулю.
- Если случайное число умножить на константу А, то дисперсия увеличится в количество раз, равное А в квадрате. Проще говоря, константу можно вынести за знак дисперсии и возвести его во вторую степень.
- Если к произвольному числу добавить константу А или же отнять ее, то дисперсия от этого не поменяется.
- Если два случайных числа, обозначаемых, к примеру переменными X и Y не зависят друг от друга, то в таком случае для них справедлива формула. D(X+Y) = D(X) + D(Y)
- Если же в предыдущую формулу внести изменения и пытаться определить дисперсию разницы этих значений, то она также будет составлять сумму этих дисперсий.
Среднеквадратическое отклонение – это математический термин, являющийся производным от дисперси. Получить его очень просто: достаточно извлечь квадратный корень из дисперсии.
Разница между дисперсией и стандартным отклонением находится сугубо в плоскости единиц измерения, если можно так выразиться. Стандартное отклонение является значительно более простым для считывания показателем, поскольку оно показывается не в квадратах числа, а непосредственно в значениях. Простыми словами, если в числовой последовательности 1,2,3,4,5 средним арифметическим является 3, то соответственно, стандартным отклонением будет число 1,58. Это говорит о том, что в среднем одно число отклоняется от среднего числа (которым является тройка в нашем примере), на 1,58.
Дисперсия же будет тем же самым числом, только возведенным в квадрат. В нашем примере – чуть меньше, чем 2,5. В принципе, можно использовать как дисперсию, так и стандартное отклонение для статистических расчетов, только надо четко знать, с каким именно показателем пользователь работает.
Расчет среднеквадратичного отклонения в Excel
У нас есть два главных варианта формулы. Первый рассчитывается по выборочной совокупности. Второй – по генеральной. Чтобы рассчитать стандартное отклонения по выборочной совокупности, необходимо использовать функцию СТАНДОТКЛОН.В. Если же необходимо осуществить расчет по генеральной совокупности, то надо пользоваться функцией СТАНДОТКЛОН.Г.
Отличие выборочной совокупности от генеральной заключается в том, что в первом случае идет обработка непосредственно тех данных, на основе которых рассчитывается среднее арифметическое и среднеквадратическое отклонение. Если же мы говорим про генеральную совокупность, то это весь набор количественных данных, связанных с исследуемым явлением. В идеале выборка должна быть полностью репрезентативной. То есть, в исследовании должны участвовать люди, которых можно соотнести с генеральной совокупностью в равных пропорциях. Например, если в условной стране 50% мужчин и 50% женщин, то такие же пропорции должны быть у выборки.
Следовательно, стандартное отклонение для генеральной совокупности может несколько отличаться от выборочной, поскольку во втором случае исходные цифры меньше. Но в целом, обе функции работают одинаково. Сейчас мы распишем, что нужно сделать для того, чтобы их вызвать. А сделать это можно сразу тремя способами.
Метод 1. Ручной ввод формулы
Ручной ввод – довольно сложный метод, на первый взгляд. Тем не менее, каждый должен им владеть, если хочет быть профессиональным пользователем Excel. Его преимущество в том, что не нужно вообще вызывать окно ввода аргументов. Если хорошо потренироваться, это будет значительно быстрее, чем пользоваться двумя остальными способами. Главное – чтобы пальцы были тренированные. В идеале каждый пользователь Excel должен владеть слепым методом, чтобы быстро вводить формулы и функции.
- Делаем левый клик мышью по той ячейке, в которой будет записываться формула для получения стандартного отклонения. Также можно ее вводить в качестве аргумента любой другой из функций. В таком случае нужно кликнуть по строке ввода формул, а потом начать ввод в том аргументе, куда результат должен выводиться.
- Общая формула следующая: =СТАНДОТКЛОН.Г(число1(адрес_ячейки1); число2(адрес_ячейки2);…). Если мы используем второй вариант, то все осуществляется в точности так же, только буква Г в названии функции меняется на В. Максимальное количество поддерживаемых аргументов – 255.
- После того, как ввод формулы будет закончен, подтверждаем свои действия. Для этого нужно нажать клавишу ввода.
Таким образом, для вычисления стандартного отклонения нам нужно использовать те же аргументы, что и для получения среднего арифметического. Все остальное программа сможет сделать самостоятельно. Также в качестве аргумента можно использовать целый диапазон значений, на основе которых будет осуществляться расчет среднеквадратического отклонения. Теперь давайте рассмотрим другие методы, которые будут более понятными для начинающего пользователя Excel. Но в долгосрочной перспективе от них нужно будет отказаться, поскольку:
- Ручной ввод формулы способен значительно сэкономить время. Пользователь Excel, который помнит формулу и ее синтаксис, имеет существенное преимущество перед тем человеком, который только начинает и долго ищет нужную функцию в перечне в мастере функций или на ленте. Кроме этого, сам по себе ввод с клавиатуры является гораздо более быстрым, чем использование мыши.
- Меньше устают глаза. Не нужно постоянно переключать фокус внимания с таблицы на окно, потом на еще одно окно, потом на клавиатуру, а потом снова на таблицу. Это же помогает существенно сэкономить время и силы, которые потом можно тратить на обработку реальной информации, а не техническое обслуживание формул.
- Ручной ввод формул гораздо более гибкий по сравнению с использованием двух следующих методов. Пользователь может сразу указать нужные ячейки диапазона, не выделяя его непосредственно или сразу посмотреть на всю таблицу, избегая риска, что ее перекроет диалоговое окно.
- Использование формул вручную является своеобразным мостиком к написанию макросов. Конечно, это не поможет выучить язык VBA, но зато формирует правильные привычки. Если человек привык давать команды компьютеру с помощью клавиатуры, ему будет значительно проще освоить любой другой язык программирования, в том числе, и для разработки макросов для электронных таблиц.
Но конечно, да. Использование других методов значительно лучше, если вы новичок, и только начинаете. Поэтому переходим к рассмотрению иных способов, как можно рассчитать стандартное отклонение.
Метод 2. Вкладка «Формулы»
Еще один метод, доступный пользователю, желающему получить стандартное отклонение из диапазона – воспользоваться вкладкой «Формулы» в главном меню. Давайте более подробно распишем, что нужно сделать для этого:
- Выделить ту ячейку, в которую мы хотим записывать результат.
- После этого находим на ленте вкладку «Формулы» и переходим в нее.
- Воспользуемся блоком «Библиотека функций». Там есть кнопка «Другие функции». В перечне, который будет, мы найдем пункт «Статистические». После этого выбираем, какую разновидность формулы мы собираемся использовать.
- После этого появляется окно ввода аргументов. В нем указываем все числа, ссылки на ячейки или диапазоны, которые будут принимать участие в расчетах. После того, как закончим, нажимаем кнопку «ОК».
Преимущества этого метода:
- Скорость. Данный способ довольно быстрый и позволяет ввести нужную формулу буквально в несколько кликов.
- Точность. Нет риска случайно написать не ту ячейку или написать не ту букву, а потом тратить время на переделку.
Можно сказать, что это способ номер два по хорошести после ручного ввода. НО третий метод также полезен в некоторых ситуациях.
Метод 3. Мастер функций
Мастер функций – еще один удобный метод ввода формул для новичков, которые еще не запомнили названия и синтаксис функций. Кнопка для запуска мастера функций находится возле строки ввода формул. Его главное преимущество для новичка на фоне предыдущих способов заключается в детальных подсказках программы, какая функция за что отвечает и какие аргументы вводить в какой последовательности. Она являет собой две буквы – fx. Нажимаем на нее.
После этого появится перечень функций. Можно как попытаться найти в полном алфавитном перечне, так и открыть категорию «Статистические», где также можно найти этот оператор.
Мы можем увидеть в списке, что функция СТАНДОТКЛОН все еще присутствует. Это сделано для того, чтобы сделать старые файлы совместимыми с новой версией Excel. При этом настоятельно рекомендуется пользоваться новыми функциями, приведенными выше, потому что в один момент эта устаревшая функция может перестать поддерживаться.
После того, как мы нажмем «ОК», у нас будет возможность открыть окно аргументов. Каждый аргумент являет собой отдельное число, адрес на ячейку (если в ней содержится числовое значение) или диапазоны значений, которые будут использоваться для среднего арифметического и получения стандартного отклонения. После того, как мы введем все аргументы, нажимаем на кнопку «ОК». Данные будут занесены в ту ячейку, в которой мы вводили формулу.
Заключение
Таким образом, вычислить стандартное отклонение средствами Excel несложно. Да и сама функция является основой статистических расчетов, которая является интуитивно понятной. Ведь очевидно, что важно не только среднее значение, но и разброс значений, из которых выводится среднее арифметическое. Ведь если половина народа богатая, а половина – бедная, то среднего класса по факту и не будет. Но при этом если вывести среднее арифметическое, то окажется, что среднестатистический гражданин как раз и является представителем среднего класса. Но это звучит, как минимум, странно. В общем, успехов в использовании этой функции.
Оцените качество статьи. Нам важно ваше мнение:
Расчет среднего квадратичного отклонения в Microsoft Excel
Смотрите также или базу данных. вычислить непосредственно по Чтобы проиллюстрировать это равную квадратному корню значение (математическое ожиданиеДисперсию выборки можно такжеСначала рассмотрим дисперсию, затем числа, тут можно только те числа вы выделили перед
на кнопку «OK». которые располагаются в
Определение среднего квадратичного отклонения
среднее значение. Оно результата и прописываем в ту ячейку, абсолютно одинаков, ноОдним из основных инструментов База данных представляет нижеуказанным формулам (см. приведем пример. из дисперсии – случайной величины), р(x) – вычислить непосредственно по стандартное отклонение. указать адрес ячейки, из выбранного диапазона,
запуском Мастера функций.Открывается окно аргументов данной ряд в одном рассчитывается путем сложения в ней или которая была выделена вызвать их можно статистического анализа является
Расчет в Excel
собой список связанных файл примера)Вычислим стандартное отклонение для стандартное отклонение. вероятность, что случайная нижеуказанным формулам (см.Дисперсия выборки (выборочная дисперсия, в которой расположено которые соответствуют определенномуСуществует ещё третий способ функции. В поля столбце, или в чисел и деления в строке формул в самом начале
Способ 1: мастер функций
- тремя способами, о расчет среднего квадратичного данных, в котором=КОРЕНЬ(КВАДРОТКЛ(Выборка)/(СЧЁТ(Выборка)-1)) 2-х выборок: (1;Некоторые свойства дисперсии: величина примет значение
- файл примера) sample variance) характеризует разброс соответствующее число. условию. Например, если запустить функцию «СРЗНАЧ». «Число» вводятся аргументы одной строке. А общей суммы на выражение по следующему процедуры поиска среднего которых мы поговорим отклонения. Данный показатель строки данных являются=КОРЕНЬ((СУММКВ(Выборка)-СЧЁТ(Выборка)*СРЗНАЧ(Выборка)^2)/(СЧЁТ(Выборка)-1)) 5; 9) и Var(Х+a)=Var(Х), где Х -
- х.=КВАДРОТКЛ(Выборка)/(СЧЁТ(Выборка)-1) значений в массивеПоле «Диапазон усреднения» не эти числа больше Для этого, переходим функции. Это могут вот, с массивом их количество. Давайте шаблону: квадратичного отклонения. ниже. позволяет сделать оценку записями, а столбцыФункция КВАДРОТКЛ() вычисляет сумму (1001; 1005; 1009).
- случайная величина, аЕсли случайная величина имеет непрерывное=(СУММКВ(Выборка)-СЧЁТ(Выборка)*СРЗНАЧ(Выборка)^2)/ (СЧЁТ(Выборка)-1) – относительно среднего. обязательно для заполнения. или меньше конкретно
Способ 2: вкладка «Формулы»
во вкладку «Формулы». быть как обычные ячеек, или с выясним, как вычислить=СТАНДОТКЛОН.Г(число1(адрес_ячейки1); число2(адрес_ячейки2);…)
- Также рассчитать значение среднеквадратичногоВыделяем на листе ячейку, стандартного отклонения по — полями. Верхняя квадратов отклонений значений
- В обоих случаях, — константа. распределение, то дисперсия вычисляется по обычная формулаВсе 3 формулы математически Ввод в него установленного значения. Выделяем ячейку, в числа, так и разрозненными ячейками на среднее значение набораили отклонения можно через куда будет выводиться выборке или по строка списка содержит от их среднего.
- s=4. Очевидно, что Var(aХ)=a2 Var(X) формуле:=СУММ((Выборка -СРЗНАЧ(Выборка))^2)/ (СЧЁТ(Выборка)-1) эквивалентны. данных является обязательным
Способ 3: ручной ввод формулы
Для этих целей, используется которой будет выводиться адреса ячеек, где листе, с помощью чисел при помощи=СТАНДОТКЛОН.В(число1(адрес_ячейки1); число2(адрес_ячейки2);…).
- вкладку готовый результат. Кликаем генеральной совокупности. Давайте названия всех столбцов. Эта функция вернет отношение величины стандартного
Var(Х)=E[(X-E(X))2]=E[X2-2*X*E(X)+(E(X))2]=E(X2)-E(2*X*E(X))+(E(X))2=E(X2)-2*E(X)*E(X)+(E(X))2=E(X2)-(E(X))2
где р(x) – плотность
– формула массива
Из первой формулы видно, только при использовании функция «СРЗНАЧЕСЛИ». Как
- результат. После этого, эти числа расположены. этого способа работать программы Microsoft ExcelВсего можно записать при
«Формулы» на кнопку узнаем, как использовать
Поле. Определяет столбец, тот же результат, отклонения к значениямЭто свойство дисперсии используется вероятности.Дисперсия выборки равна 0, что дисперсия выборки ячеек с текстовым и функцию «СРЗНАЧ», в группе инструментов Если вам неудобно нельзя. различными способами. необходимости до 255.«Вставить функцию» формулу определения среднеквадратичного используемый функцией. Название что и формула =ДИСП.Г(Выборка)*СЧЁТ(Выборка), массива у выборок в статье про
Для распределений, представленных в
lumpics.ru
Расчет среднего значения в программе Microsoft Excel
только в том это сумма квадратов содержимым. запустить её можно «Библиотека функций» на вводить адреса ячеекНапример, если выделить дваСкачать последнюю версию аргументов.Выделяем ячейку для вывода, расположенную слева от отклонения в Excel. столбца указывается в где Выборка -
существенно отличается. Для таких линейную регрессию.
Стандартный способ вычисления
MS EXCEL, дисперсию случае, если все отклонений каждого значенияКогда все данные введены, через Мастер функций, ленте жмем на вручную, то следует столбца, и вышеописанным ExcelПосле того, как запись результата и переходим строки функций.Скачать последнюю версию двойных кавычках, например ссылка на диапазон, случаев используется Коэффициент Var(Х+Y)=Var(Х) + Var(Y) +
можно вычислить аналитически, значения равны между в массиве жмем на кнопку из панели формул, кнопку «Другие функции». нажать на кнопку способом вычислить среднее
Самый простой и известный сделана, нажмите на во вкладкуВ открывшемся списке ищем Excel «Возраст» или «Урожай» содержащий массив значений вариации (Coefficient of 2*Cov(Х;Y), где Х как функцию от собой и, соответственно,от среднего «OK». или при помощи Появляется список, в расположенную справа от арифметическое, то ответ способ найти среднее
кнопку«Формулы» записьСразу определим, что же в приведенном ниже выборки (именованный диапазон). Variation, CV) - и Y - параметров распределения. Например,
Вычисление с помощью Мастера функций
равны среднему значению., деленная на размерПосле этого, в предварительно ручного ввода в котором нужно последовательно поля ввода данных. будет дан для арифметическое набора чиселEnter.СТАНДОТКЛОН.В представляет собой среднеквадратичное
примере базы данных, Вычисления в функции отношение Стандартного отклонения случайные величины, Cov(Х;Y) - для Биномиального распределения Обычно, чем больше выборки минус 1. выбранную ячейку выводится ячейку. После того, перейти по пунктам
После этого, окно аргументов каждого столбца в — это воспользоватьсяна клавиатуре.В блоке инструментов
или отклонение и как или как число КВАДРОТКЛ() производятся по формуле: к среднему арифметическому, ковариация этих случайных дисперсия равна произведению величина дисперсии, темВ MS EXCEL 2007 результат расчета среднего как открылось окно «Статистические» и «СРЗНАЧ». функции свернется, а отдельности, а не
специальной кнопкой наУрок:«Библиотека функций»СТАНДОТКЛОН.Г выглядит его формула. (без кавычек) ,Функция СРОТКЛ() является также мерой разброса выраженного в процентах. величин. его параметров: n*p*q. больше разброс значений и более ранних
арифметического числа для аргументов функции, нужноЗатем, запускается точно такое вы сможете выделить для всего массива ленте Microsoft Excel.Работа с формулами вжмем на кнопку. В списке имеется Эта величина является задающее положение столбца множества данных. ФункцияВ MS EXCEL 2007
Если случайные величины независимыПримечание
в массиве. версиях для вычисления выбранного диапазона, за ввести её параметры. же окно аргументов
Панель формул
ту группу ячеек ячеек. Выделяем диапазон чисел, Excel«Другие функции» также функция корнем квадратным из в списке: 1 СРОТКЛ() вычисляет среднее и более ранних (independent), то их: Дисперсия, является вторымДисперсия выборки является точечной дисперсии выборки используется исключением ячеек, данные
В поле «Диапазон» функции, как и на листе, которуюДля случаев, когда нужно расположенных в столбцеКак видим, механизм расчета. Из появившегося списка
СТАНДОТКЛОН среднего арифметического числа
Ручной ввод функции
— для первого абсолютных значений отклонений версиях для вычисления ковариация равна 0, центральным моментом, обозначается оценкой дисперсии распределения
функция ДИСП(), англ. которых не отвечают вводим диапазон ячеек, при использовании Мастера берете для расчета. подсчитать среднюю арифметическую или в строке
Расчет среднего значения по условию
среднеквадратичного отклонения в выбираем пункт, но она оставлена квадратов разности всех поля, 2 — значений от среднего. Эта Стандартного отклонения выборки и, следовательно, Var(Х+Y)=Var(Х)+Var(Y). Это D[X], VAR(х), V(x). случайной величины, из название VAR, т.е. условиям. значения которых будут
функций, работу в Затем, опять нажимаете массива ячеек, или документа. Находясь во Excel очень простой.«Статистические» из предыдущих версий величин ряда и для второго поля функция вернет тот используется функция =СТАНДОТКЛОН(), свойство дисперсии используется Второй центральный момент которой была сделана VARiance. С версииКак видим, в программе участвовать в определении котором мы подробно на кнопку слева разрозненных ячеек, можно вкладке «Главная», жмем
Пользователю нужно только. В следующем меню Excel в целях их среднего арифметического. и так далее. же результат, что англ. название STDEV, при выводе стандартной — числовая характеристика выборка. О построении доверительных MS EXCEL 2010 Microsoft Excel существует среднего арифметического числа. описали выше. от поля ввода использовать Мастер функций. на кнопку «Автосумма», ввести числа из делаем выбор между совместимости. После того, Существует тождественное наименование
Критерий. Это диапазон и формула =СУММПРОИЗВ(ABS(Выборка-СРЗНАЧ(Выборка)))/СЧЁТ(Выборка), где Выборка — ссылка т.е. STandard DEViation. ошибки среднего. распределения случайной величины, интервалов при оценке рекомендуется использовать ее
целый ряд инструментов, Делаем это темДальнейшие действия точно такие
данных, чтобы вернуться Он применяет все которая расположена на совокупности или ссылки значениями как запись выбрана, данного показателя — ячеек, содержащий задаваемые
на диапазон, содержащий С версии MSПокажем, что для независимых которая является мерой дисперсии можно прочитать аналог ДИСП.В(), англ. с помощью которых же способом, как же. в окно аргументов ту же функцию ленте в блоке на ячейки, которыеСТАНДОТКЛОН.В жмем на кнопку стандартное отклонение. Оба
условия. В качестве
lumpics.ru
Дисперсия и стандартное отклонение в MS EXCEL
массив значений выборки. EXCEL 2010 рекомендуется величин Var(Х-Y)=Var(Х+Y). Действительно, Var(Х-Y)= Var(Х-Y)= разброса случайной величины в статье Доверительный интервал название VARS, т.е.
можно рассчитать среднее и с функцией
Дисперсия выборки
Но, не забывайте, что функции. «СРЗНАЧ», известную нам инструментов «Редактирование». Из
их содержат. Всеили
«OK» названия полностью равнозначны. аргумента критерия можноВычисления в функции СРОТКЛ() производятся по использовать ее аналог Var(Х+(-Y))= Var(Х)+Var(-Y)= Var(Х)+Var(-Y)= относительно математического ожидания. для оценки дисперсии
Sample VARiance. Кроме значение выбранного ряда «СРЗНАЧ». всегда при желанииЕсли вы хотите подсчитать по первому методу выпадающее списка выбираем расчеты выполняет самаСТАНДОТКЛОН.Г.Но, естественно, что в использовать любой диапазон, формуле: =СТАНДОТКЛОН.В(), англ. название Var(Х)+(-1)2Var(Y)= Var(Х)+Var(Y)= Var(Х+Y).Примечание в MS EXCEL. того, начиная с чисел. Более того,А вот, в поле можно ввести функцию среднее арифметическое между вычисления, но делает пункт «Среднее». программа. Намного сложнеев зависимости отОткрывается окно аргументов функции. Экселе пользователю не который содержит по
Юрик STDEV.S, т.е. Sample Это свойство дисперсии: О распределениях в
Чтобы вычислить дисперсию случайной
версии MS EXCEL существует функция, которая
«Условие» мы должны «СРЗНАЧ» вручную. Она
числами, находящимися в это несколько другимПосле этого, с помощью осознать, что же того выборочная или В каждом поле приходится это высчитывать, крайней мере один: СТАНДОТКЛОН (число1; число2;…) STandard DEViation.
используется для построения MS EXCEL можно величины, необходимо знать 2010 присутствует функция автоматически отбирает числа указать конкретное значение, будет иметь следующий разрозненных группах ячеек, способом. функции «СРЗНАЧ», производится
Дисперсия случайной величины
собой представляет рассчитываемый генеральная совокупность принимает вводим число совокупности.
так как за заголовок столбца иЧисло1, число2…— отКроме того, начиная с доверительного интервала для
прочитать в статье Распределения ее функцию распределения. ДИСП.Г(), англ. название из диапазона, не
числа больше или шаблон: «=СРЗНАЧ(адрес_диапазона_ячеек(число); адрес_диапазона_ячеек(число)). то те жеКликаем по ячейке, где расчет. В ячейку показатель и как участие в расчетах. Если числа находятся него все делает по крайней мере
1 до 30 версии MS EXCEL разницы 2х средних.
случайной величины вДля дисперсии случайной величины Х часто
VARP, т.е. Population соответствующие заранее установленному меньше которого будутКонечно, этот способ не самые действия, о хотим, чтобы выводился под выделенным столбцом, результаты расчета можно
После этого запускается окно в ячейках листа, программа. Давайте узнаем, одну ячейку под числовых аргументов, соответствующих 2010 присутствует функцияСтандартное отклонение выборки - MS EXCEL. используют обозначение Var(Х). Дисперсия равна VARiance, которая вычисляет
пользователем критерию. Это участвовать в расчете. такой удобный, как которых говорилось выше, результат подсчета среднего или справа от
применить на практике. аргументов. Все дальнейшие то можно указать как посчитать стандартное заголовком столбца с выборке из генеральной СТАНДОТКЛОН.Г(), англ. название это мера того,Размерность дисперсии соответствует квадрату математическому ожиданию квадрата дисперсию для генеральной делает вычисления в Это можно сделать предыдущие, и требует проделывайте в поле
значения. Жмем на
выделенной строки, выводится Но постижение этого действия нужно производить
координаты этих ячеек
отклонение в Excel.
условием, чтобы задать совокупности. Вместо аргументов, STDEV.P, т.е. Population
насколько широко разбросаны единицы измерения исходных отклонения от среднего совокупности. Все отличие приложении Microsoft Excel при помощи знаков
держать в голове «Число 2». И кнопку «Вставить функцию», средняя арифметическая данного уже относится больше так же, как или просто кликнуть
Рассчитать указанную величину в условие для столбца. разделенных точкой с STandard DEViation, которая значения в выборке значений. Например, если E(X): Var(Х)=E[(X-E(X))2] сводится к знаменателю:
Стандартное отклонение выборки
ещё более удобными сравнения. Например, мы пользователя определенные формулы, так до тех которая размещена слева
набора чисел. к сфере статистики, и в первом
по ним. Адреса Экселе можно сP.S. Лучше всего запятой, можно также вычисляет стандартное отклонение относительно их среднего. значения в выборке
Если случайная величина имеет вместо n-1 как для пользователей. взяли выражение «>=15000». но он более пор, пока все от строки формул.Этот способ хорош простотой чем к обучению варианте. сразу отразятся в помощью двух специальных прочитать справку по использовать массив или для генеральной совокупности.По определению, стандартное отклонение
представляют собой измерения дискретное распределение, то у ДИСП.В(), уАвтор: Максим Тютюшев То есть, для гибкий. нужные группы ячеек Либо же, набираем и удобством. Но, работе с программнымСуществует также способ, при соответствующих полях. После функций
этим функциям в ссылку на массив. Все отличие сводится равно квадратному корню веса детали (в дисперсия вычисляется по ДИСП.Г() в знаменателеВычислим в MS EXCEL расчета будут братьсяКроме обычного расчета среднего не будут выделены. на клавиатуре комбинацию у него имеются обеспечением.
котором вообще не того, как всеСТАНДОТКЛОН.В Help’e.
И ещё одна
к знаменателю: вместо
Другие меры разброса
из дисперсии: кг), то размерность формуле: просто n. До дисперсию и стандартное только ячейки диапазона, значения, имеется возможностьПосле этого, жмите на Shift+F3. и существенные недостатки.Автор: Максим Тютюшев нужно будет вызывать
числа совокупности занесены,(по выборочной совокупности)Юлия титова функция. n-1 как уСтандартное отклонение не учитывает дисперсии будет кг2.где x MS EXCEL 2010 отклонение выборки. Также
в которых находятся подсчета среднего значения
excel2.ru
Как посчитать СКО (среднее квадратическое отклонение) в Excel’e? Формулу, если можно…
кнопку «OK».Запускается Мастер функций. В
С помощью этогоВ процессе различных расчетов окно аргументов. Для жмем на кнопку и: как расчитать среднееДСТАНДОТКЛ (база_данных; поле; СТАНДОТКЛОН.В(), у СТАНДОТКЛОН.Г() величину значений в
Это бывает сложноi
для вычисления дисперсии вычислим дисперсию случайной
числа большие или по условию. ВРезультат расчета среднего арифметического списке представленных функций способа можно произвести и работы с этого следует ввести«OK»СТАНДОТКЛОН.Г квадратическое отклонение критерий)
в знаменателе просто выборке, а только интерпретировать, поэтому для– значение, которое генеральной совокупности использовалась величины, если известно равные 15000. При этом случае, в будет выделен в ищем «СРЗНАЧ». Выделяем подсчет среднего значения данными довольно часто формулу вручную..(по генеральной совокупности).
СашаБаза данных. Интервал n. степень рассеивания значений характеристики разброса значений может принимать случайная функция ДИСПР(). ее распределение. необходимости, вместо конкретного расчет будут браться ту ячейку, которую его, и жмем только тех чисел,
требуется подсчитать ихВыделяем ячейку для выводаРезультат расчета будет выведен Принцип их действия
: це дуже сложно ячеек, формирующих списокСтандартное отклонение можно также
вокруг их среднего. чаще используют величину
величина, а μ – среднее
Здравствуйте на этой странице я собрала теорию и практику с примерами решения задач по предмету эконометрика в программе Microsoft Excel с решением по каждой теме, чтобы вы смогли освежить знания!
Если что-то непонятно — вы всегда можете написать мне в WhatsApp и я вам помогу!
Эконометрика
Становление эконометрики как научной дисциплины представляет значительный интерес с точки зрения как определения объектов исследования, так и формирования набора методов. Сам термин «эконометрика» сформировался из двух частей: «эконо-» – от «экономика» и «-метрика» – от «измерение». Поэтому статистический анализ экономических данных называется эконометрикой, что буквально означает «наука об экономических измерениях».
Эконометрика – это наука, связанная с эмпирическим выводом экономических законов.
Статистические ряды данных
Методы систематизации, обработки и использования статистических данных, выявление закономерностей являются основой эконометрических исследований. Пусть требуется исследовать какой-нибудь признак, свойственный большой группе однородных объектов. Напомним основные понятия и характеристики статистических данных.
Возможно эта страница вам будет полезна:
Генеральной совокупностью (генеральной выборкой) называется совокупность значений признака всех объектов данного типа, а их число объемом совокупности. При этом предполагается, что число
большое, такое, что исследование физически невозможно. Тогда из всей совокупности выбирают ограниченное число объектов и подвергают их изучению.
Выборочной совокупностью (выборкой) называется совокупность случайно отобранных объектов, а её объем обозначается .
Статистические исследования позволяют распространить выводы, сделанные на основе случайной выборки, на всю генеральную совокупность исследуемых случайных величин. Это является основой выборочного метода.
Графическое представление статистических данных
Пусть из генеральной совокупности извлекается выборка объема , причем значение признака
наблюдается
раз, где сумма
равна объему выборки
.
Статистическим распределением выборки называется перечень наблюдаемых значений и соответствующих им частот или относительных частот (частостей)
Упорядоченный в порядке возрастания или убывания ряд значений признака с соответствующими ему частотами называют вариационным рядом.
В целях наглядности строятся различные графики статистического распределения.
Полигоном частот (относительных частот) называется ломаная линия, которая соединяет точки с координатами или
.
Для построения гистограммы частот (относительных частот) необходимо найти границы интервалов признаков. Если данные наблюдений представляют в виде рядов с равными интервалами, то их величина находится по формуле Стэрд-жесса:
где — объем выборки;
— наибольшее и наименьшее значения вариантов выборки. Гистограмма представляет собой столбчатую диаграмму.
По оси абсцисс откладываются границы интервалов так, чтобы они покрыли все значения вариационного ряда, а по оси ординат откладываются абсолютная плотность распределения или относительную плотность
.
Аналогом функции распределения для вариационного ряда является функция накопленных частот, её обозначают
а график строят по следующему правилу:
по оси абсцисс откладывают значения признака, а по оси ординат — накопленные частоты или частости. Такую кривую иногда называют кумулятой: по данным интервального ряда на оси абсцисс откладывают точки, являющиеся верхними границами интервалов, а на оси ординат накопленные частоты (частости) соответствующих интервалов. Часто добавляют ещё одну точку, абсцисса которой соответствует левой границе первого интервала, а ордината равна нулю.
Числовые характеристики статистических распределений
Для описания статистических распределений обычно используют три вида характеристик:
- средние, или характеристики центральной тенденции;
- характеристики изменения вариант (рассеяния);
- характеристики, отражающие дополнительные особенности распределений, в частности их форму.
Все эти характеристики вычисляются по результатам наблюдений и построенных вариационных рядов.
Основным видом средних характеристик является средняя арифметическая (среднее выборочное значение), определяемая по формуле:
где — значение признака в вариационном ряде (дискретном или интервальном);
— соответствующая ему частота;
Довольно часто в статистическом анализе применяют структурные или порядковые средние:
1) медиана — значение признака, разделяющее вариационный ряд на две численно равные группы, такие, что элементы первой группы строго меньше медианы, второй строго больше её значения. Можно определить графически с помощью кумуляты, так как
;
2) мода — значение признака, которому соответствует большая частота.
Величины моды и медианы определяются по интерполяционным формулам, непосредственно из их определения, которые можно найти в дополнительной литературе.
Средние характеристики должны быть дополнены изменением вариации признака (рассеянием). Для этого рассчитываются квадраты отклонений вариант от среднего арифметического значения. Средний квадрат отклонений по данной выборке называется дисперсией и вычисляется по формуле:
На базе дисперсии вводятся две характеристики:
1) среднее квадратическое отклонение ;
2) коэффициент вариации, равный процентному отношению среднего квадратического отклонения к значению средней арифметической исследуемой случайной величины, помогает решить вопрос об однородности выборки:
Величина о является чаще всего применяемой характеристикой рассеяния. Для характеристики формы распределения вводятся моменты к-того порядка, впервые предложенные Чебышсвым П. Л.:
которые называются центральными моментами к-того порядка. Чем больше моментов для данного признака вычислено, тем точнее можно описать свойства распределения. Однако с ростом К растет влияние случайных погрешностей, поэтому на практике используются моменты до четвертого порядка.
Центральный момент третьего порядка называется асимметрией распределения, а четвертого — эксцесс
.
Инструмент анализа описательная статистика и гистограмма в Excel
Наиболее полный анализ статистических данных позволяет выполнить пакет Анализ данных из меню Сервис. Если команда Анализ данных отсутствует в меню Сервис, выберите Надстройки и в появившемся списке отметьте Analysis ToolPak (Пакет анализа). В случае отсутствия этого пункта в Надстройках, вам придется установить его вручную с помощью Microsoft Excel Setup (меню Сервис > Надстройки > подключите Пакет Анализа).
При выполнении этой лабораторной работы будут использоваться инструменты Описательная статистика и Гистограмма из Анализа данных. Надо сказать, что в Excel есть набор встроенных статистических функций, которыми можно пользоваться, если нет необходимости во всех характеристиках исследуемых данных. Для вызова нужной функции необходимо выполнить действия: из меню Вставка и выбрать команду Функция и перейти к категории Статистические.
Возможно эта страница вам будет полезна:
Пример с решением №1.1.
При обследовании 50 семей получены данные о количестве детей, которые имеют БИНОМРАСЩ) с числом испытаний равным 10 и вероятностью успеха 0,3 (сгенерировать с помощью пакета Анализа данных). Определите средний размер семьи. Охарактеризуйте колеблемость размера семьи с помощью показателя вариации. Постройте гистограмму и функцию распределения.
Данные для решения примера задают изначально в виде таблиц и их надо поместить на лист Excel; или можно воспользоваться инструментом Анализа данных Генерация случайных чисел.
Генерация случайных чисел позволяет быстро получить нужное количество значений одной или нескольких вариант, имеющих одно из распределений: Равномерное, Нормальное, Бернулли, Биномиальное, Пуассона и другие. Надо помнить, что каждое распределение имеет свои параметры, которые задаются пользователем. Достоверность полученных выводов в этом случае мала.
- В меню Сервис выберите Анализ данных, а затем выделите инструмент анализа Генерация случайных чисел (найти его можно с помощью линейки прокрутки). Выделите в диалоговом окне нужный инструмент и нажмите ОК (рис. 1.1).
- Заполните поля диалогового окна так же как на рис. 1.2 и нажмите ОК. Результатом является набор из пятидесяти чисел, которые располагаются в столбце В рис 1.3.
- Примените инструмент Описательная статистика для поиска числовых характеристик выборочных данных, расположенных в диапазоне В2:В51. Для этого выберите инструмент анализа Описательная статистика в диалоговом окне Анализ данных рис. 1.1. В одноименном диалоговом окне надо указать: входной интервал (В2:В51), ячейку левого верхнего угла для вывода итогов D1, обязательно включите опцию Итоговая Статистика. Результат применения инструмента Описательная статистика показан на рис. 1.3. в диапазоне D1:Е18.
Значения в диапазоне Е2: Е18 не обновляются в случае изменения исходных данных В2:В51.
В столбце рис. 1.3. приводятся встроенные функции Excel, которые позволяют получить те же результаты, что и при использовании инструмента Описательная статистика. Функции листа следует использовать, если необходим автоматический перерасчет значений числовых характеристик выборки или нет необходимости во всех значениях Описательной статистики.
Построение гистограммы и функции распределения можно выполнить, выбрав инструмент, Гистограмма (рис. 1.1). Перед использованием этого инструмента надо решить вопрос об интервале разбиения ( — Excel называет это значение карманом, а список всех границ интервалов — интервал карманов). Вы можете найти его сами по формуле Стэрджесса или разрешить Excel разбить на равные интервалы (тогда заполнять поле Интервал карманов не надо). Включите опцию вывод графика.
Описание результатов.
Описательная статистика содержит три результата средней характеристики исследования числа детей в пятидесяти семьях: Среднее (3,34), Моду (3) и Медиану (3). Найдем значение коэффициента вариации по формуле (1.4):
Так как 43% > 35%, можно сделать вывод, что изучаемая совокупность семей является неоднородной, чем и объясняется высокая колеблемость количества детей в семьях. В виду неоднородности семей, попавших в выборку, можно в качестве среднего использовать моду или медиану
Стандартное отклонение (1,44) — наиболее широко используемая характеристика изменения данных — измеряется в тех же единицах, что и исходные данные.
Стандартная ошибка является характеристикой достоверности среднего выборочного значения и используется в статистических исследованиях (0,20).
Эксцесс и Асснметрнн позволяют сделать вывод о незначительных отклонениях гистограммы частостей от нормально распределенной случайной величины, характеризующей количество детей в семьях с средним равным 3,34 и средним квад-ратическим отклонением 1,44.
Напомним, что эталоном этих величин являются нормальное распределение (рис. 1.5), для которого Ассиметрия равна нулю, а центральный момент четвертого порядка (1.5) равен трем.
Ассиметрия имеет отрицательное значение. Это означает, что гистограмма не симметрична по отношению к среднему значению выборки и имеет скос вправо, то есть количество семей имеющих менее трех детей больше, чем семей количество детей в которых больше трех.
Эксцесс тоже имеет отрицательное значение. То есть значение гистограммы в точке ниже аналогичного нормального распределения.
Математическая статистика статистические оценки
Имеется случайная величина , закон распределения которой известен и зависит от параметров
. Требуется на основании наблюдаемых данных оценить значения этих параметров.
Числовые характеристики генеральной совокупности, как правило, неизвестны. Их называют параметрами генеральной совокупности (среднее, дисперсия, среднее квадратическое отклонение, доля признака генеральной совокупности объема ).
Из генеральной совокупности извлекается выборка объёма . По данным выборки рассчитывают числовые характеристики, которые называют статистиками (выборочное среднее, выборочная дисперсия и выборочное среднее квадратическое отклонение). Статистики, полученные по различным выборкам, могут отличаться друг от друга, поэтому они являются только оценками неизвестных параметров генеральной совокупности и обозначают
.
Обозначим через выбранные значения наблюдаемой случайной величины (СВ)
. Пусть на основе данных выборки получена статистика
, которая является оценкой параметра
. Наблюдаемые значения
случайные величины, каждая из которых распределена по тому же закону, что и случайная величина
. Поэтому
тоже является величиной случайной, закон распределения которой зависит от распределения СВ
и объема выборки
. Для того, чтобы
имела практическую ценность, она должна обладать свойствами несмещенности, состоятельности и эффективности.
Несмещенной называют оценку, для которой выполняется условие:
Состоятельной называется оценка, удовлетворяющая условию:
Для выполнения условия 2.2 достаточно, чтобы:
Эффективной считается оценка, которая при заданном объеме выборки имеет наименьшую возможную дисперсию.
Выборочная средняя является несмещенной и состоятельной оценкой генеральной средней и вычисляется по формуле (1.1).
Выборочная дисперсия найденная по формуле (1.2) является смещенной оценкой для дисперсии генеральной совокупности.
Вводится понятие исправленной выборочной дисперсии, которая является несмещенной оценкой генеральной дисперсии и вычисляется по формуле:
Исправленное выборочное средне квадратическое отклонение будет равно:
Теоретическое обоснование использования этих выборочных оценок для определения характеристик генеральной совокупности дают закон больших чисел и предельные теоремы.
Основные виды распределения и функции excel, позволяющие проводить статистическое оценивание
Чтобы построить модели статистических закономерностей возникает необходимость использовать известные виды распределения. Каждое распределение характеризует некоторую случайную величину — результат определенного вида испытаний. С функциями, задающими эти распределения, а также их параметрами можно познакомиться в любом учебнике по теории вероятностей. Выбранное распределение может рассматриваться только как теоретическое (генеральное), а результат опыта — как статистическое (выборочное) распределение. Последнее, в силу ограниченности числа наблюдений, будет лишь приближенно характеризовать теоретическое распределение.
По виду гистограммы и полученным числовым характеристикам выборки делается предположение о теоретическом виде распределения исследуемого признака. Если это удается, то можно найти оценки числовых характеристик и сделать выводы о параметрах генеральной совокупности. Если закон распределения не возможно установить, то подбирается кривая, наилучшим образом сглаживающая данные статистического ряда. Распределения делятся на дискретные и непрерывные.
Дискретные распределения описываются конечные набором чисел и соответствующими им частотами. Например, оценки, которые может получить студент на экзамене, описываются множеством (2, 3, 4, 5). Поэтому случайная величина -получить определенную оценку на экзамене будет иметь дискретное распределение
Непрерывные распределения описывают случайные величины с непрерывной областью значений. Для непрерывных распределений вероятность сопоставляется не с отдельным значением, а интервалом чисел. Непрерывные распределения в теории вероятностей задаются функцией плотности распределения , которую называют плотность вероятности или функцией распределения
.
Площадь фигуры, ограниченной и прямыми
, осью
определяет вероятность попадания случайной величины
в интервал
, которую обозначим
. Так как вероятность в точке для непрерывного распределения равна нулю, то имеет место равенство:
Нормальное распределение
Чаще других в статистических исследованиях применяется нормальное распределение. Теоретическим основанием к его применению служит центральная предельная теорема Ляпунова. Оно имеет два параметра: среднее (а) и стандартное отклонение . В дальнейшем будем использовать сокращенную запись для обозначения этого распределения
.
Синтаксис функции:
Значение функции распределения случайной величины , распределенной по нормальному закону распределения, получится, если аргумент интегральная равен ИСТИНА (1). Если аргумент интегральная имеет значение ЛОЖЬ (0), то получите значение плотности вероятности нормального распределения
.
Графики плотности распределения и функции распределения случайной величины построенные в Excel изображены на рис. 2.1.
Вероятность попадания случайной величины в интервал (с, d) определяется по формуле:
Если случайная величина нормально распределена и имеет среднее арифметическое равное нулю и среднее квадратическое отклонение равное единицы, то её называют стандартизованной а для вычисления вероятности попадания в интервал таких случайных величин в Excel существует функция:
которая возвращает интегральное стандартное распределение.
называют интегральной функцией Лапласа. Для ее вычисления созданы специальные таблицы.
При статистических исследованиях оценок довольно часто приходится решать обратную задачу: находить значение варианты по заданной вероятности. Для этого в Excel имеются обратные функции, позволяющие её решить: НОРМОБР (вероятность;
) и НОРМСТОБР (вероятность).
Распределения, связанные с нормальным распределением
Несмотря на широкое распространение нормального распределения, в некоторых случаях при построении статистических моделей возникает необходимость в использовании других распределений. Приведем примеры некоторых функций в Excel.
Логнормальное распределение
Свидетельством близости распределения к логнормальному является значительная ассиметрия, обусловленная ограничением . Например, может использоваться для описания распределения доходов банковских вкладов, месячной заработной платы, посевных площадей и т.д.
Функция ЛОГНОРМРАСП(; среднее; стандартное откл) используется для анализа данных, которые были логарифмически преобразованы. Возвращает интегральное логарифмическое нормальное распределение для
, где
является нормально распределенным с параметрами среднее и стандартное откл.
Хи-квадрат распределение
Чаще всего это распределение используется для определения критического значения статистики с заданным уровнем значимости , для которого выполняется равенство
— значение, для которого требуется вычислить распределение, степени свободы — число слагаемых минус число линейных связей между элементами совокупности.
Если задано значение вероятности, то функция ХИ20БР позволяет найти значение , для которого справедливо равенство
В функции ХИ20БР для поиска применяется метод итераций. Если поиск не закончится после 100 итераций, функция возвращает сообщение об ошибке #Н/Д.
Распределение стьюдента t
Это распределение имеет важное значение для статистических выводов. Функция СТЬЮДРАСП возвращает вероятностную меру «хвостов» распределения. Её синтаксис:
— численное значение, для которого требуется вычислить распределение; степени свободы — целое, указывающее число степеней свободы; хвосты — число возвращаемых хвостов распределения.
Если «хвосты» = 1, то функция СТЬЮДРАСП возвращает одностороннее распределение (вероятность правого хвоста).
Если «хвосты» = 2, то функция СТЬЮДРАСП возвращает двухстороннее распределение.
При этом значение не должно быть отрицательным.
Так как функция симметричная относительно нуля, то справедливо следующие равенства:
Функция СТЬЮДРАСПОБР(вероятность; степени свободы) является обратной для распределения Стьюдента и соответствует положительному значению для которого задана вероятность суммы двух «хвостов».
РАСПРЕДЕЛЕНИЕ ФИШЕРА Эту функцию можно использовать, чтобы определить, имеют ли два множества данных различные степени разброса результатов. Например, можно проанализировать результаты тестирования старшеклассников и определить, различается ли разброс результатов для мальчиков и девочек.
— значение, для которого вычисляется функция; степени свободы1— число степеней свободы числителя; степенисвободы2—число степеней свободы знаменателя.
Обратное значение для -распределения вероятностей возвращает функция
Распределения дискретной случайной величины в excel биномиальное распределение
Распределение используется для моделирования случайной величины с конечным числом испытанной. В каждом испытании случайная величина может принимать только два значения: успех или неуспех (0 или 1). Вероятность успеха постоянна и не зависит от результатов других испытаний. Биномиальное распределение описывает общее число успехов при указанном числе испытаний. Данное распределение требует указать два параметра: число испытаний и вероятность успеха
.
Пример с решением №2.1.
Группа из 20 студентов сдает экзамен. Вероятность сдать экзамен по данным прошлых лет равна 0,3. Отобрано 5 человек составьте закон распределения случайной величины — числа студентов, сдавших экзамен.
В ячейку В7 помещена функция БИНОМРАСЩА7; SBS1; $В$2; 0) (рис 2.3.). Скопируйте формулу для остальных ячеек столбца В, как показано на рис. 2.2. Чтобы получить данные столбца С надо в качестве аргумента интегральная поставить единицу.
С помощью функции БИНОМРАСП можно получить только вероятности равные числу успеха к (интегральная равна нулю) или не большие к (интегральная равна единицы). Для вычисления других вероятностей надо воспользуйтесь значениями столбцов и
. Значения в столбцах
находятся по формулам:
Для построение диаграммы биномиального распределения выделите ячейки В7:В12 и нажмите кнопку мастер диаграмм на стандартной панели инструментов. Отформатируйте её как показано на рис. 2.2.
В качестве обратной функции к БИНОМРАСП в Exccl рассматривается функция КРИТБИНОМ. Её синтаксис:
Гипергеометрическое распределение
Распределение возвращает вероятность заданного количества успехов в выборке, если заданы: размер выборки , количество успехов в генеральной совокупности
и размер генеральной совокупности
. Функция ГИПЕРГЕОМЕТ используется для задач с конечным числом элементов генеральной совокупностью, где каждое наблюдение — это успех или неудача, а каждое подмножество заданного размера (
) выбирается с вероятностью равной
Синтаксис:
ГИПЕРГЕОМЕТ (числоуспеховввыборке; размер выборки; числоуспеховвсовокупности; размерсовокумности)
Распределение Пуассона
Обычное применение распределения Пуассона состоит в предсказании количества событий, происходящих за определенное время, например: количество машин, появляющихся за 1 минуту на станции техобслуживания.
Синтаксис: ПУАССОН(; среднее; интегральная)
— количество событий.
среднее — ожидаемое численное значение.
интегральная — логическое значение, определяющее форму возвращаемого распределения вероятностей.
Если аргумент «интегральная» имеет значение ИСТИНА, то функция ПУАССОН возвращает интегральное распределение Пуассона, то есть вероятность того, что число случайных событий будет от 0 до включительно.
Если этот аргумент имеет значение ЛОЖЬ, то вычисляется значение функции плотности распределения Пуассона, то есть вероятность того, что событий появится равно раз.
Интервальные оценки
Величина оценки , найденная по выборке, является лишь приближенным значением неизвестного параметра
. Вопрос о точности оценки в математической статистике устанавливается с помощью соотношения:
где — доверительная вероятность или надежность интервальной оценки (принимает значения 90%, 91%,…99%, 99,9%);
— предельная ошибка (точность) оценки. Для случайной величины, имеющей нормальное распределенние
Значение вычисляется с помощью функции Лапласа, если
задано в условии по формуле
.
Если стандартное отклонение находится по выборке, то рассматривают два случая:
1) используется функция Стьюдента:
2) используется функция Лапласа
Если раскрыть модуль в уравнении (2.7), то получим неравенство:
Числа называют доверительными границами, а интервал
— доверительным интервалом или интервальной оценкой параметра
.
Границы доверительного интервала симметричны относительно точечной оценки . Поэтому точность оценки
. иногда называют половиной длины доверительного интервала.
Так как величина случайная, то границы доверительного интервала могут меняться, кроме того, они будут меняться с изменением доверительной вероятности, поэтому соотношение (2.7) следует читать так: «со статистической надежностью
-100% доверительный интервал
содержит параметр генеральной совокупности
».
Рассмотрим на примерах, как строятся доверительные интервалы для математического ожидания, дисперсии и среднего квадратического отклонения нормально распределенного количественного признака .
Доверительный интервал для математического ожидания с известной дисперсией
При построении доверительного интервала используется функция НОРМОБР для . Границы доверительного интервала можно определить из уравнений:
где называют уровнем значимости.
Пример с решением №2.2.
Спонсоры телевизионных программ хотят знать, сколько времени дети проводят за экраном телевизора. После опроса 100 человек оказалось, что среднее число часов в неделю соответствует 27,5 часов, а средне квадратическое отклонение равно 8,0 часов. Найдите 95% доверительный интервал для оценки среднего количества часов в неделю, которое дети проводят за просмотром телепередач
На основании исследований с 95% вероятностью можно утверждать, что за просмотром телевизора дети проводят от 25,93 до 28,65 часов. Формулы для вычисления приведены на рис 2.4.
Доверительный интервал для математического ожидания с неизвестной дисперсией
Как правило, дисперсия оцениваемого параметра является величиной неизвестной. Тогда находят исправленную выборочную дисперсию, а доверительный интервал строится с помощью -распределения (Стьюдента).
Функция СТЬЮДРАСПОБРО возвращает значение , для которого:
где — это случайная величина, соответствующая распределению Стьюдента и
Пример с решением №2.3.
Владелец таксопарка хочет спрогнозировать свои расходы на следующий год. Основной статьей расходов является покупка топлива. Так как бензин стоит дорого, владелец стал использовать газ. Были выбраны восемь такси, и оказалось, что число миль на галлон соответственно равно 28,1, 33,6, 41,1, 37,5, 27,6,36,8, 39,0 и 29,4. Оцените с доверительной вероятностью 95% средний пробег на один галлон газа для всех такси в парке, предполагая, что он распределен нормально.
После исследования оказалось, что средний пробег на один галлон для всех такси в парке находится между 29,71 и 38,81 миль на галлон. Формулы для вычисления приведены на рис.2.5.
Доверительный интервал для дисперсии и среднего квадратического отклонения
Рассмотрим нормально распределенную случайную величину, дисперсия которой неизвестна. По результатам
наблюдений:
можно определить среднее значение
(1.1) и исправленную выборочную дисперсию
(2.4).
Теперь с доверительной вероятностью определим половину длины доверительного интервала
для которого выполняется условие:
Доверительный интервал для дисперсии запишется в виде неравенства:
Выборочня исправленная дисперсия несмещенная оценка генеральной дисперсии равна:
Так как — результаты независимых наблюдений нормально распределенной СВ, значит сумма квадратов
имеет распределение с
степенью свободы. Выразив
через
и
, получим:
Тогда уравнение 2.9 примет вид:
из которого доверительный интервал для :
С помощью функции ХИ20БР можно найти верхнюю и нижнюю границы и
для
:
Подставив найденные значения в уравнения:
получим верхнюю и нижнюю границы доверительного интервала для дисперсии:
Доверительный интервал для среднего выборочного значения а получится, если извлечь корень из каждой части предыдущего неравенства.
Доверительный интервал для доли признака генеральной совокупности
Проводится серия из испытаний, в каждом из которых наблюдается событие
(событие может произойти или нет). Пусть событие произошло
раз, тогда
называют частотой появления события
или выборочной долей признака.
Если вероятность с которой событие может произойти (называют генеральной долей распределения количественного признака) в каждом из испытаний, то частота
является точечной несмещенной оценкой вероятности
.
Зададим доверительную вероятность и найдем такие числа
и
для которых выполняется соотношение
Интервал является доверительным интервалом для
, отвечающий надежности
.
При большом числе испытаний Бернулли выборочная доля является нормально распределенной случайной величиной
где является дисперсией выборочной доли признака,
a её математическим ожиданием.
Тогда доверительный интервал генеральной доли признака можно найти, используя функцию Лапласа:
Откуда
Рассматривают два случая: большое количество проведенных испытаний и малое. В случае малого объема выборки найти и
можно с помощью специальных таблиц распределения Бернулли.
Проверка статистических гипотез о числовых значениях параметров нормального распределения
Данные выборочных обследований часто являются основой для принятия одного из нескольких решений. При этом любое суждение о генеральной совокупности будет сопровождаться случайной погрешностью и поэтому может рассматриваться лишь как предположительное.
Под статистической гипотезой понимается всякое высказывание о виде неизвестного распределения, или параметрах генеральной совокупности известных распределений, или о равенстве параметров двух распределений, или о независимости выборок, которое можно проверить статистически, то есть опираясь на результаты случайных наблюдений.
Наиболее часто формулируются и проверяются гипотезы о числовых значениях параметров генеральной совокупности, подчиняющихся одному из известных законов распределения: нормальному, Стьюдента, Фишера и др.
Основные понятия статистической гипотезы
Подлежащая проверке гипотеза называется основной (нулевой) обозначают её . Содержание гипотезы записывается после двоеточия
Каждой основной гипотезе противопоставляется альтернативная (конкурирующая) гипотеза . Как правило, основной гипотезе можно противопоставить несколько альтернативных гипотез. Если выборочные данные противоречат гипотезе
, то гипотеза отклоняется, в противном случае принимается.
Статистическая проверка гипотез, основанная на результатах выборки, связана с риском, принять ложное решение. Если по выборочным данным основная гипотеза отвергнута, в то время как для генеральной совокупности она справедлива, то говорят об ошибке первого рода. Вероятность допустить такую ошибку принято называть уровнем значимости и обозначать а (10%, 9%,… 1%).
Рассматривается и ошибка второго рода, когда основная гипотеза принимается, в действительности же верной оказывается альтернативная гипотеза. В таком случае говорят об ошибке второго рода, а вероятность допустить эту ошибку обозначают , величину 1-
называют мощностью критерия.
Поскольку ошибки первого и второго рода исключить невозможно, то в каждом конкретном случае пытаются минимизировать потери от этих ошибок. Увеличение объема выборки является одним из таких путей.
Критерии проверки. Критическая область
Вывод о соответствии выборочных данных с проверяемой гипотезой делается на основе некоторого критерия. Критерий проверки гипотезы реализуют с помощью некоторой статистики (статистической характеристики определяемой по выборочным данным). Эту величину принято обозначать:
— если она нормально распределена с
,
— если она нормально распределена с
,
— если она распределена по закону Стьюдента,
— если она распределена по закону
,
— если она имеет распределение Фишера.
После выбора критерия множество всех его возможных значений разбивают на два непересекающихся подмножества. Одно содержит значения критерия, при которых нулевая гипотеза отклоняется, это множество значений называют критической областью. Другое, называют областью принятия гипотезы — содержит совокупность значений, при которых нулевая гипотеза принимается.
Вычисленное по выборке значение критерия () может принадлежать одному из этих множеств и в зависимости от этого нулевая гипотеза принимается, если
принадлежит области принятия гипотезы и отвергается в противном случае. Точки, разделяющие эти две области, называют критическими и обозначают
. Различают три вида критических областей: левосторонняя
правосторонняя
и двухсторонняя
Если попадает в критическую область, то надо говорят, что основная гипотеза отвергается в пользу альтернативной при заданном уровне значимости.
Общая схема проверки гипотезы
Проверка гипотезы с помощью уровня значимости.
- Формулируется нулевая гипотеза и альтернативная ей.
- Выбирается уровень значимости.
- Определяется критическая область и область принятия гипотезы.
- Выбирают критерий, и находят его расчетное значение по выборочным данным.
- Вычисляют критические точки.
- Принимается решение.
Другим способом проверки гипотезы является вывод р-значения (значения вероятности). В этом случае не указывается уровень значимости и не принимается решения об отбрасывании нулевой гипотезы. Вместо этого проверяем насколько правдоподобно, что полученная оценка соответствует значению генеральной совокупности. При левостороннем или правостороннем критерии рассчитываются вероятности попадания статистики 0 в критическую область. Если применяется двухсторонний критерий, то оценивается разность между выборочным средним и предполагаемым средним совокупности по модулю. Если р-значснис мало, то выборочное среднее значительно отличается от среднего совокупности.
Проверка гипотезы о математическом ожидании нормально распределенной (m0) случайной величины при известной дисперсии
Пусть генеральная совокупность имеет нормальное распределение, причем её математическое ожидание равно , а дисперсия равна
. По выборочным данным найдено
. Есть основания утверждать, что
?
На рис. 2.6. приведены возможные варианты проверки нулевой гипотезы. Результаты проверки включают в себя решение о принятии нулевой или альтернативной гипотез, основанные на уровне значимости альфа и р-значении.
Пример с решением №2.4.
Клиенты банка в среднем снимают со своего счета 100$ при среднем квадратическом отклонении = 50$. Если выплаты отдельным клиентам независимы, то, сколько денег должно быть зарезервировано в банке на выплаты клиентам, чтобы их хватило на 100 человек с вероятностью 0,95? Каков при этом будет остаток денег, гарантированный с той же надежностью, если для выплат зарезервировано 16000$?
На каждого клиента банк резервирует сумму в 160$. По выборочным данным эта сумма составляет 100$.
Проверим гипотезу, может ли банк снизить свои резервы, то есть основная гипотеза может быть записана
В качестве альтернативной гипотезы рассмотрим ситуацию: «банк сможет обеспечить клиентов, если расчетная сумма выплат для каждого клиента будет снижена до 100$», тогда
Принимается гипотеза (рис2.7)., что означает: банк может снизить сумму резервов до 10000$. Используя р-значения можно сделать вывод, если альтернативная гипотеза верна (в среднем клиент берет 100S и меньше), то с вероятностью 100%, случайная величина
( 100$, 50$).
С надежностью 95% можно гарантировать, что у банка имеется остаток более 6000$.
Проверка гипотезы о математическом ожидании при неизвестной дисперсии
Пусть генеральная совокупность имеет нормальное распределение, причем её дисперсия неизвестна. Данная ситуация более реалистична, чем предыдущая. Пусть есть основания утверждать, что .
По результатам выборки найдем и
.Сформулируем основную гипотезу:
где — нормативное значение. Введем статистику:
которая имеет распределение Стьюдента с степенью свободы. Зададим уровень значимости альфа и найдем критическую область. На рис. 2.8 приведены формулы левостороннего, правостороннего или двухстороннего критериев проверки среднего выборки с использованием распределения Стьюдента.
Пример с решением №2.5.
Производитель выпускает стальные стержни. Для улучшения качества планируется внедрить новую технологию, которая получить стержни по средней прочности лучшие на излом. Текущий стандарт прочности на излом составлял 500 фунтов.
Характеристики прочности стержней, произведенных по новой технологии, представлены в D3:D14 рис. 2.9. сформулируем гипотезу об увеличении прочности стержней.
Если
Возьмем выборочное среднее и проверим правосторонний критерий. Результаты приведены на рис. 2.9.
Новая технология позволит улучшить среднюю прочность стержней. Так как , то можно с уверенностью сказать, что новая технология дает статистически существенные изменения показателя прочности на излом.
Построим сравнительные графики новой технологии и стандарта (рис2.10).
Большинство наблюдений превышает стандартную прочность излома стержней. Такая ситуация практически невозможна, если случайная величина имеет нормальное распределение со средним значением 500 фунтов следовательно по данным выборки можно предположить, что новая технология дает увеличение прочности.
Проверка гипотезы относительно доли признака
Рассматривается два основных типа задач:
1) сравнение выборочной доли признака с генеральной долей
Для проверки этой гипотезы используют статистику :
которая имеет нормальное распределение .
Критическое значение этой статистики можно найти по заданному уровню значимости с помощью функции НОРМСТОБР см. рис.2.6.
2) для сравнения долей признака двух выборок и
выдвигается гипотеза: что две выборки из одной совокупности с долей признака
, а полученное расхождение есть результат случайностей, сопровождаемых отбором.
Для больших выборок вводится статистика имеющая
Используют функцию НОРМРАСПОБР для поиска критического значения по уровню значимости альфа, и сравнивают с расчетным значением
Малые выборки ( — малые числа) не могут быть исследованы с помощью нормального распределения.
Оценка среднего по двум выборкам
При анализе экономических показателей довольно часто приходится сравнивать две генеральные совокупности. Например, можно сравнить два варианта инвестирования по размерам средних дивидендов, качество знаний студентов двух университетов — по среднему баллу на комплексном тестовом экзамене. Если дисперсии известны, то можно использовать Двухвыборочный z-тест для средних. Кроме этого существуют три варианта Двухвыборочный t-тестов. Эти три средства допускают следующие условия: равные дисперсии генерального распределения, дисперсии выборок не равны, а также представление двух выборок до и после наблюдения по одному и тому же субъекту.
Для запуска этих инструментов анализа данных надо выполнить действия меню Сервис/Анализ данных выберите из списка нужный вам пункт.
Для выполнения таких проверок инструментами анализа Excel требуется наличие двух выборок, оценка полагаемой разницы между средними значениями выборок и альфа — уровень значимости. Все перечисленные критерии предполагают, что рассматриваемые совокупности нормально распределены, и выборки получены случайно.
Случай равных дисперсий
Рассмотрим данный критерий на примере.
Пример с решением №4.1.
На заводе проводится эксперимент по оценке новой технологии сборки устройств. Рабочие делятся на две группы; одна обучается новой технологии, другая — стандартной. В конце обучения измеряется время (в минутах), необходимое рабочему для сборки устройства. Результаты приведены в диапазоне A L:В10 рис 4.1. Можно ли сделать вывод, исходя из данных выборок, что время сборки по новой технологии меньше, чем по стандартной.
На листе Exccl постройте графики для выборок Стандартная и Новая. Разброс (дисперсии равны) данных практически одинаковый, этот вывод можно сделать, изучив амплитуды колебания графиков (рис. 4.1). Маркеры графика Новая расположены ниже, поэтому можно предположить, что среднее время сбора устройств по новой технологии меньше.
Выдвигаем гипотезу: «Среднее время сборки по новой технологии не изменилось», . эту гипотезу можно записать в виде:
альтернативная гипотеза, утверждающая «Новая технология сокращает время сборки». Необходимо проверить левосторонний критерий для основной гипотезы.
В диалоговом окне Анализ данных и выберите Двухвыборочный t-тест с одинаковыми дисперсиями. Заполните поля, как показано на рис.3.2. и нажмите кнопку ОК. результат появится на листе Excel в диапазоне D4: F16, как на рис 3.3.
Описание полученных результатов сравнения средних двух выборок (рис.3.3).
Объединенная дисперсия — это взвешенное среднее выборочных дисперсий, со степенями свободы каждой дисперсии в качестве весов (8). Она является оценкой общей дисперсии двух выборок и используется для определения стандартной ошибки разности средних.
— число степеней свободы критерия (18-2).
-статистика вычисляется как отношение разности средних к стандартной ошибке.
одностороннее является односторонним
-значением, если
если
то
. Двухстороннее
-значение равно удвоенному одностороннему
-значению.
Найденное расчетное значение -статистика= 1,649 и
-критическое равное 1,746 сравниваем с учетом, что рассматривалась правосторонняя критическая область, делаем вывод: «
принимается». С 5% уровнем значимости мы не можем отвергнуть предположение о равенстве средних значений выборки.
Если бы рассматривалась левосторонняя гипотеза, то:
Можно построить доверительный интервал для разности средних значений выборок (результат в диапазоне Н3:18 рис. 3.4).
Среднее разности находится как разность ЕЗ — F3,
— статистика для разности равна
критическому двухстороннему (Е14), стандартная ошибка найдена делением (13 -Е8)/ ЕЮ.
Половина длины равна произведению на стандартную ошибку.
Доверительный интервал для разности средних значений равен (-1,046; 8,379) с вероятностью 95%.
Случай разных дисперсий
В данном случае не предполагается равенство дисперсий выборок, но сохраняется требование их нормальности и независимости.
Для принятия решения в таких случаях надо использовать Двухвыборочный t-тест с различными дисперсиями.
Пример с решением №3.2.
Для производства нового продукта предлагается две схемы размещения рабочих. Шесть случайно отобранных рабочих собирают изделие по схеме А, а другие восемь — по схеме В. Время сборки записывается соответственно в столбец А и В рис 3.5. Можно ли сделать вывод с 5% уровнем значимости, что время сборки различаются в схемах, при условии, что они нормальные.
Построим диаграммы данных выборок и сравним среднее время сборки и разброс.
Сравнивая графики для схем и
можно сделать вывод, что разброс данных в схеме
больше, однако среднее время сборки меньше.
Выдвинем гипотезу: «Размещение рабочих не влияет на время сборки изделий:
В качестве альтернативной гипотезы выдвинем предположение: «время сборки изделий по схеме и
не равны».
Для проверки этой гипотезы следует применить двухсторонний критерий. Инструкции по использованию -теста те же, что и в примере 4.1. Результаты применения критерия приведены на рис.3.6.
Сравнивая расчетное значение -статистики и
-критическое двухстороннее можно сделать вывод, что принимается гипотеза
, то есть размещение рабочих не влияет на время сборки изделий.
Используя -значение 0,180 (18%) можно сделать вывод, что с вероятностью 18% можно получить выборку со средним отличающимся на 1,6 мин в любом направлении. Доверительный интервал для разности средних составил (-4,138; 0,938).
Парный выборочный критерий
Критерий используется в случае, когда одна и та же группа наблюдается дважды. Обычно это происходит при измерении характеристик до и после эксперимента. Например, студенты могут тестироваться дважды до и после курса по некоторой дисциплине. Можно использовать критерий и для других естественных пар наблюдений.
Пример с решением №3.3.
Исследователь хочет определить, имеется ли разница в успешности автомобильных сделок при их проведении продавцами женского и мужского пола. Для этого были выбраны восемь продавщиц и определена комиссия, заработанная каждой в прошедшем году. Так как опытность влияет на размер комиссии, то исследователь записала и стаж работы для каждой из восьми женщин. Данные приведены в столбцах и
рис. 3.7. Для проверки предположения были взяты продавцы с тем же стажем работы, что и женщины; значения комиссий мужчин приведены в столбце С рис.4.7. Можем ли мы с уровнем значимости 5% утверждать, что женщины имеют существенно другие показатели, по сравнению с продавцами мужчинами?
Нулевая гипотеза состоит в том, что разность средних совокупностей равна нулю. Однако по результатам выборок получено среднее значение разности и она равна 2,25 тыс. рублей. Тогда в качестве альтернативной гипотезы рассмотрим утверждение, что продавцы различных полов имеют различные показатели. Для проверки гипотез применим Двухвыборочных парный t-тест для средних. После его запуска в диапазоне F1 :Н 14 будут помещены результаты применения этого критерия. Они практически ничем не отличаются от предыдущих результатов (пример 4.1, пример 4.2), только в ячейке G7 содержится коэффициент корреляции.
Принимая решение, для данного теста мы вынуждены принять гипотезу о равенстве средних значений комиссии у продавцов мужчин и женщин. Об этом говорят значения и
: -2,365<1,895<2,365.
В случае проверки с гипотезы с помощью -значения (
=14%) можно с вероятностью 14% получить выборку с разностью меньшей чем -2,25 тыс. рублей или большей, чем 2,25 тыс. рублей.
В диапазоне J1:K7 представлены вычисления 95% доверительного интервала для разности средних выборок.
Анализ дисперсий
-распределение может быть использовано для проверки нулевой гипотезы о равенстве дисперсий двух выборок. Критерий предполагает, что выборки из генеральной совокупности независимы и нормально распределены.
Двухсторонний критерий применяется в случае, если альтернативная гипотеза состоит в том, что дисперсии выборок различны. Для этого составляется отношение дисперсий, которое сравнивается с единицей.
Если альтернативная гипотеза проверяет утверждение о том, что дисперсия одной выборки строго больше дисперсии другой выборки, применяется односторонний критерий.
Напомним, что заданный уровень значимости альфа для двухстороннего критерия делится пополам.
В примере 3.2. проверялась гипотеза о равенстве средних значений выборок, представляющих две схемы размещения рабочих мест. При этом предполагалось, что дисперсии этих выборок не равны. Воспользуемся данными этого примера и проверим гипотезу о равенстве дисперсий. Применим двухсторонний тест для 10% уровня значимости (5% на каждый хвост распределения) для проверки нулевой гипотезы о равенстве дисперсий. В качестве альтернативной гипотезы рассматривается утверждение, что дисперсии не равны. На рис. 4.1. приведены данные
-теста. Значение
-статистики записано в ячейке Е8 и равно 3,060. в ячейке Е9 приведены данные р-значения, которое является правосторонней вероятностью получить значение большее или равное
-статистики. Критическое значение для правосторонней области находится в ячейке ЕЮ и равно 3,972. такое же значение будет иметь правая граница двухсторонней области с уровнем значимости 10%. На рис. 4.1. в столбце I найдено критическое значение для левой границы. Так как
=3,060 меньше
=3,972, мы не можем отвергнуть нулевую гипотезу равенства дисперсий.
Можно не использовать двухвыборочный -тест для проверки гипотезы о равенстве дисперсий, а воспользоваться функцией FPACTIOBP, которая имеет синтаксис РРАСПОБР(всроятность;степенисвоб1; степенисвоб2), т.е.
Значение статистики тоже легко находится с использованием встроенных функций Excel.
Критерий хи-квадрат (критерий согласия)
Этот критерий используют для проверки гипотезы о виде распределения выборки. Её проверка состоит в том, чтобы на основе сравнения фактических и теоретических частот сделать вывод о соответствии фактического распределения аредполагаемому. В критерии используется статистика:
где — число групп, на которое разбито распределение;
— теоретическая частота, рассчитанная по предполагаемому распределению;
— наблюдаемая (фактическая) частота признака в
-той группе.
Статистика 6.1 подчиняется ХИ-квадрат распределению с степенями свободы, где
— число параметров генерального распределения, вычисляемых по выборочным данным. В таблице 6.1. указывается значение
для основных видов распределения.
В некоторых случаях сравнение может проводиться с заранее данным распределением, или с распределением у которого часть параметров указана (а не рассчитывается по выборочным данным). В этом случае число к (параметров генерального распределения) уменьшается.
Для применения критерия ХИ-квадрат требуется выполнение условий:
- экспериментальные данные должны быть независимыми;
- объем выборки должен быть достаточно большим (не менее 50);
- частота в каждой группе должна быть не менее 5. Если это условие не выполняется, то проводят объединение малочисленных интервалов, при этом частоты объединенных интервалов суммируются.
При полном совпадении теоретического и фактического распределений , в противном случае
. Проверка гипотезы о равенстве распределений
осуществляется с помощью
которое находится по заданному уровню значимости. Гипотеза принимается, если
, в противном случае отвергается
Основанием для выдвижения гипотезы о виде распределения генеральной совокупности могут служить:
- формальные свойства числовых характеристик выборочных данных:
a. равенство нулю ассиметрии и эксцесса является признаком нормального распределения;
b. дисперсия и среднее значение выборки равны является признаком распределения Пуассона и т.д;
- графический анализ выборочных данных: полигон, гистограмма, функция накопленных частот их сравнение с теоретическими функциями известных распределений.
Если статистический ряд не является интервальным, то его данные подвергаются группировке и представляются в виде q интервалов равной длины. Далее находят количество вариант, попавших в каждый частичный интервал. Если значения статистического ряда являются равноотстоящими вариантами с заданными частотами, то данные можно и не группировать.
Проверка гипотезы о нормальном распределении генеральной совокупности
В предыдущих примерах мы пользовались тем, что значения выборки распределены по нормальному закону распределения. Рассмотрим применение критерия согласия, проверяющего справедливость гипотезы о наличии нормального распределения в совокупности на примере.
Пример с решением №5.1.
Чтобы установить гарантийный срок на товар, производитель хочет проверить является ли срок службы выпускаемого товара нормально распределенным. Случайным образом отобранные 200 единиц товара при проверке распределились следующим образом по количеству отработанных часов:
Запишем нулевую и альтернативную гипотезы:
: Совокупность сроков службы нормально распределена.
: Совокупность сроков службы имеет другое распределение.
Проверку будем проводить с помощью встроенных функций Excel. Для этого внесем данные, как показано на рис. 5.1 в ячейки А7:В11.
ШАГ 1. Найдите среднее значение и дисперсию интервального ряда по формулам 1.1 и 1.2. Для этого в ячейки D15:D19 занесите середины интервалов. Середина первого интервала определяется по формуле:
где пять половина длины следующего интервала. Аналогично вычисляется середина последнего интервала, только учитывается половина длины предшествующего интервала. В диапазон Е15:Е19 скопируйте фактические частоты. В ячейку Е20 запишите формулу: =СУММ(Е15:Е19).
В ячейку F15 поместите произведениех^ =D15*E15 и скопируйте в остальные ячейки диапазона F15:F 19. Теперь можете воспользоваться формулой 1.1 для определения среднего, значение которого поместите в ячейку В4.
Дисперсию найдите самостоятельно, для этого лучше воспользоваться формулой:
Сначала выполните следующие действия в ячейках G 15:G19 найдите , а в Н15:Н 19 —
. Результаты оформите как показано в таблице 6.2: В ячейке С4 (рис.6.1) находится среднее квадратическое отклонение, которое определяется по формуле 1.3
ШАГ 2. В столбце «Вероятность» (рис.5.1) находится вероятность попадания случайной величины в соответствующий интервал. Для вычисления этих значений использовалась функция НОРМРАСП. Для первого интервала левым концом является минус бесконечность, поэтому в ячейку С8 запишите формулу:
Для последнего интервала находим
поэтому вычисление проводится по формуле:
Для вычисления вероятности попадания в интервал воспользуйтесь формулой 2.6:
ШАГ 3. Диапазон «Ожидаемая частота» вычисляется как произведение соответствующих значений столбца «Вероятность» на объем выборки (200). ШАГ 4. Столбец представляет собой слагаемые формулы 6.1, вычисляемые по формуле:
В примере рассматривается пять интервалов, а количество параметров предполагаемого распределения два (среднее и стандартное отклонение) рассчитывается по выборке, поэтому число степеней свободы (СС) равно двум (5-2-1=2). В ячейки А14:В19 введите формулы согласно рис. 5.2.
В ячейке В19 делается вывод, что распределение часов работы, выпускаемого товара нормальное, это же подтверждает и р-значение.
Проверка гипотезы о распределении генеральной совокупности но закону Пуассона
Параметром этого распределения является -среднее значение. Поэтому по выборочным данным надо найти
и взять его в качестве оценки параметра
. Напомним, что дискретная случайная величина, имеющая распределение Пуассона, может принимать неотрицательные целые значения. Рассмотрим использование критерия Хи-квадрат для проверки гипотезы о распределении случайной величины по закону Пуассона на примере.
Пример с решением №5.2.
Проведено наблюдение за числом вызовов такси в праздничные дни. Для этого анализировалось 100 случайно выбранных одно минутных интервалов времени. Число вызовов такси в минуту распределилось следующим образом:
Проверить, используя критерий Хи-квадрат, гипотезу о том, что число вызовов согласуется с законом Пуассона с уровнем значимости .
ШАГ 1. Внесите данные на лист Excel и найдите теоретические частоты (диапазон D2:D7), как показано на рис 5.3.
ШАГ2. Найдите слагаемые формулы 5.1. Для этого скопируйте значения фактических и теоретических частот, как показано на рис. 5.4, в ячейку С12 запишите формулу:
Можно сделать вывод о том, что число вызовов такси в праздничные дни имеет распределение Пуассона.
Проверка гипотезы о распределении генеральной совокупности но равномерному закону
Пусть случайная величина распределена равномерно на отрезке
выборочные данные сгруппируйте по частичным интервалам одинаковой длины и найдите соответствующие частоты. Для каждого интервала вычислите вероятность попадания
, а затем теоретические частоты по формуле пр,.
Пример с решением №6.3.
На рис.6.5 приведена частота появление на остановке автобусов определенного маршрута, имеющих интервал движения, пять минут . Проверьте гипотезу о равномерном законе распределения.
При проверке гипотезы, так же как и в случае нормального распределения найдено критическое значение (рис. 5.2) и р-значение, которое характеризует вероятность выполнения гипотезы : можно утверждать, что она выполняется для 90% выборочных данных. В ячейке В15 сделан вывод о том, что гипотеза о равномерном распределении движения автобусов принимается.
Проверка гипотезы о распределении генеральной совокупности но показательному закону
Как и в предыдущих проверках, выборочные данные сгруппируйте и запишите в виде последовательности частичных интервалов и соответствующих им частот. Найдите выборочное среднее значение . Параметр показательного распределения
(таблица 6.1) замените оценкой:
Вероятности попадания случайной величины в интервалы определите с помощью функции ЭКСПРАСП.
Выполните расчеты как показано на рис. 5.6. Столбцы Е, F заполните как в примере 5.1. В столбце вероятность:
В ячейку D4 запишите =ЭКСПРАСП(В4;$Р$19;1);
В ячейку D5 поместите =ЭКСПРАСП(В5;$Р$ 19; 1 )-ЭКСГ1РАСП(A5;$F$ 19; 1), скопируйте её в остальные ячейки столбца D.
Сравнивая критическое и расчетное значение статистики ХИ-квадрат при 5% уровне значимости, можно сделать вывод, что нет оснований отвергать гипотезу можно считать данные выборки (рис 5.6) распределены по показательному (экспоненциальному) закону распределения.
Проверка гипотезы о распределении генеральной совокупности но биномиальному закону распределения
Пример с решением №5.4.
В библиотеке отобрано 200 партий по пять книг для обучения студентов в семестре. Каждому студенту было предложено заполнить опросный лист числа повреждений в книге. В итоге был получен вариационный ряд:
При уровне значимости 5% проверьте гипотезу о биномиальном распределении числа повреждений в книгах.
Биномиальное распределение имеет один неизвестный параметр — , который надо оценить
по выборочным данным. Проведем все расчеты в Excel (рис. 5.7).
Выделенные ячейки следует объединить в одну группу, тогда количество рассматриваемых интервалов равно четырем.
Относительная частота находится по формуле
Прежде чем перейти к столбцу вероятность найдите оценку параметра
, используя формулы рис. 5.8.
Столбец вероятность заполните с помощью формул :
Остальные ячейки заполняем, копируя полученную формулу.
Вывод: можно считать число повреждений в книге подчиняется биномиальному закону распределения.
Использование статистики ХИ-квадрат для изучения зависимостей двух переменных
Одним из приложений критерия является его использование при анализе таблиц сопряженности двух переменных для установления факта наличия и уровня значимости их взаимосвязи. Для этого выдвигается нулевая гипотеза: связи между рассматриваемыми переменными нет, в противном случае связь между переменными существует с уровнем значимости альфа.
Пример с решением №5.5.
Компания продает четыре сорта колы в Москве. Чтобы определить, будет ли успешным тот же способ распространения в Ростове и Краснодаре, фирма анализирует связь между предпочтениями и городом потребителя. Аналитик распределяет покупателей на четыре класса по предпочтениям сортов колы: обычная, без кофеина и сахара, только без кофеина, только без сахара. Опрашивают 250 случайно выбранных потребителей колы из трех городов и записывают их предпочтения. В результате получается таблица частот.
Так как аналитик определяет связь между городом и предпочтением определенного вида колы, то нулевая и альтернативная гипотезы следующие: : Классификации статистически независимы.
Классификации зависимы.
На лист Excel поместим данные о распространении сортов кофе в диапазон В5:Е7 (рис 6.8). Расчет ожидаемых частот проводится в предположении, что нулевая гипотеза выполняется, то есть переменные независимые, а значит вероятность их произведения равна произведению вероятностей каждой их них. Поэтому таблица ожидаемых частот строится по формуле:
Ожидаемые частоты поместите в диапазон В12:Е 14. Для их вычисления, воспользуйтесь смешанной и абсолютной ссылками на ячейки сумма по строке, сумма по столбцу, общая сумма. Результаты вычисления приведены на рис. 6.9.
Для сравнения ожидаемых и фактических частот воспользуемся ХИ2ТЕСТОМ (рис. 5.8). В ячейку В17 внесите формулу:
Получите р-значение равное 0,00000013, которое определяет вероятность выполнения нулевой гипотезы. Можно сделать вывод, что нулевая гипотеза отвергается, то есть люди из разных городов предпочитают различные сорта колы.
Проверим эту же гипотезу с помощью статистики ХИ-квадрат. Слагаемые формулы 6.1 найдем с помощью Фактических и Ожидаемых частот. Для этого в ячейку В21 введите формулу:
и скопируйте её для всего диапазона B21:F23 (рис.5.9).
- Сумму слагаемых ХИ-квадрат поместите в ячейку В25 (рис.5.9).
- В ячейке В27 задайте уровень значимости (альфа равно 0,01).
- Число степеней свободы (СС) найдите по формуле:
- Критическое значение (В29) найдем с помощью
- В ячейку ВЗО помести функцию:
Так как ХИ-квадрат больше критического значения, то принимается гипотеза .
Критерии Колмогорова-Смирнова
Этот критерий является альтернативой критерию ХИ-квадрат. Его применение не требует вычисления ожидаемых частот и может использоваться для малых выборок. Данные должны представлять случайную выборку и обязательно должна быть сформулирована гипотеза о распределении генеральной совокупности. Нулевая гипотеза утверждает, что генеральная совокупность имеет выбранное распределение с определенным уровнем значимости.
Применение критерия Колмогорова-Смирнова основано на оценке разности функции накопленных частот и функции распределения
, найденной в предположении, что нулевая гипотеза верна. Статистика критерия вычисляется по формуле:
где — функция накопленных частот для
-того значения или интервала;
— функция распределения в точке
.
Если D больше критического значения, взятого из таблицы соответствующего критерия для объема выборки п и уровня значимости , то нулевая гипотеза отклоняется. В противном случае нулевая гипотеза принимается. Для большого объема выборки используется предельное распределение критерия.
Если необходимо проверить нулевую гипотезу о принадлежности двух выборок (объема и
) одной и той же генеральной совокупности, то строится статистика:
где — функции накопленных частот, построенные по первой и второй выборкам соответственно;
Статистика сравнивается с критическим значением значения которой находятся по таблице критических точек распределения Колмогорова:
Пример с решением №6.1.
Получена случайная выборка о среднем дневном заработке, руб/день, для пяти работников: 288, 231, 249, 146, 291. можно ли считать на 10% уровне значимости, что выборка проведена из нормально распределенной генеральной совокупности со средним значением
: выборка взята из нормально распределенной генеральной совокупности с
нет оснований утверждать, что выборка взята из нормально распределенной генеральной совокупности с
. Вычисления проведем в Excel, как показано на рис.6.1.
ШАГ 1. Заполните диапазон А5:А9 выборочными данными и отсортируйте их по возрастанию.
ШАГ 2. Найдите относительные частоты для перечисленных вариант и поместите их в столбец В.
ШАГ 3. Для определения значений функции накопленных частот в ячейку С5 внесите формулу: = В5, в ячейку С6 запишите: =С5+В6 и скопируйте её для ячеек диапазона С7:С9.
ШАГ 3. Для заполнения столбца D, внесите в ячейку D5 формулу:
и скопируйте её на остальные ячейки диапазона D6: D9.
ШАГ 4. В ячейку Е5 внесите формулу: =ABS(C5-D5) и скопируйте для остальных ячеек диапазона Е5:Е9
ШАГ 5. Найдите максимальное значение статистики D и сравните с критическим, взятым из таблицы при уровне значимости 10% и числе степеней свободы равном пяти. Сравнивая эти можно сделать вывод, что выборка взята из нормально распределенной генеральной совокупности с
Линейная регрессия и корреляция
Регрессия и корреляция широко используется при анализе связей между явлениями. Прежде всего, в экономике — исследование зависимости объемов производства от целого ряда факторов: размера основных фондов, обеспеченности предприятия квалифицированным персоналом и других; зависимости спроса или потребления населения от уровня дохода, цен на товары и т.д. Экономические показатели являются многомерными случайными величинами.
В большинстве случаев между переменными, характеризующими экономические величины, существуют зависимости, отличающиеся от функциональных. Она возникает, когда один из факторов зависит не только от другого, но и от ряда случайных условий, оказывающих влияние на один или оба фактора. В этом случае ее называют стохастической (корреляционной) и говорят, что переменные коррелируют. Виды стохастических связей между факторами могут быть линейными и нелинейными, положительными или отрицательными. Возможна такая ситуация, когда между факторами невозможно установить какую-либо зависимость.
Однако при изучении влияния одного явления на другое удобно работать именно с функциями, связывающими эти явления. Задачи построения функциональной зависимости между факторами, анализа полученных результатов и прогнозирования решаются с помощью регрессионного анализа.
В пособии приводятся решения задач содержащих небольшое количество данных, для того чтобы пользователь мог быстро ввести значения в таблицу Excel. Каждое решение содержит подробную инструкцию. Сначала рассмотрите пример и проверьте результаты. Затем примените пошаговые инструкции к собственному множеству данных.
Корреляционная зависимость
Для изучения зависимости между двумя числовыми переменными ( и
) сначала строят графики рассеяния. В Excel данный вид графиков называется точечной диаграммой. Используя графическое представление, можно сделать вывод о корреляционной зависимости или независимости рассматриваемых данных. Если в массиве данных присутствуют «выбросы», то их следует исключить из рассмотрения, если это возможно сделать, или усреднить, используя соседние элементы.
Теперь можно выдвинуть предположение о существовании линейной или нелинейной зависимости между переменными. Для этого найдите коэффициент корреляции и проверьте его значимость.
Тесноту линейной зависимости изучаемых явлений оценивает линейный коэффициент парной корреляции :
где обозначают смешенный момент второго порядка (1.5), который называется ковариацией.
Ковариация является мерой взаимосвязи случайных величин и может служить для определения направления их изменения:
если , то случайные величины изменяются в одном направлении;
если , то случайные величины изменяются в разных направлениях.
Очевидными свойствами ковариации являются:
Коэффициент корреляции (1.1) является величиной безразмерной. Случайные величины и
называют некоррелированными, если
(отсутствует линейная зависимость между
и
), в противном случаем можно говорить о линейной зависимости между величинами
и
, а величины называю коррелированными. Свойства коэффициента корреляции:
В пакете Анализ данных есть инструменты Ковариации и Корреляция, позволяющие сделать вывод о линейной зависимости случайных величин.
Пример с решением №7.1.
Для анализа зависимости объема потребления (у.е.) хозяйств от располагаемого ежемесячного дохода
(у.е.) отобрана выборка
, представленная таблицей.
Постройте график рассеяния и сделайте вывод о виде функциональной зависимости между объемом потребления и ежемесячным доходом в семье.
Инструкции по выполнению задания
- Расположите данные в столбцах таблицы так, чтобы значения х были слева, а у справа (рис. 1.1).
- Выделите диапазон ячеек.
- Щелкните мышью по кнопке Мастер диаграмм и выберите тип Точечная. Для форматирования диаграммы удобно использовать контекстное меню, которое вызывается щелчком правой кнопки мыши на форматируемом объекте.
- Дайте название диаграмме Корреляционное поле.
- Расположите диаграмму на листе, содержащем данные, как показано на рис.
Применим встроенную функцию КОРРЕЛ(диапазон ; диапазон
) для установления линейной зависимости между переменными (рис. 1.1). Найденный коэффициент корреляции 0,99 свидетельствует о сильной линейной зависимости между объёмом потребления и уровнем доходов в семье.
Проверим значимость коэффициента корреляции. Для этого сформулируем основную и альтернативную гипотезы:
:
, коэффициент незначимый;
, коэффициент значимый.
Для проверки гипотезы воспользуемся -критерием и уровнем значимости 5%,
Сравнивая эти значения, сделаем вывод о том, что основная гипотеза отклоняется в пользу альтернативной, т.е. коэффициент корреляции значим. По расположению точек на рис. 1.1 можно предположить, что между и
существует линейная зависимость:
Корреляционный анализ данных
При выполнении многомерного анализа данных изучают корреляцию между каждой парой переменных. Эти результаты представляют в виде корреляционной матрицы. Инструмент анализа Корреляция позволяет определить парные корреляции для многих переменных. После его запуска получится нижняя треугольная часть матрицы, на диагонали которой будут стоять единицы . Верхняя часть матрицы является зеркальным отражением нижней ее части, поскольку
.
Если надо изучить зависимость между переменными при условии управления одной или несколькими переменными, то находят коэффициенты частной корреляции. Частные коэффициенты корреляции могут оказаться полезными при определении ложных связей.
Например, изучается зависимость . Коэффициенты парной корреляции между
и
высокие, однако зависимость будет считаться ложной, если
линейно зависит от
. Если исключить влияние переменной
, то корреляционная зависимость между
и
может исчезнуть,
Надо найти частные коэффициенты корреляции, т.е. элиминировать один из факторов (устранить его влияние). В случае трех факторов корреляцию между и
при элиминированном факторе
можно найти по формуле:
Подобным образом находят и остальные коэффициенты частной корреляции.
Пример с решением №7.2.
Формируется три портфеля из десяти акций. Первый состоит из 10 акций вида , второй содержит по 5 акций
и
; а третий включает 5 акций вида
, 3 вида
и 2 вида
. Данные о прибыли по каждому виду акций за десять месяцев представлены на рис 1.3.
Имеется ли зависимость между акциями ,
и
? Отличаются ли данные портфели по доходности и риску?
Инструкции по выполнению задания
- Введите данные в ячейки A1: C11, как показано на рис. 1.2.
- В меню сервис выберите Анализ данных / инструмент Корреляция. Заполните поля диалогового окна, как показано на рис. 1.3. и нажмите ОК.
- Аналогично найдите матрицу парных ковариаций.
Описание результатов
Коэффициенты корреляции не очень высокие:
Акции плохо коррелируют между собой, то есть между дивидендами по акциям существует слабая линейная зависимость.
Так как коэффициент ковариации для дивидендов по акциям и
отрицательный, то прибыль по ним будет изменяться в разных направлениях (при увеличении дивидендов по акциям
дивиденды по акциям
будут уменьшаться). Правда, эти изменения не очень велики, около 10%.
Если рынок ценных бумаг устойчивый, то желательно исключить акции вида из портфеля, так как
наибольшая, а значит риск в их вложение высокий.
Акции и
коррелируют слабо
, поэтому есть основания считать, что вложение капитала в равных долях в эти акции будет наименее рискованным. Для более правильного вывода надо вычислить дисперсии для каждого портфеля и сравнить их.
Дисперсии для первого портфеля :
Для второго:
Третий портфель имеет дисперсию:
Вывод: наименьший риск получается при покупке акций и
в равных долях.
Чтобы принять окончательное решение надо построить множество Парето, характеризующее зависимость доходности портфеля от его риска, т.е. математического ожидания и дисперсии:
Построение тренда для двух рядов данных
Задача построения функциональной зависимости может быть выполнена с помощью команды Добавить линию тренда. В этом случае необходимо визуально исследовать зависимость между х и у и выбрать график элементарной функции, который даст лучшее приближение к экспериментальным данным. Форматирование графиков выполняется с помощью меню Диаграмма. Напомним, что форматируемый объект должен быть выделен.
Существуют и другие способы форматирования: контекстное меню — вызывается для объекта с помощью правой клавиши мыши.
Прежде всего, надо исследовать корреляционное поле и сделать вывод о характере зависимости между переменными. Затем выполните действия (тренд построен для данных примера 1.1):
- На диаграмме (рис. 1.1) выделите маркеры, щелкнув по любой из точек данных.
- В меню диаграмма выберите Добавить линию тренда (можно воспользоваться контекстным меню).
- Перейдите на вкладку Тип диалогового окна Линия тренда, как показано на рис. 1.5 и выделите пиктограмму Линейный.
- Откройте вкладку Параметры (рис. 1.6) включите опции Показывать уравнение на диаграмме и Поместить на диаграмму величину достоверности аппроксимации
.
На вкладке параметры имеются и другие типы функциональных зависимостей. Предлагается самостоятельно построить остальные виды тренда и записать их уравнения. Не забывайте включать опции из пункт 4, приведенной выше инструкции.
Инструмент анализа регрессия
Дает возможность провести более полный анализ, полученного уравнения линейного тренда с использованием методов математической статистики.
Коэффициенты уравнения линейной регрессии находятся по выборочным данным и являются величинами случайными, поэтому надо провести анализ их значимости (значимости). Надо определить значимость всего уравнения регрессии и самое главное построить прогноз по построенному уравнению, а затем провести его оценку значимости.
При построении линейного тренда предполагается, что линейная модель наилучшим образом характеризует зависимость между и
:
где и
параметры модели;
— случайная величина (возмущение), характеризующая влияние неучтенных факторов.
Уравнение прямой (1.2), коэффициенты которого находят по выборочным данным, называют уравнением регрессии и обозначают :
Коэффициенты регрессии и
находят по методу наименьших квадратов. Они являются только оценками параметров модели (соответственно
и
). Для получения наилучших оценок необходимо, чтобы выполнялся ряд предпосылок относительно случайного отклонения
индекс означает значение факторов в одноименном испытании. Это условия Гаусса-Маркова (Приложение 1), а так же предположения:
• случайные отклонения имеют нормальный закон распределения;
• отсутствуют ошибки спецификации;
• число наблюдений достаточно большое: как минимум в шесть раз превышает число объясняющих факторов и другие.
Оценку называют коэффициентом регрессии. Ее значение показывает среднее изменение результата у с изменением фактора х на одну единицу.
Можно установить зависимость между коэффициентом регрессии и коэффициентом корреляции:
В качестве меры рассеивания фактического значения у относительно теоретического значения (находится по уравнению регрессии) используется стандартная ошибка уравнения регрессии, которая определяется по формуле:
Оценка качества полученного уравнения регрессии содержит следующие пункты:
- Оценка значимости коэффициентов регрессии;
- Построение доверительных интервалов для каждого коэффициента;
- Оценка значимости всего уравнения регрессии;
- Построение прогнозного значения и доверительного интервала к ним. Для определения статистической значимости коэффициентов регрессии и корреляции необходимо рассчитать
-статистики Стьюдента лучше всего это сделать с помощью встроенной функции СТЬДРАСПОБР [1].
Оценка значимости коэффициентов регрессии и корреляции
Устанавливает надежность полученных результатов. Случайные ошибки коэффициента корреляции и оценок параметров линейной модели вычисляются по формулам:
стандартное отклонение коэффициента .
стандартное отклонение коэффициента .
стандартное отклонение коэффициента корреляции.
Любое стандартное отклонение иногда называют стандартной ошибкой соответствующего коэффициента.
Рассматривается основная гипотеза о равенстве параметров регрессии нулю.
— коэффициент незначим;
— коэффициент значимый По выборке находят
-статистики
:
Критическое значение для
-статистик находят с помощью распределения Стьюдента. Для этого надо знать объем выборки и задать уровень значимости
. Например, для
Выдвинутая гипотеза:
Часто при проверке качества коэффициентов используют «грубое правило»:
• если то коэффициент статистически незначим;
• если , то коэффициент относительно слабо значим, рекомендуется воспользоваться таблицей критических точек распределения Стьюдента;
• если , то коэффициент значим (это утверждение считается гарантированным при
);
• если , то коэффициент считается сильно значимым (вероятность ошибки при достаточном числе наблюдений не превосходит 0,001).
Каждая оценка дополняется доверительным интервалом. Для этого определяют предельную ошибку [1] для каждого коэффициента:
откуда границы доверительных интервалов находятся по формуле:
Коэффициент детерминации для парной регрессии совпадает с квадратом коэффициента корреляции и характеризует долю дисперсии результативного признака
, объясняемую регрессией в общей дисперсии результативного при-знака. Соответственно величина
характеризует долю дисперсии у, вызванную влиянием неучтенных факторов в общей дисперсии признака
.
Разделив обе части уравнения на общую сумму квадратов отклонений, получим:
Таким образом, коэффициент детерминации является мерой, позволяющей определить, в какой степени найденная прямая регрессии дает лучший результат для объяснения поведения зависимой переменной
, чем горизонтальная прямая
. Очевидно, что
. Откуда следует, что чем ближе он к единице, тем больше уравнение регрессии объясняет поведение фактических значений
. Поэтому хотелось бы стремятся построить регрессию с наибольшим значением
.
Корень квадратный из коэффициента детерминации называется индексом корреляции и обозначают .
Для проверки общего качества уравнения регрессии выдвигается предположение, что коэффициенты и
одновременно равны нулю, тогда уравнение считают незначимым, в противном случае значимым. Данная гипотеза проверяется на основе дисперсионного анализа, при этом сравниваются объясненная и остаточная дисперсии:
— уравнение незначимо,
— уравнение значимо. Строится
-статистика:
При выполнении условий МНК статистика имеет распределение Фишера с числом степеней свободы . При уровне значимости
находят критичекую точку
с помощью функции FHOBP и сравнивают его с наблюдаемым значением
. Так как рассматриваемая гипотеза правосторонняя [1], то:
■ если то гипотеза
отклоняется в пользу
что означает объясненная дисперсия существенно больше остаточной, следовательно, уравнение регрессии достаточно качественно отражает динамику изменения зависимой переменной от объясняющей.
■ если , то гипотеза
принимается, т.е. объясненная дисперсия соизмерима с остаточной дисперсией, вызванной случайными факторами. Это позволяет считать влияние объясняющих переменных модели несущественным, а следовательно, общее качество уравнения регрессии невысоким.
В случае линейной регрессии проверка нулевой гипотезы для -статистики равносильна проверке нулевой гипотезы для
-статистики для коэффициента корреляции:
Можно доказать равенство:
Самостоятельную значимость коэффициент приобретает в случае множественной регрессии.
Поиск прогнозного значения и его оценка
Прогнозное значение определяется, если в уравнение регрессии подставить значение
:
Границы доверительного интервала для параметра будут равны:
Чтобы найти стандартную ошибку прогнозного значения
можно использовать два подхода: либо рассматривать параметр
как отдельное значение переменной
; или разброс
найти как условное среднее значение при известном значении
.
Доверительный интервал для отдельного значения учитывает источники рассеяния: для коэффициентов регрессии (1.5, 1.6) и всего уравнения регрессии (1.4). В этом случае стандартная ошибка прогноза
вычисляется по формуле:
Доверительный интервал для условного среднего не учитывает дисперсию для всего уравнения регрессии (1.4), поэтому формула для вычисления ошибки прогноза имеет вид:
Пример с решением №7.3.
Воспользуемся данными примера 1.1 для выполнения следующих заданий:
- по данным выборок постройте линейную модель
;
a. оценить параметры уравнения регрессии ;
b. оценить статистическую значимость коэффициентов регрессии;
c. оценить силу линейной зависимости между и
;
d. спрогнозируйте потребление при доходе .
- постройте модель, не содержащую свободный член
.
a. найдите коэффициент регрессии ,
b. оценить статистическую значимость коэффициента ;
c. оценить силу общее качество уравнения регрессии;
- значимо или нет различаются коэффициенты
на?
- какую модель вы выбираете?
Инструкции для выполнения примера с помощью инструмента Регрессия пакета анализ.
Для задания 1.
- Наберите исходные данные на лист Excel, как и раньше по столбцам (рис 1.1).
- Найдите инструмент Регрессия в пакете Анализ данных и нажмите ОК. появится диалоговое окно (рис. 1.8)
- Входной интервал
: введите ссылки на значения переменной
, включая метки диапазона.
- Входной интервал
: введите ссылки на значения переменной
, включая метки диапазона.
- Включите опцию Метки.
- Включите опцию Уровень надежности и введите в поле значение 98.
- Установите параметр вывода результатов, имя ячейки.
- Включите опцию вывод остатков для получения теоретических значений
.
- Нажмите ОК.
- Появятся итоговые результаты (рис 1.9).
- Выделите диапазон Вывод остатков и перенесите его, как показано на рис. 1.9.
Все оценки по умолчанию проводятся в excel с уровнем значимости
Описание результатов поданным примера 1.1
Рисунок 1.9. состоит из четырех блоков: Регрессионная статистика, Дисперсионный анализ, данных для коэффициентов регрессии и их оценок, вывод остатков. Опишем более подробно полученные результаты.
Регрессионная статистика содержит строки, характеризующие построенное уравнение регрессии:
Для парной регрессии Множественный равен коэффициенту корреляции
. По его значению 0,9952 можно сказать, что между
и
существует сильная линейная зависимость.
Строка -квадрат равна коэффициенту корреляции в квадрате. Нормированный
-квадрат рассчитывается с учетом степеней свободы числителя
и знаменателя
по формуле 1.11. Более подробно свойства этого коэффициента будут рассмотрены в разделе множественная линейная регрессия. Стандартная ошибка
регрессии вычисляется по формуле 1.4. Последняя строка содержит количество выборочных данных
.
Дисперсионный анализ
Он позволяет исследовать общую дисперсию у (строка ИТОГО), дисперсию для теоретических данных (строка Регрессия) и остаточную дисперсию (строка Остаток).
Второй столбец содержит число степеней свободы для каждой из сумм формулы 1.11*.
В третьем столбе находятся суммы квадратов (1.11*).
Четвертый столбец содержит средние значения
для регрессии и остатков.
В пятом столбце вычисляется по выборочным данным значение статистика (1.12). Последний столбец, содержит
-значение равное
с уровнем значимости 0,05. С его помощью можно оценить значимость всего уравнения регрессии. Это значение можно считать вероятностью выполнения гипотезы . В нашем случае она практически равна нулю, следовательно, построенное уравнение дает хорошее приближение к исходным данным.
Построение уравнения регрессии и оценка значимости ее коэффициентов
Этот блок состоит из трех строк:
названия столбцов — первая строка
— пересечение — содержит все характеристики для коэффициента
; третья строка
содержит все характеристики для коэффициента
. В столбце коэффициенты находятся их значения
используя их можно записать уравнение линейной регрессии:
Столбец Стандартная ошибка содержит значения
В столбце -статистики находятся значения, вычисленные по выборочным данным:
По «грубому правилу» можно сделать вывод, что сильно значимый коэффициент, а
незначим.
Подтвердить эти выводы можно с помощью данных столбца -значение. В этом столбе вычисляются вероятности
которое можно считать вероятностью выполнения гипотезы . Эта вероятность для
равна нулю, что подтверждает вывод, сделанный по грубому правилу. Для коэффициента
с надежностью 43% случаев можно говорить о его незначимости.
Доверительные интервалы строятся для коэффициентов по умолчанию с доверительной вероятностью 95%. Границы интервалов находятся в столбцах Нижнее 95%, Верхнее 95%:
Так как нами была включена опция уровень надежности 98%, то получены доверительные интервалы и для этого значения :
Описания, приведенные выше, практически позволили ответить на все вопросы задания 1, кроме построения прогнозного значения и доверительного интервала для него. Выполнить это задание можно с помощью блока вывод остатков и функции ТЕНДЕЦИЯ() или непосредственно по формулам (1.14-1.18).
Прогнозируемое потребление при доходе составит для данной модели:
Границы доверительного интервала условного среднего значения (1.17):
Таким образом, среднее потребление при доходе 160 у.е. с надежностью 95% будет находиться в интервале (152,8993; 15464624).
Для определения границ интервала, в котором сосредоточено не менее 95% возможных объемов потребления при неограниченно большом числе наблюдений и уровне дохода =160, воспользуемся формулой (1.16):
Получим границы интервала для прогнозного значения (151,4791; 155,61409). Нетрудно заметить, что он включает в себя интервал для среднего потребления.
Коэффициент может трактоваться как предельная склонность к потреблению. Фактически он показывает, на какую величину изменится объем потребления, если предполагаемый доход возрастет на единицу.
Свободный член уравнения регрессии определяет прогнозируемое значение
при величине располагаемого дохода
, равной нулю (т.е. автономное потребление). В нашем примере
=2,9992 говорит о том, что при нулевом располагаемом доходе расходы на потребление составят 2,99992 у.е. Это можно объяснить для отдельных хозяйств (каждое может тратить накопленные или одолженные деньги), но для совокупности хозяйств коэффициент теряет смысл.
Следует помнить, что полученное уравнение регрессии отражает лишь общую тенденцию в поведении рассматриваемых переменных. Индивидуальные значения могут отклоняться от модельных.
Задание2.
Рассмотрим модельное уравнение, не содержащее свободного члена:
тогда соответствующее ему уравнение регрессии:
Проведем исследование этого уравнения, так же как и в задании 1. Запустим инструмент Регрессия. Для заполнения полей диалогового окна (рис. 1.8) повторите действия 3 — 6 из задания 1; обязательно включите опцию Константа ноль и измените параметры выходного интервала так, чтобы вывод итогов задания 1 и задания 2 не пересекались.
Вывод итогов в этом случае представлен на рис 1.12. Строка, соответствующая свободному члену уравнения, содержит запись #Н/Д, так как он отсутствует в уравнении.
Проведите описание результатов самостоятельно для полученного уравнения регрессии также как в задании 1.
Обратите внимание, что столбцы Верхнее 95% и Нижнее 95% повторяются, так как опция уровень надежности отключена.
Задание 3.
Проверим значимо или нет, различаются коэффициенты и
. Для этого сформулируем гипотезу о равенстве математических ожиданий:
— коэффициенты совпадают, значимого различия нет;
— коэффициенты различаются значимо.
Для проверки гипотезы построим статистику
Сравним наблюдаемое значение с критическим при уровне значимости и числом степеней свободы
.
Найдем критическое значение с помощью встроенной функции Стьюдента . Поскольку
, то нет оснований для отклонения нулевой гипотезы. Это дает основания утверждать, что различия в коэффициентах незначимо.
Задание 4.
Необходимо сравнить коэффициенты детерминации двух уравнений, значения которых возьмите из отчетов Вывод Итогов (рис. 1.9, рис. 1.10):
для первого уравнения
для второго уравнения
Так как для первого уравнения это значение больше, чем для второго, то можно предположить, что первое уравнение
описывает поведение зависимой переменной лучше, чем второе
так как её коэффициент детерминации больше. Сравнение двух уравнений регрессии с помощью -статистики будет рассмотрено в разделе множественная линейная регрессия.
Множественная линейная регрессия
Как правило, на изучаемый фактор оказывает влияние не один, а несколько факторов
. Например, спрос зависит не только от цены товара, но и от доходов потребителей, а также от цены на замещающие его товары и других факторов.
Пусть зависимая переменная в
наблюдениях определяется m объясняющими факторами
, а функциональная зависимость между ними имеет вид линейной модели:
или для индивидуальных наблюдений ,где
Уравнение регрессии для индивидуальных наблюдений:
— вектор неизвестных параметров,
— вектор оценочных параметров,
вектор значений зависимой переменной,
— матрица значений независимых переменных, где
— значение переменной
в
-том наблюдении,
— случайные возмущения,
случайный вектор отклонений теоретических значений
от фактических
.
Тогда уравнение (1.18) можно записать в матричном виде:
а так же уравнение (1.20):
Чтобы найти коэффициенты линейной регрессии (1.20), надо решить уравнение (1.22) относительно матрицы В. Для этого умножают обе части матричного уравнения (1.22) на транспонированную матрицу и из полученного уравнения:
Полученное решение справедливо для уравнений регрессии с произвольным количеством объясняющих факторов , где
обратная матрица к матрице
.
Решение (1.23) уравнения регрессии (1.22) можно найти:
- с использованием методов матричной алгебры;
- с помощью встроенных функций Excel для работы с массивами: МОБР(), ТРАНСП(), МУМНОЖ();
- применить инструмент анализа Регрессия.
Первый способ изучается в курсе Математика и для его реализации необходимо записать все матрицы, характеризующие уравнение 1.23.
Для реализации второго способа коэффициенты этих матриц надо занести на лист Excel, а затем применить правила работы с массивами данных. Необходимо помнить, что матрицы для этих методов имеют вид:
Матрица в первом столбце содержит единицы, которые являются коэффициентом при неизвестном
линейной регрессии 1.20.
Наиболее простым является последний способ поиска коэффициентов регрессии 1.20. Рассмотрим его применение на примере.
Пример с решением №7.4.
Анализируется объем сбережений населения за 10 лет. Предполагается, что его размер
в текущем году зависит от величины
располагаемого дохода
в предыдущем году и от величины
реальной процентной ставки
в рассматриваемом году. Статистические данные приведены в таблице:
Задание:
1) найдите коэффициенты линейной регрессии
2) оцените статистическую значимость найденных коэффициентов регрессии
3) оцените силу влияния факторов на объем сбережений населения;
4) постройте 95% -е доверительные интервалы для найденных коэффициентов;
5) вычислите коэффициент детерминации и оценить его статистическую значимость при
;
6) рассчитайте коэффициенты частной корреляции;
7) определите, какой процент разброса зависимой переменной объясняется данной регрессией;
найдите скорректированным коэффициент детерминации
и сравните его с коэффициент детерминации
.
9) оцените предельную склонность граждан к сбережению. Существенно ли отличается она от 0,5?
10) определите, увеличивается или уменьшается объем сбережений с ростом процентной ставки; будет ли ответ статистически обоснованным;
11) спрогнозируйте средний объем сбережений в 2011 году, если предполагаемый доход составит 270 тыс. руб., а процентная ставка будет равна 5,5%.
12) выводы по качеству построенной модели;
Все расчеты выполним с помощью ППП Excel.
Инструкции для выполнения
- Наберите исходные данные на лист Excel, как и раньше по столбцам (рис 1.13).
- Найдите инструмент Регрессия в пакете Анализ данных и нажмите
, появится диалоговое окно (рис. 1.8)
- Входной интервал
: введите ссылки на значения переменной в столбце
, включая метки диапазона.
- Входной интервал
: введите ссылки на значения переменной в столбцах
и
, включая метки диапазона.
- Включите опцию Метки.
- Включите опцию Уровень надежности и введите в поле значение 99.
- Установите параметр вывода результатов, имя ячейки.
- Включите опцию вывод остатков для получения теоретических значений
.
- Нажмите
.
- Появятся итоговые результаты (рис 1.14).
Описание результатов уравнение линейной регрессии
Используя столбец Коэффициенты, запишем уравнение регрессии:
При изменении доходов в предшествующем году на одну тысячу рублей сбережения увеличатся на 120 рублей, если экономическая ситуация будет стабильной. При увеличении процентной ставки на 1% сбережения могут увеличиться на 350 рублей.
Значимость коэффициентов регрессии
Значение — статистик находятся в столбце с одноименным названием:
Используя «грубое правило», можно сделать вывод, что коэффициенты значимы, так как они превышают значение три. Коэффициент
относительно слабо значим. Убедится в этих выводах можно используя СТЬЮДРАСПОБР(), с помощью которой найдите критические точки и постройте двухстороннюю критическую область. Для различных уровней значимости:
Этот же вывод получите, если исследуете показания столбца -значение. Коэффициент
существенного влияния на переменную
не оказывает, т.е. может быть исключен из модели. Однако, учитывая, что в экономике, свободный член отражает экзогенную среду, лучше его оставить в уравнении регрессии, так как наличие свободного члена в линейном уравнении может только уточнить вид зависимости.
Значение -статистики для коэффициента
-пересечение обычно не используется.
Сравнение коэффициентов регрессии
Простое сопоставление коэффициентов регрессии по модулю не может оценить силу влияния факторов на признак у: такое сопоставление лишено смысла. Однако их можно нормировать (стандартизировать), используя формулу:
где — коэффициент регрессии после нормирования,
— стандартная ошибка переменной
;
— стандартная ошибка переменной
.
Нормированные коэффициенты можно сравнивать и делать вывод о влиянии факторов на переменную . Факторы с наименьшим по модулю значением
оказывают на
наименьшее влияние.
Уравнение регрессии в стандартизованном масштабе имеет вид:
это означает, что влияние процентной ставки на объем вкладов
меньше, чем влияние уровня доходов за предшествующий период
.
Доверительные интервалы для коэффициентов
Находятся в столбцах нижнее/верхнее 95%:
Можно построить доверительные интервалы с уровнем надежности 97% (Рис. 1.14).
Коэффициент детерминации
Коэффициент детерминации находится по формуле (1.11):
Он характеризует долю разброса значений зависимой переменной , объясненной уравнением регрессии. В нашем примере, 98% разброса переменной
объясняется построенным уравнением регрессии.
Скорректированный коэффициент детерминации
В случае множественной регрессии коэффициент детерминации является неубывающей функцией числа объясняющих переменных, т.е. добавление новой переменной увеличивает значение . Поэтому при расчете коэффициента детерминации для получения несмещенных оценок в числителе и знаменателе формулы 1.11 делается поправка на число степеней свободы. Найденное значение называется скорректированным коэффициентом детерминации:
■ — является несмещенной оценкой остаточной дисперсии, т.е. дисперсией случайных отклонений точек наблюдений от линии регрессии. Ее число степеней свободы равно
, где
степень свободы связана с необходимостью решения системы
линейного уравнения;
■ — является несмещенной оценкой общей дисперсии, т.е. дисперсией отклонения
от
, где одна степень теряется при вычислении
.
Заметим, что несмещенная оценка объясненной дисперсии , т.е. дисперсии отклонения точек
от
, имеет
степеней свободы.
Все суммы можно найти в столбце дисперсионного анализа, их средние значения в столбце
, а число степеней свободы в столбце
этого же блока.
Для нашего примера находится в блоке регрессионная статистика в строке нормированный.
Можно получить формулу, устанавливающую связь между скорректированным коэффициентом детерминации и коэффициентом детерминации:
Очевидно, что:
для
,
только при
.
может принимать отрицательные значения (например, если
)
Коэффициент корректируется с ростом числа объясняющих переменных. Доказано, что скорректированный коэффициент корреляции увеличивается при добавлении новой переменной тогда и только тогда, когда — статистика этой переменной по модулю больше единицы. Поэтому добавление в модель новых переменных осуществляется до тех пор, пока он растет.
В пакете Анализ данных приводятся значения и
. Значимость коэффициента детерминации и скорректированного коэффициента при исследовании уравнения регрессии большая, однако, не абсолютная. При неправильной спецификации модели можно получить очень высокие значения этих коэффициентов, поэтому
и
рассматриваются как один из ряда показателей, которые нужно проанализировать, чтобы уточнить строящуюся модель.
Индекс множественной корреляции
Теснота линейной взаимосвязи в линейной регрессии выполняется с помощью индекса корреляции:
Если — неслучайная величина, то
характеризует качество подбора уравнения регрессии. Если же
— случайная переменная, то индекс корреляции является мерой тесноты линейной взаимосвязи между
и набором факторов
.
Для нашего примера находим в строке Множественный рис 1.18.
Коэффициенты частной корреляции
Используются для выделения определяющего фактора и второстепенных. Необходимо определить частные зависимости между и
, при условии, что воздействие остальных факторов исключено (элиминировано). В случае трех переменных
можно получить коэффициенты парной корреляции
по формулам:
Воспользуйтесь инструкциями примера 1.2. и найдите коэффициенты парной корреляции для вычисления коэффициентов частной корреляции.
Анализируя, полученные данные можно сказать, что факторы и
дублируют друг друга
. Сравнивая их влияние на фактор
можно сделать вывод об исключении переменной
из уравнения регрессии, так как
. Постройте уравнение регрессии, не содержащее фактор
. Сравните коэффициенты детерминации двух уравнений и сделайте вывод: следует исключать фактор
или оставить его при построении уравнения регрессии.
Доверительный интервал прогноза
Если уравнение регрессии имеет вид:
то прогнозное значение вычисляется так же как в случае парной регрессии. Необходимо подставить заданные значения прогноза
в уравнение регрессии.
Найдем средний объем сбережений в 2011 году, если предполагаемый доход в 2010 году составит 270 тыс. рублей, а процентная ставка вырастет до 5,5%. Подставив эти значения в уравнение регрессии, получим средний объем сбережений в 2011 году:
Точечная оценка объема сбережений в 2011 году может быть дополнена интервальной оценкой, полученной по формуле 1.15:
где
Используя встроенные функции Excel, найдем матричное произведение:
Подставив все значения в 1.28, найдем интервальные оценки среднего сбережения населения в 2011 году:
Склонность населения к сбережению в данной модели отражается через коэффициент , определяющий на какую величину вырастет объем сбережений
при росте располагаемого дохода на одну единицу.
Для анализа, существенно или нет коэффициент отличается от 0,5, проверим гипотезу:
Построим статистику, которая имеет распределение Стьюдента. Зададим уровень значимости
, число степеней свободы
тогда:
Так как
то должна быть отклонена. Действительно 50% склонность населения к сбережениям явно завышена по сравнению с модельным значением в 12,4%.
Рост процентной ставки увеличивает объем сбережений
Эта зависимость характеризуется коэффициентом . Так как коэффициент статистически значим, то ответ будет статистически обоснованным.
Анализ качества уравнения регрессии
Первое построенное по выборке уравнение редко является удовлетворительным по тем или иным характеристикам. Поэтому следующей задачей эконометрического анализа является проверка качества уравнения регрессии. Эта проверка проводится по следующим этапам:
■ проверка статистической значимости коэффициентов регрессии;
■ проверка общего качества уравнения регрессии;
■ проверка свойств данных: проверка выполнимости МНК.
По всем показателям нашего примера 1.3 модель может быть признана удовлетворительной:
■ высокие -статистики;
■ коэффициент детерминации близок к единице;
Это означает, что модель может быть использована для целей анализа и прогнозирования. Мы не проверили выполнимость МНК и значимость коэффициента детерминации.
Анализ значимости ![Решение задач по эконометрике в Excel](data:image/svg+xml,%3Csvg%20xmlns='http://www.w3.org/2000/svg'%20viewBox='0%200%200%200'%3E%3C/svg%3E)
Проверяется гипотеза об одновременном равенстве нулю всех объясняющих переменных — уравнение считается незначимым:
Если данная гипотеза не отклоняется, то делается вывод, что совокупное влияние всех m объясняющих переменных на зависимую переменную можно считать статистически незначимым, а общее качество уравнения регрессии невысоким.
Проверка данной гипотезы проводится на основе дисперсионного анализа, при этом сравниваются объясненная и остаточная дисперсии.
Для проверки гипотезы строится -статистика:
которая при выполнении МНК имеет распределение Фишера с числом степеней свободы
Критическое значение находится с помощью:
при уровне значимости .
■ Если то гипотеза
отклоняется в пользу
что означает объясненная дисперсия существенно больше остаточной, следовательно, уравнение регрессии достаточно качественно отражает динамику изменения зависимой переменной от объясняющей.
■ Если , то гипотеза
принимается, т.е. объясненная дисперсия соизмерима с остаточной дисперсией, вызванной случайными факторами. Это позволяет считать влияние объясняющих переменных модели несущественным, а следовательно, общее качество уравнения регрессии невысоким.
На практике вместо указанной гипотезы проверяется, связанная с ней гипотеза о статистической значимости коэффициента детерминации .
Очевидно, что если , а линия регрессии
является наилучшей по МНК, т.е. величина
линейно не зависит от
. Анализ статистики
позволяет сделать вывод о том, что для принятия гипотезы об одновременном равенстве нулю всех коэффициентов линейной регрессии коэффициент детерминации
не должен существенно отличаться от нуля. Его критическое значение уменьшается при росте числа наблюдений и может стать сколь угодно малым.
Для проверки этой гипотезы числитель и знаменатель формулы 1.29 поделим на общую сумму квадратов отклонений и получим:
Вернемся к результатам нашего примера 1.3. (рис. 1.14).Найдем по таблице распределения Фишера критическую точку для уровня значимости . Сравнивая критическое и наблюдаемое значения
, можно сделать вывод, что коэффициент детерминации статистически значим. Это означает, что совокупное влияние переменных
и
на переменную
существенно. Этот же вывод можно сделать по столбцу значимость
, который характеризует вероятность выполнения гипотезы
.
Проверка качества двух коэффициентов детерминации
Статистику можно использовать и для обоснования случая исключения или добавления в уравнение регрессии
объясняющих переменных. Добавлять (исключать) переменные надо по одному.
Использовать лучше так как
всегда растет при добавлении новой объясняющей переменной. Зависимая переменная должна быть представлена в том же виде, что и уже существующие в исследуемом уравнении регрессии. Число наблюдений для обеих моделей должно быть одинаковым.
Пусть первоначально построенное по п наблюдениям уравнение регрессии имело вид:
и скорректированный коэффициент детерминации равен .
Исключим из уравнения переменных, оказывающих наименьшее влияние на
По
наблюдениям построим новое уравнение регрессии:
скорректированный коэффициент детерминации, для которого равен .
Необходимо определить существенно ли ухудшилось качество описания зависимой переменной . Для этого выдвинем гипотезы:
— ничего не изменилось
— уравнение ухудшилось, если разность больше нуля. По выборочным данным найдите статистику:
которая имеет распределения Фишера с числом степеней свободы
где
— потеря качества уравнения в результате того, что
переменных было отброшено. В результате появляется
дополнительных степеней свободы;
— остаточная дисперсия первоначального уравнения.
Сравним критическое значение и с наблюдаемым при уровне значимости
:
■ Если , то гипотеза
отклоняется в пользу
, что означает, одновременное исключение
объясняющих переменных существенно повлияет на качество первоначального уравнения.
■ Если , то гипотеза
принимается, т.е. разность
; незначительная. Это позволяет считать, что исключение
объясняющих переменных модели допустимым, так как общее качество уравнения регрессии изменится несущественно.
Аналогично проверяется гипотеза о добавлении к объясняющих переменных в уравнение регрессии. В этом случае составляется статистика:
Исключим фактор из уравнения регрессии примера 1.3. построим зависимость между
и
. с помощью инструмента Регрессия получим уравнение:
Коэффициенты и все остальные характеристики для этого уравнения регрессии можно посмотреть на рис 1.16. Сравним новое уравнений с уравнением полученным ранее.
В ячейке N18 находится значение -статистики вычисленное по формуле 1.31. Критическое значение (ячейка N19) находится с помощью встроенной функции Excel при уровне значимости 0,05:
Сравнивая эти два значения делаем вывод, что гипотеза отклоняется в пользу гипотезы
то есть новое уравнение ухудшило качество приближения к выборочным данным.
Проверка качества двух коэффициентов детерминации
Необходимо сравнить два уравнения регрессии для отдельных групп наблюдений, т.е. будет одним и тем же уравнение регрессии для этих выборок. Для проверки этой гипотезы используется тест Чоу.
Пусть имеются две выборки объемом и
. Для каждой из этих выборок получено уравнение регрессии:
Суммы квадратов отклонений от линий регрессии обозначим
для первого и
для второго уравнения регрессии.
Выдвинем гипотезу о равенстве соответствующих коэффициентов регрессии
Объединим обе выборки в одну. Для выборки объема найдем еще одно уравнение регрессии, сумму квадратов отклонений которой обозначим
. Тогда для проверки гипотезы
строится статистика:
которая имеет распределение Фишера с числом степеней свободы
Если , то значение
-статистики приближается к нулю, а это значит, что уравнения регрессии обеих выборок практически одинаковые. А дальше сравним наблюдаемое и критическое значения
и делаете вывод принимается или отклоняется гипотеза
.
Данные исследования отвечают на вопрос, можно ли за рассматриваемый период времени построить единое уравнение регрессии или же нужно разбить его на части и для каждого временного интервала построить свое уравнение регрессии.
Проверка выполнимости мнк. Автокорреляция остатков. Статистика дарбина-уотсона
Все предыдущие рассуждения основаны на том, что выполняются предпосылки МНК: мы предполагали, что случайные отклонения являются независимыми случайными величинами со средней, равной нулю. При работе с фактическими данными, такое допущение не всегда выполняется. Например, если вид функции выбран неудачно, то отклонения от регрессии вряд ли будут независимыми. В этом случае замечается концентрация положительных или отрицательных отклонений от регрессии и можно сомневаться в их случайном характере.
Если последовательные значения коррелируют (зависят) между собой, то говорят, что имеет место автокорреляция остатков.
МНК в случае автокорреляции дает несмещенные и состоятельные оценки, однако полученные в этом случае доверительные интервалы имеют мало смысла в силу своей ненадежности. Значительная автокорреляция говорит о том, что спецификация модели неправильная. Проверка остатков на автокорреляцию должна выполняться обязательно. Наиболее простым приемом обнаружения автокорреляции является метод Дарбина-Уотсона (). Идея, которого состоит в том, что проверяются на коррелированность не любые, а только соседние величины
. Соседними обычно считаются соседние по возрастанию объясняющей переменной
( в случае перекрестной выборки) или по времени (в случае временных рядов) значения
.
Статистика рассчитывается по формуле:
При условии что и
большое число можно предположить
тогда после преобразования получим:
Очевидно, что так как коэффициент корреляции
■ , если
— автокорреляция отсутствует;
■ -полная положительная автокорреляция;
■ -полная отрицательная автокорреляция.
Возникает вопрос, какие значения можно считать близкими к 2? Для обнаружения границ наблюдений статистики
существуют специальные таблицы. Для заданных
— уровня значимости;
— числа наблюдений и
-числа объясняющих переменных указывается два числа:
— нижняя граница и
— верхняя граница. Не обращаясь к таблице критических точек DW можно воспользоваться правилом, если l,5<
<2,5, автокорреляция отсутствует. Изобразим на рисунке числовой отрезок , используемый для проверки гипотезы об отсутствии автокорреляции.
Статистику для примера 1.3 находим по формуле (1.35):
Для вычисления этой статистики запустите инструмент Регрессия, включив опции Остатки и График остатков, как показано на рис. 1.18. В результате получите значение случайных отклонений е, и их графики, которые Excel строит для каждой независимой переменной, как показано на рис. 1.20 и 1.21. Чтобы найти , можно использовать функции СУММКВРАЗН и СУММКВ.
Если зависимость между и
линейная, то график остатков должен иметь случайный вид. На рис. 1.21 видим систематический рисунок, поэтому скорее всего между
и
существует нелинейная зависимость, а значит надо изменить модель, включая в нее нелинейную зависимость.
Для проверки статистической значимости надо воспользоваться таблицей критических точек Дарбина-Уотсона, например, при уровне значимости
и числе наблюдений
Можно считать, что автокорреляция отсутствует, так как найденная статистика попадает в критический интервал: 1,604<<2,396, что является подтверждением высокого качества модели.
Мультиколлинеарность
Увеличение числа переменных в уравнении множественной регрессии повышает точность описания взаимосвязи, однако при этом должно выполняться условие, что — объясняющие переменные, линейно независимые величины.
Под мулыиколлинеарностью понимают взаимосвязь объясняющих переменных регрессии. Если между переменными и
существует функциональная зависимость
, то говорят о строгой мультиколлинеарности. Чаще всего между переменными существует довольно сильная корреляционная зависимость — в этом случае мультиколлинеарность называют нестрогой.
При строгой мультиколлинеарности решение матричного уравнения 1.22 становится невозможным, так как матрица вырожденная — её определитель равен нулю.
Если же мультиколлинеарность нестрогая, то решение матричного уравнения формально можно найти, однако все оценки мало надежны.
Чтобы обнаружить мультиколлинеарность надо найти определитель матрицы . Вместо этого проверяется определитель матрицы межфакторной корреляции, которую получают с помощью инструмента КОРРЕЛ.
Устранение мультиколлинеарности заключается в исключении одной из двух, находящихся во взаимосвязи переменных, либо путем пересмотра структуры уравнения регрессии. Для оценки влияния факторов на результирующий фактор в случае используются показатели частной корреляции (1.26). Если число переменных больше трех, то для их определения удобно пользоваться формулой:
где коэффициенты матрицы обратной к матрице парных коэффициентов корреляции.
Гомоскедастичность (постоянство дисперсии случайных отклонений)
Для применения МНК требуется, чтобы дисперсия остатков была величиной постоянной. Невыполнимость этого условия называется гетероскедастичностью и влечёт смещенность дисперсий оценок, так как стандартная ошибка регрессии (1.4) становится смещенной.
Обнаружение гетероскедастичности является сложной задачей потому что необходимо знать распределение , соответствующее выбранному значению переменной
. В тесте Голфелда-Квандта предполагается, что стандартное отклонение пропорционально значению
переменной
и
нормально распределены, автокорреляция остатков отсутствует. Проверка на гомоскедастичность по этому тесту содержит следующие шаги:
- Все
наблюдений упорядочивают по величине.
- Упорядоченная выборка разбивается на три подвыборки размерностью
,
и
соответственно.
- Центральные наблюдения исключаются из дальнейшего рассмотрения.
- Строят регрессии для первой и последней групп и находят остаточные суммы квадратов
и
соответственно. Если условие гомоскедастичности выполняется, то
, в противном случае
.
- Построенная
-статистика, имеет распределение Фишера с
степенями свободы, где
число объясняющих переменных в уравнении регрессии.
- Чем больше
превышает значение
, тем более нарушена предпосылка о равенстве остаточных дисперсий.
- НЕЛИНЕЙНАЯ РЕГРЕССИЯ
Если между экономическими явлениями существуют нелинейные соотношения, то они выражаются с помощью соответствующих функций:
a) квадратичная функция (полином любой степени);
b) равносторонняя гипербола;
c) степенная;
d) показательная и др.
Кроме указанных функций для описания связи двух переменных можно использовать и другие типы кривых:
Различают два класса нелинейных уравнений:
1) регрессии, нелинейные относительно включенных объясняющих переменных,
но линейные по оцениваемым параметрам;
2) регрессии, нелинейные по оцениваемым параметрам.
К первому классу — нелинейные по переменным — относятся кривые а и b (рис 2.1). Нелинейными по параметрам (второй класс) являются зависимости c и d на рис. 2.1.
Линейные по параметру
Такие модели легко приводятся к линейному виду — линеаризуются. Для линейных но параметру моделей вводят новую переменную (таблица 2.1) и переходят к построению линейной регрессии по преобразованным данным. Применяя инструмент Регрессия, к преобразованным данным можно найти все оценки параметров преобразованных моделей и оценить их качество.
Качество исходной модели можно оценить, используя индекс корреляции (1.26). Оценка статистической значимости индекса корреляции проводится с помощью — статистики, так же как и коэффициента детерминации (1.29). Довольно часто в экономических исследованиях для оценки качества построенного уравнения используют среднюю ошибку аппроксимации, которая вычисляется по формуле:
и оценивает по модулю величину отклонений расчетных значений от фактических. Допустимый предел значений средней ошибки аппроксимации не более 8-10%.
Приведем примеры использования нелинейных моделей, перечисленных в таблице 2.1.
Полиномиальная модель (1) может отражать зависимость между объемом выпуска и издержками производства
; или расходами на рекламу
и прибылью
и т.д. В экономике наиболее часто используют многочлен второй степени реже третьей степени. Ограничения в применении многочленов более высоких степеней связано с требованием однородности исследуемой совокупности: чем выше степень многочлена, тем больше изгибов имеет кривая и соответственно меньше однородность по результативному признаку. Надо помнить, что графики многочленов имеют промежутки монотонности и точки экстремумов, поэтому параметры применения этих моделей не всегда могут быть логически истолкованы. Поэтому, если такая зависимость четко не определена графически (параболическая), то её лучше заменить другой нелинейной функцией.
Гиперболическая модель (2) — классическим примером этой модели является кривая Филлипса , характеризующая соотношение между уровнем безработицы
и процентом прироста заработной платы
. При
кривая характеризуется нижней асимптотой
. Соответственно можно определить уровень безработицы, при котором заработная плата стабильна и темп её прироста равен нулю. При
гиперболическая функция будет медленно расти для
и имеет горизонтальную асимптоту
. Такие кривые называют кривыми Энгеля, который сформулировал закономерность: с ростом доходов
доля доходов, расходуемых на продовольствие
уменьшается.
Полулогарифмические модели (3) используются, когда необходимо определить темп роста или прироста экономических показателей. Например, при анализе банковского вклада по процентной ставке, при исследовании зависимости прироста объема выпуска продукции от процентного увеличения затрат на расходы, бюджетного дефицита от темпа роста ВВП, темп роста инфляции от объема денежной массы и т.д.
Нелинейные по параметру
Уравнения нелинейные по параметру можно разделить на:
- внутренне линейные — можно привести к линейному виду путем преобразований;
- внутренне нелинейные, которые не могут быть сведены к линейной модели.
Степенная модель:
Если прологарифмировать обе части уравнения 2.2, получится модель, легко приводящаяся к линейному виду:
Надо сделать замену:
получим линейную модель (1.1).
Коэффициент модели определяет эластичность переменной
по переменной
, то есть процентное изменение
при изменении
на 1%. Степенная модель имеет постоянную эластичность, это легко увидеть, если продифференцировать обе части уравнения (2.3):
Так как константа, то модель 2.3 называют моделью постоянной эластичности.
В случае парной регрессии использование обоснование использования степенной модели достаточно просто. Надо построить корреляционное поле для точек , если их расположение соответствует прямой линии, то произведенная замена хорошая и можно использовать степенную модель.
Данная модель легко обобщается на большее число переменных. Наиболее известная — производственная функция Кобба-Дугласа: , где
— объем выпуска;
— затраты капитала;
— затраты труда.
Лог-линейные модели широко используются в банковском и финансовом анализе:
где — первоначальный банковский вклад,
— процентная ставка,
— размер вклада на момент
.
Прологарифмируем обе части этой модели
Введя замену
получим полулогарифмическую модель:
Коэффициент в уравнении 2.6 имеет смысл темпа прироста переменной
по переменной
, то есть характеризует относительное изменение
к абсолютному изменению
. Продифференцируем 2.6 по
, получим:
Умножив на 100%, получим темп прироста
. Надо сказать, что коэффициент
определяет мгновенный темп прироста, а
характеризует темп прироста сложного процента.
Показательные модели используются, когда анализируется изменение переменной с постоянным темпом прироста во времени
:
Если провести логарифмирование, то получится уравнение аналогичное 2.5 В общем виде показательная модель имеет вид:
но в силу равенства
сводится к уравнению 2.8.
Коэффициент эластичности
Рассматривая степенную модель, мы ввели понятие эластичности функции: предел отношения относительных приращений независимой переменной и зависимой называется эластичностью функции
показывает на сколько процентов изменится в среднем результат, если фактор х изменится на 1%.
Для других форм связи Э зависит от значения фактора и не является величиной постоянной, поэтому рассчитывается средний коэффициент эластичности, который показывает, на сколько процентов в среднем по совокупности изменится результат
от своей средней величины, если фактор
изменится на 1% от своего среднего значения. Формула для расчета:
Несмотря на широкое использование в экономике коэффициентов эластичности, возможны случаи, когда они не имеют экономического смысла. Составьте таблицу коэффициентов эластичности для всех рассмотренных нелинейных моделей самостоятельно.
2.4. ПОСТРОЕНИЕ НЕЛИНЕЙНЫХ РЕГРЕССИЙ
Можно воспользоваться командой Добавить линию тренда, так же как в случае линейного тренда (раздел 1.3): необходимо построить корреляционное поле и выбрать одну из зависимостей на вкладке параметры: полиномиальный, логарифмический, показательный и экспоненциальный. Такой способ удобен для случая двух переменных.
Использовать инструмент Регрессия можно только для преобразованных данных. Этот способ дает много не нужной информации.
Пример 3.1. По семи территориям Южного федерального округа за 2001 год известны значения двух признаков:
Задание
- Постройте уравнения регрессии для модели:
a) линейной;
b) степенной;
c) экспоненциальной;
d) логарифмической; гиперболы.
- Оцените каждую модель через среднюю ошибку аппроксимации
и
-критерий Фишера.
Проще всего построить поле корреляции, а затем добавить линии тренда (см. параграф 1.З.). Для полученных уравнений надо найти коэффициент аппроксимации и проверить -критерий.
1а. Уравнение линейной регрессии:
Вариация результата на 12% объясняется вариацией фактора — статистику найдем по формуле 1.13
Так как
то параметры линейного уравнения и показатель тесноты связи между и
статистически незначимы и гипотеза о линейности уравнения регрессии отклоняется. Самостоятельно вычислите величину средней ошибки аппроксимации:
l.b. Степенная модель
Подставляя в уравнение регрессии фактические значения , получим
. По этим значениям, используя формулу для индекса корреляции (1.26), получим
и среднюю ошибку аппроксимации:
Характеристики степенной модели указывают, что она не намного лучше линейной функции описывает связь между и
.
1с. Аналогично l.b. для показательной модели
сначала нужно выполнить линеаризацию
и после замены переменных
рассмотрим линейное уравнение:
Используя столбцы для и
из предыдущей таблицы, получим коэффициенты:
и уравнение
После потенциирования запишем уравнение в обычной форме:
Все эти расчеты можно не делать, если воспользоваться для вычисления параметров и
модели
встроенной статистической функцией ЛГРФПРИБЛ. Выполните самостоятельно и сравните результаты. Убедитесь, что значения вычисленные по формулам и полученные с помощью функции ЛГРФПРИБЛ() совпадают (рис.2.4)
Тесноту связи оценим с помощью индекса корреляции
который вычисляется по формуле (1.26). Связь между и
небольшая. Коэффициент аппроксимации, вычисленный по формуле (3.3)
=8% говорит о повышенной ошибке приближения, но в допустимых пределах. Сравнивая, показатели степенной и показательной функций можно сделать вывод, что степенная функция чуть лучше описывает связь между
и
чем показательная.
l.d. Аналогичные расчеты надо провести и для равносторонней гиперболы , которая линеаризуется заменой
.
Для этого уравнения в таблицу исходных значений надо добавить столбец , а все остальные вычисления проведите, используя один из описанных выше способов:
Получена наибольшая оценка тесноты связи по сравнению с линейной, степенной и показательной регрессиями, а остается в пределах допустимого значения, это означает, что для описания зависимости расходов на покупку продовольственных товаров в общих расходах (
в %) от среднедневной заработной платы одного работающего (
в руб.) необходимо из предложенных моделей выбрать гиперболическую.
- Введем гипотезу
: уравнение регрессии статистически незначимо и рассмотрим статистику (1.30):
при уровне значимости
смотри в пункте l.a.
Гипотеза о статистической незначимости параметров уравнения принимается. Результат можно объяснить небольшим числом наблюдений и сравнительно невысокой теснотой гиперболической зависимости между
и
.
Возможно эти страницы вам будут полезны:
- Курсовая работа по эконометрике
- Заказать работу по эконометрике
- Лабораторная работа по эконометрике
- Помощь по эконометрике
- Системы эконометрических уравнений
1.
Выборочная оценка математического
ожидания – выборочное среднее
в Excel
вычисляется с помощью
функция СРЗНАЧ,
при этом
реализуется формула
.
2.
Оценка дисперсии – несмещенная
(исправленная) выборочная дисперсияможет быть получена с помощью функцииДИСП.
В Excel
реализована формула
.
3.
Несмещенное выборочное средние
квадратические отклонения (стандартное
отклонение)
вычисляется
с помощью функции
СТАНДОТКЛОН.
Вычисления
в Excel
выполнены по формуле
.
4.
Выборочная (смещенная) оценка дисперсии
вычисляется с помощью
функция ДИСПР.
Результат
вычисления выборочных оценок
,
,
и
показан на рис.1.
… … … …
… … …
Рис.
1. Фрагмент листа Excel
с исходными данными и выборочными
оценками параметров.
2. Описательная статистика.
Выполните
процедуру Описательная
статистика.
В
главном меню Excel
выбрать: Данные
→ Анализ данных → Описательная статистика
→ ОК.
В
появившемся окне Описательная
статистика
ввести:
Входной
интервал –
100 случайных чисел в ячейках $A$3:
$A$102;
Группирование
— по столбцам;
Выходной
интервал –
адрес ячейки, с которой начинается
таблица Описательная
статистика – например,
$D$8;
Итоговая
статистика
– поставить галочку. ОК.
Рис.
2. Диалоговое окно Описательная
статистика
с заполненными полями ввода.
На
листе Excel
появится таблица – Столбец
1. В
таблице даются все необходимые параметры,
кроме моды Mo(X).
Рис.
3. Таблица Описательная
статистика
Таблица содержит
описательные статистики, в частности:
Среднее
– оценка математического ожидания
;
Стандартное
отклонение
– оценка среднего квадратического
отклонения;
Дисперсия
– выборочная исправленная дисперсия
;
Эксцесс
и Асимметричность
– оценки эксцесса и асимметрии;
Медиана
– оценка
медианы;
Мода
– оценка
моды, #Н/Д – нет данных (наиболее часто
встречающееся значение случайной
величины в выборке).
Приблизительное
равенство нулю оценок эксцесса и
асимметрии, и приблизительное равенство
оценки среднего оценке медианы дает
предварительное основание выбрать в
качестве основной гипотезы H0
распределения элементов генеральной
совокупности — нормальный закон.
Интервал
– размах выборки;
Минимум
– минимальное значение случайной
величины в выборке ;
Максимум
– максимальное значение случайной
величины в выборке .
Результаты
процедуры Описательная
статистика
потребуются в дальнейшем при построении
теоретического закона распределения.
3. Построение гистограммы
В
главном меню Excel
выбрать Данные
→ Анализ данных → Гистограмма → ОК.
Далее
необходимо заполнить поля ввода в
диалоговом окне Гистограмма.
Входной
интервал:
100 случайных чисел в ячейках $A$3:
$A$102;
Интервал
карманов:
не
заполнять;
Выходной
интервал:
адрес ячейки, с которой начинается вывод
результатов процедуры Гистограмма;
Вывод
графика –
поставьте галочку.
Если
поле ввода Интервал
карманов не
заполняется, то процедура вычисляет
число интервалов группировки k
и границы интервалов автоматически по
формуле.
,
где,
скобки
означают – округление до целой части
числа в меньшую сторону.
В
рассматриваемом варианте n
= 100,
следовательно, k
= 11.
Действительно:
Рис.
4. Диалоговое окно Гистограмма.
В
результате выполнения процедуры
Гистограмма
появляется таблица, содержащая границы
xi
интервалов
группировки (столбец – Карман)
и частоту попадания случайных величин
выборки mi
в i–ый
интервал (столбец
–
Частота).
Справа от таблицы
– график гистограммы.
Рис.
5. Фрагмент листа Excel
с результатами процедуры Гистограмма.
По
виду гистограммы можно предположить
(принять гипотезу) о том, что выборка
случайных чисел подчиняется нормальному
закону распределения.
Далее,
для того чтобы убедиться в правильности
выбранной гипотезы (по крайней мере
визуально) надо, первое – построить
график гипотетического нормального
закона распределения, выбрав в качестве
параметров (математического ожидания
и среднего квадратического отклонении)
их оценки (среднее и стандартное
отклонение), и совместить график
гипотетического распределения с графиком
гистограммы.
И,
второе – используя критерий согласия
Пирсона установить справедливость
выбранной гипотезы.
Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]
- #
- #
- #
- #
- #
- #
- #
- #
- #
- #
- #
Одним из основных инструментов статистического анализа является расчет среднего квадратичного отклонения. Данный показатель позволяет сделать оценку стандартного отклонения по выборке или по генеральной совокупности. Давайте узнаем, как использовать формулу определения среднеквадратичного отклонения в Excel.
Определение среднего квадратичного отклонения
Сразу определим, что же представляет собой среднеквадратичное отклонение и как выглядит его формула. Эта величина является корнем квадратным из среднего арифметического числа квадратов разности всех величин ряда и их среднего арифметического. Существует тождественное наименование данного показателя — стандартное отклонение. Оба названия полностью равнозначны.
Но, естественно, что в Экселе пользователю не приходится это высчитывать, так как за него все делает программа. Давайте узнаем, как посчитать стандартное отклонение в Excel.
Расчет в Excel
Рассчитать указанную величину в Экселе можно с помощью двух специальных функций СТАНДОТКЛОН.В (по выборочной совокупности) и СТАНДОТКЛОН.Г (по генеральной совокупности). Принцип их действия абсолютно одинаков, но вызвать их можно тремя способами, о которых мы поговорим ниже.
Способ 1: мастер функций
- Выделяем на листе ячейку, куда будет выводиться готовый результат. Кликаем на кнопку «Вставить функцию», расположенную слева от строки функций.
В открывшемся списке ищем запись СТАНДОТКЛОН.В или СТАНДОТКЛОН.Г. В списке имеется также функция СТАНДОТКЛОН, но она оставлена из предыдущих версий Excel в целях совместимости. После того, как запись выбрана, жмем на кнопку «OK».
Способ 2: вкладка «Формулы»
Также рассчитать значение среднеквадратичного отклонения можно через вкладку «Формулы».
-
Выделяем ячейку для вывода результата и переходим во вкладку «Формулы».
Способ 3: ручной ввод формулы
Существует также способ, при котором вообще не нужно будет вызывать окно аргументов. Для этого следует ввести формулу вручную.
-
Выделяем ячейку для вывода результата и прописываем в ней или в строке формул выражение по следующему шаблону:
=СТАНДОТКЛОН.Г(число1(адрес_ячейки1); число2(адрес_ячейки2);…)
или
=СТАНДОТКЛОН.В(число1(адрес_ячейки1); число2(адрес_ячейки2);…).
Всего можно записать при необходимости до 255 аргументов.
Как видим, механизм расчета среднеквадратичного отклонения в Excel очень простой. Пользователю нужно только ввести числа из совокупности или ссылки на ячейки, которые их содержат. Все расчеты выполняет сама программа. Намного сложнее осознать, что же собой представляет рассчитываемый показатель и как результаты расчета можно применить на практике. Но постижение этого уже относится больше к сфере статистики, чем к обучению работе с программным обеспечением.
Отблагодарите автора, поделитесь статьей в социальных сетях.
Расчет коэффициента вариации в Microsoft Excel
Смотрите также и инвестировать в на графике: разброса значений. применяется для сравнения столбца указывается вФормулаЧтобы не включать логические на массив.
СТАНДОТКЛОН сделать простым выделением
Вычисление коэффициента вариации
(/) коэффициент вариации.. Аргументы полностью идентичны все нужные данныеили
разделена, в зависимостиОдним из основных статистических активы предприятия ВОбычно показатель выражается вКоэффициент вариации позволяет сравнить разброса двух случайных двойных кавычках, напримерОписание (результат) значения и текстовыеФункция СТАНДОТКЛОНА предполагает, что
Шаг 1: расчет стандартного отклонения
и данного диапазона. Вместона клавиатуре. ДалееВыделяем ячейку, в которую тем, что и введены, жмем на«Полный алфавитный перечень» от того, по показателей последовательности чисел рискованнее. Риск выше процентах. Поэтому для риск инвестирования и величин с разными «Возраст» или «Урожай»Результат представления чисел в аргументы являются толькоСРЗНАЧ оператора выделяем ячейку, в
будет выводиться результат. у операторов группы
кнопку
. Выбираем наименование
генеральной совокупности происходит
-
является коэффициент вариации. в 1,7 раза. ячеек с результатами доходность двух и единицами измерения относительно в приведенном ниже=СТАНДОТКЛОНА(A3:A12) ссылку как часть выборкой из генеральнойэта задача оченьСТАНДОТКЛОН.В которой располагается среднее Прежде всего, нужноСТАНДОТКЛОН
«OK»«СТАНДОТКЛОН.Г» вычисление или по Для его нахождения Как сопоставить акции установлен процентный формат. более портфелей активов. ожидаемого значения. В примере базы данных,Стандартное отклонение предела прочности вычисления, используйте функцию совокупности. Если данные упрощается. Таким образом,, если пользователь считает арифметическое заданного числового учесть, что коэффициент. То есть, вВ предварительно выделенной ячейкеили выборке, на два производятся довольно сложные
с разной ожидаемойЗначение коэффициента для компании Причем последние могут итоге можно получить или как число для всех инструментов СТАНДОТКЛОН. представляют всю генеральную в Excel её нужным, можно применять ряда. Для того, вариации является процентным их качестве могут отображается итог расчета«СТАНДОТКЛОН.В» отдельных варианта: расчеты. Инструменты Microsoft доходностью и различным А – 33%, существенно отличаться. То сопоставимые результаты. Показатель (без кавычек) , (27,46391572)Функция СТАНДОТКЛОНА вычисляется по совокупность, то стандартное может выполнить даже
выбранного вида стандартного, в зависимости отСТАНДОТКЛОН.Г
Шаг 2: расчет среднего арифметического
Excel позволяют значительно уровнем риска? что свидетельствует об есть показатель увязывает наглядно иллюстрирует однородность задающее положение столбца27,46391572 следующей формуле: отклонение следует вычислять человек, который не
-
СТАНДОТКЛОН.Г и вывести значение, с этим следует числовые величины, так отклонения. того, по генеральной
и облегчить их дляДля сопоставления активов двух относительной однородности ряда. риск и доходность. временного ряда. в списке: 1
Юрикгде x — выборочное среднее с помощью функции имеет высокого уровня. щёлкаем по кнопке поменять формат ячейки и ссылки. УстанавливаемУрок: совокупности или поСТАНДОТКЛОН.В пользователя. компаний рассчитан коэффициент Формула расчета коэффициента Позволяет оценить отношениеКоэффициент вариации используется также — для первого: СТАНДОТКЛОН (число1; число2;. ) СРЗНАЧ(значение1,значение2,…), а n — СТАНДОТКЛОНПА. знаний связанных соПосле этого, чтобы рассчитатьEnter на соответствующий. Это курсор в поле
между среднеквадратическим отклонением инвесторами при портфельном поля, 2 —
Шаг 3: нахождение коэффициента вариации
Число1, число2. — от размер выборки.Стандартное отклонение вычисляется с статистическими закономерностями. значение и показать
-
на клавиатуре. можно сделать после«Число1» в Excel расчет. Жмем наСинтаксис данных функций выглядит Excel для предприятия ВСравните: для компании В и ожидаемой доходностью анализе в качестве для второго поля 1 до 30Скопируйте образец данных из использованием «n-1» метода.Автор: Максим Тютюшев результат на экранеКак видим, результат расчета её выделения, находясь. Так же, какСреднее арифметическое является отношением кнопку соответствующим образом:
Этот показатель представляет собой – 50%, для коэффициент вариации составил в относительном выражении. количественного показателя риска, и так далее. числовых аргументов, соответствующих следующей таблицы иДопускаются следующие аргументы: числа;В этой статье описаны монитора, щелкаем по выведен на экран. во вкладке и в предыдущем общей суммы всех«OK»= СТАНДОТКЛОН(Число1;Число2;…) отношение стандартного отклонения предприятия А – 50%: ряд не Соответственно, сопоставить полученные связанного с вложениемКритерий. Это диапазон
имена, массивы или синтаксис формулы и кнопкеТаким образом мы произвели«Главная» случае, выделяем на значений числового ряда.= СТАНДОТКЛОН.Г(Число1;Число2;…) к среднему арифметическому.
-
33%. Риск инвестирования является однородным, данные результаты. средств в определенные ячеек, содержащий задаваемые совокупности. Вместо аргументов,
ячейку A1 нового
ссылки, содержащие числа; использование функцииEnter вычисление коэффициента вариации,. Кликаем по полю листе нужную нам к их количеству.Открывается окно аргументов данной= СТАНДОТКЛОН.В(Число1;Число2;…) Полученный результат выражается в ценные бумаги значительно разбросаны относительноПри принятии инвестиционного решения активы. Особенно эффективен условия. В качестве
совокупность ячеек. После Для расчета этого функции. Оно можетДля того, чтобы рассчитать в процентах. фирмы В выше среднего значения. необходимо учитывать следующий
в ситуации, когда аргумента критерия можно запятой, можно также отобразить результаты формул, логические значения, такиев Microsoft Excel.Существует условное разграничение. Считается, в которых уже в блоке инструментов того, как их показателя тоже существует иметь от 1 стандартное отклонение, выделяемВ Экселе не существует в 1,54 раза момент: когда ожидаемая у активов разная использовать любой диапазон, использовать массив или выделите их и как ИСТИНА иОценивает стандартное отклонение по
что если показатель
СТАНДОТКЛОНА (функция СТАНДОТКЛОНА)
были рассчитаны стандартное«Число» координаты были занесены отдельная функция – до 255 полей,
Описание
любую свободную ячейку отдельно функции для (50% / 33%).Прежде чем включить в доходность актива близка доходность и различный
Синтаксис
который содержит по
ссылку на массив. нажмите клавишу F2,
ЛОЖЬ, в ссылке. выборке. Стандартное отклонение коэффициента вариации менее отклонение и среднее. Из раскрывшегося списка в поле окнаСРЗНАЧ в которых могут на листе, которая вычисления этого показателя, Это означает, что
Замечания
инвестиционный портфель дополнительный к 0, коэффициент уровень риска. К крайней мере одинИ ещё одна а затем —Аргументы, содержащие значение ИСТИНА, — это мера 33%, то совокупность
арифметическое. Но можно вариантов выбираем
аргументов, жмем на. Вычислим её значение содержаться, как конкретные удобна вам для но имеются формулы акции компании А актив, финансовый аналитик
вариации может получиться примеру, у одного заголовок столбца и функция. клавишу ВВОД. При интерпретируются как 1.
того, насколько широко чисел однородная. В поступить и несколько«Процентный» кнопку на конкретном примере. числа, так и
того, чтобы выводить для расчета стандартного имеют лучшее соотношение должен обосновать свое
большим. Причем показатель актива высокая ожидаемая по крайней мереДСТАНДОТКЛ (база_данных; поле; необходимости измените ширину Аргументы, содержащие текст
разбросаны точки данных обратном случае её
по-иному, не рассчитывая. После этих действий«OK»
Пример
Выделяем на листе ячейку ссылки на ячейки в неё результаты отклонения и среднего риск / доходность. решение. Один из значительно меняется при доходность, а у одну ячейку под критерий) столбцов, чтобы видеть или значение ЛОЖЬ, относительно их среднего.
принято характеризовать, как
отдельно данные значения.
формат у элемента
для вывода результата.
или диапазоны. Ставим
расчетов. Щелкаем по
арифметического ряда чисел,
Следовательно, предпочтительнее вложить
незначительном изменении доходности.
заголовком столбца с
База данных. Интервал
интерпретируются как 0
СТАНДОТКЛОНА(значение1;[значение2];…) неоднородную.Выделяем предварительно отформатированную под
Как посчитать СКО (среднее квадратическое отклонение) в Excel’e? Формулу, если можно.
Результат вычисления среднего арифметического Жмем на уже
курсор в поле кнопке а именно они средства именно в коэффициента вариации.В Excel не существует уровень риска. условием, чтобы задать ячеек, формирующих список
Данные (ноль).
Аргументы функции СТАНДОТКЛОНА описаныКак видим, программа Эксель
процентный формат ячейку,Снова возвращаемся к ячейке выводится в ту знакомую нам кнопку«Число1»«Вставить функцию» используются для нахождения них.Ожидаемая доходность ценных бумаг встроенной функции дляКоэффициент вариации представляет собой
условие для столбца. или базу данных.ПрочностьЕсли аргументом является массив ниже. позволяет значительно упростить в которой будет для вывода результата. ячейку, которая была«Вставить функцию». Мышью выделяем на. Она имеет внешний коэффициента вариации.Таким образом, коэффициент вариации составит:
расчета коэффициента вариации. отношение среднеквадратического отклоненияP.S. Лучше всего База данных представляет1345 или ссылка, учитываютсяЗначение1, значение2. расчет такого сложного выведен результат. Прописываем Активируем её двойным выделена перед открытием. листе тот диапазон
вид пиктограммы иСтандартное отклонение, или, как показывает уровень риска,Среднеквадратическое отклонение доходности для
Но можно найти к среднему арифметическому. прочитать справку по
собой список связанных1301
Коэффициент вариации: формула и расчет в Excel и интерпретация результатов
только значения массива Аргумент «значение1» является обязательным, статистического вычисления, как в ней формулу щелчком левой кнопкиМастера функцийВ статистической категории Мастера значений, который нужно расположена слева от его называют по-другому,
что может оказаться активов компании А частное от стандартного Для расчета в этим функциям в данных, в котором1368 или ссылки. Пустые последующие значения необязательные. поиск коэффициента вариации. по типу: мыши. Ставим в. функций ищем наименование обработать. Если таких строки формул.
Как рассчитать коэффициент вариации в Excel
среднеквадратичное отклонение, представляет полезным при включении и В составляет: отклонения и среднего статистике используется следующая Help’e.
строки данных являются
- 1322
- ячейки и текст От 1 до
- К сожалению, в= СТАНДОТКЛОН.В(диапазон_значений)/СРЗНАЧ(диапазон_значений)
ней знакУрок:«СРЗНАЧ» областей несколько иВыполняется активация собой квадратный корень нового актива вЦенные бумаги компании В арифметического значения. Рассмотрим формула:Юлия титова записями, а столбцы1310 в массиве или
255 значений, соответствующих приложении пока неВместо наименования«=»Как посчитать среднее значение. После его выделения они не смежныеМастера функций из дисперсии. Для
портфель. Показатель позволяет имеют более высокую на примере.CV = σ / ǩ,: как расчитать среднее — полями. Верхняя1370 ссылке игнорируются.
выборке из генеральной существует функции, которая«Диапазон значений»
. Выделяем элемент, в в Excel
жмем на кнопку между собой, то, который запускается в расчета стандартного отклонения
сопоставить ожидаемую доходность ожидаемую доходность. ОниДоходность двух ценных бумагCV – коэффициент вариации; квадратическое отклонение строка списка содержит
1318Аргументы, представляющие собой значения совокупности. Вместо аргументов, высчитывала бы этотвставляем реальные координаты котором расположен итог
Теперь у нас имеются
Интерпретация результатов
«OK» координаты следующей указываем виде отдельного окна используется функция и риск. То превышают ожидаемую доходность за предыдущие пять
σ – среднеквадратическое отклонениеСаша
названия всех столбцов.1350 ошибок или текст,
разделяемых точкой с показатель в одно области, в которой вычисления стандартного отклонения. все необходимые данные. в поле с перечнем аргументов.СТАНДОТКЛОН есть величины с компании А в лет: по выборке;: це дуже сложно
Поле. Определяет столбец,1303 не преобразуемый в запятой, можно использовать действие, но при размещен исследуемый числовой Кликаем по кнопке для того, чтобыЗапускается окно аргументов«Число2» Переходим в категорию. Начиная с версии разными единицами измерения. 1,14 раза. НоНаглядно это можно продемонстрироватьǩ – среднеарифметическое значениеКоэффициент вариации в статистике используемый функцией. Название
1299 числа, вызывают ошибку. массив или ссылку помощи операторов ряд. Это можно «разделить» непосредственно рассчитать самСРЗНАЧи т.д. Когда«Статистические»
В программе эксель можно посчитать среднеквадратичное отклонение двумя способами: использовать стандартные формулы или воспользоваться специальной функцией. Рассмотрим оба метода расчета и сравним их результаты.
Перед нами таблица, состоящая из двух строк и шести столбцов, на основании этих данных и будем делать расчет.
Первый способ.
Первый шаг. Рассчитаем среднее значение пяти данных показателей, для этого воспользуемся функцией СРЗНАЧ, в ячейке «В3» напишем формулу: =СРЗНАЧ(B2:F2).
Второй шаг. Рассчитаем отклонения каждого показателя от среднего, для этого в ячейке «В4» пишем формулу: =B2-$B$3, знаки доллара ставим, чтобы при копировании данной формулы на другие ячейки, параметр среднего значения всегда вычитался. Копируем соответственно данную формулу на другие ячейки.
Третий шаг. Возведем каждое отклонения от среднего в квадратный корень, для этого в ячейке «В5» пишем формулу: =B4^2, которую копируем на оставшийся диапазон ячеек (с «С5» по «F5»).
Четвертый шаг. Посчитаем сумму квадратных отклонений, для этого в ячейке «В6» напишем формулу =СУММ(B5:F5).
Пятый шаг. У нас все готово, чтобы рассчитать среднеквадратичное отклонения. Для этого нужно сумму отклонений от среднего значения в квадрате (8,8) разделить на количество опытов минус один (5-1) и от получившегося значения изъять квадратный корень. Пишем в ячейке «В8» формулу: =КОРЕНЬ((B6/(5-1))).
В итоге получили цифру равную 1,483
Второй способ.
Программа эксель позволяет избегать такого количества расчетов, а, следовательно, сэкономить время, вам просто нужно воспользоваться для расчета среднеквадратичное отклонения функцией СТАНДОТКЛОН, вы внутри неё указываете диапазон, для которого нужно сделать расчет. В ячейке «В8» пишем формулу =СТАНДОТКЛОН(B2:F2).
В итоге результаты обоих вариантов расчета среднеквадратичного отклонения совпали, а вы выбирайте метод, который наиболее подходит к вам.
Из предыдущей статьи мы узнали о таких показателях, как размах вариации, межквартильный размах и среднее линейное отклонение. В этой статье изучим дисперсию, среднеквадратичное отклонение и коэффициент вариации.
Дисперсия
Дисперсия случайной величины – это один из основных показателей в статистике. Он отражает меру разброса данных вокруг средней арифметической.
Сейчас небольшой экскурс в теорию вероятностей, которая лежит в основе математической статистики. Как и матожидание, дисперсия является важной характеристикой случайной величины. Если матожидание отражает центр случайной величины, то дисперсия дает характеристику разброса данных вокруг центра.
Формула дисперсии в теории вероятностей имеет вид:
То есть дисперсия — это математическое ожидание отклонений от математического ожидания.
На практике при анализе выборок математическое ожидание, как правило, не известно. Поэтому вместо него используют оценку – среднее арифметическое. Расчет дисперсии производят по формуле:
где
s2 – выборочная дисперсия, рассчитанная по данным наблюдений,
X – отдельные значения,
X̅– среднее арифметическое по выборке.
Стоит отметить, что у такого расчета дисперсии есть недостаток – она получается смещенной, т.е. ее математическое ожидание не равно истинному значению дисперсии. Подробней об этом здесь. Однако при увеличении объема выборки она все-таки приближается к своему теоретическому аналогу, т.е. является асимптотически не смещенной.
Простыми словами дисперсия – это средний квадрат отклонений. То есть вначале рассчитывается среднее значение, затем берется разница между каждым исходным и средним значением, возводится в квадрат, складывается и затем делится на количество значений в данной совокупности. Разница между отдельным значением и средней отражает меру отклонения. В квадрат возводится для того, чтобы все отклонения стали исключительно положительными числами и чтобы избежать взаимоуничтожения положительных и отрицательных отклонений при их суммировании. Затем, имея квадраты отклонений, просто рассчитываем среднюю арифметическую. Средний – квадрат – отклонений. Отклонения возводятся в квадрат, и считается средняя. Теперь вы знаете, как найти дисперсию.
Генеральную и выборочную дисперсии легко рассчитать в Excel. Есть специальные функции: ДИСП.Г и ДИСП.В соответственно.
В чистом виде дисперсия не используется. Это вспомогательный показатель, который нужен в других расчетах. Например, в проверке статистических гипотез или расчете коэффициентов корреляции. Отсюда неплохо бы знать математические свойства дисперсии.
Свойства дисперсии
Свойство 1. Дисперсия постоянной величины A равна 0 (нулю).
D(A) = 0
Свойство 2. Если случайную величину умножить на постоянную А, то дисперсия этой случайной величины увеличится в А2 раз. Другими словами, постоянный множитель можно вынести за знак дисперсии, возведя его в квадрат.
D(AX) = А2 D(X)
Свойство 3. Если к случайной величине добавить (или отнять) постоянную А, то дисперсия останется неизменной.
D(A + X) = D(X)
Свойство 4. Если случайные величины X и Y независимы, то дисперсия их суммы равна сумме их дисперсий.
D(X+Y) = D(X) + D(Y)
Свойство 5. Если случайные величины X и Y независимы, то дисперсия их разницы также равна сумме дисперсий.
D(X-Y) = D(X) + D(Y)
Среднеквадратичное (стандартное) отклонение
Если из дисперсии извлечь квадратный корень, получится среднеквадратичное (стандартное) отклонение (сокращенно СКО). Встречается название среднее квадратичное отклонение и сигма (от названия греческой буквы). Общая формула стандартного отклонения в математике следующая:
На практике формула стандартного отклонения следующая:
Как и с дисперсией, есть и немного другой вариант расчета. Но с ростом выборки разница исчезает.
Расчет cреднеквадратичного (стандартного) отклонения в Excel
Для расчета стандартного отклонения достаточно из дисперсии извлечь квадратный корень. Но в Excel есть и готовые функции: СТАНДОТКЛОН.Г и СТАНДОТКЛОН.В (по генеральной и выборочной совокупности соответственно).
Среднеквадратичное отклонение имеет те же единицы измерения, что и анализируемый показатель, поэтому является сопоставимым с исходными данными.
Коэффициент вариации
Значение стандартного отклонения зависит от масштаба самих данных, что не позволяет сравнивать вариабельность разных выборках. Чтобы устранить влияние масштаба, необходимо рассчитать коэффициент вариации по формуле:
По нему можно сравнивать однородность явлений даже с разным масштабом данных. В статистике принято, что, если значение коэффициента вариации менее 33%, то совокупность считается однородной, если больше 33%, то – неоднородной. В реальности, если коэффициент вариации превышает 33%, то специально ничего делать по этому поводу не нужно. Это информация для общего представления. В общем коэффициент вариации используют для оценки относительного разброса данных в выборке.
Расчет коэффициента вариации в Excel
Расчет коэффициента вариации в Excel также производится делением стандартного отклонения на среднее арифметическое:
=СТАНДОТКЛОН.В()/СРЗНАЧ()
Коэффициент вариации обычно выражается в процентах, поэтому ячейке с формулой можно присвоить процентный формат:
Коэффициент осцилляции
Еще один показатель разброса данных на сегодня – коэффициент осцилляции. Это соотношение размаха вариации (разницы между максимальным и минимальным значением) к средней. Готовой формулы Excel нет, поэтому придется скомпоновать три функции: МАКС, МИН, СРЗНАЧ.
Коэффициент осцилляции показывает степень размаха вариации относительно средней, что также можно использовать для сравнения различных наборов данных.
Таким образом, в статистическом анализе существует система показателей, отражающих разброс или однородность данных.
Ниже видео о том, как посчитать коэффициент вариации, дисперсию, стандартное (среднеквадратичное) отклонение и другие показатели вариации в Excel.
Поделиться в социальных сетях:
Расчет среднего квадратичного отклонения в Microsoft Excel
Одним из основных инструментов статистического анализа является расчет среднего квадратичного отклонения. Данный показатель позволяет сделать оценку стандартного отклонения по выборке или по генеральной совокупности. Давайте узнаем, как использовать формулу определения среднеквадратичного отклонения в Excel.
Определение среднего квадратичного отклонения
Сразу определим, что же представляет собой среднеквадратичное отклонение и как выглядит его формула. Эта величина является корнем квадратным из среднего арифметического числа квадратов разности всех величин ряда и их среднего арифметического. Существует тождественное наименование данного показателя — стандартное отклонение. Оба названия полностью равнозначны.
Но, естественно, что в Экселе пользователю не приходится это высчитывать, так как за него все делает программа. Давайте узнаем, как посчитать стандартное отклонение в Excel.
Расчет в Excel
Рассчитать указанную величину в Экселе можно с помощью двух специальных функций СТАНДОТКЛОН.В (по выборочной совокупности) и СТАНДОТКЛОН.Г (по генеральной совокупности). Принцип их действия абсолютно одинаков, но вызвать их можно тремя способами, о которых мы поговорим ниже.
Способ 1: мастер функций
- Выделяем на листе ячейку, куда будет выводиться готовый результат. Кликаем на кнопку «Вставить функцию», расположенную слева от строки функций.
В открывшемся списке ищем запись СТАНДОТКЛОН.В или СТАНДОТКЛОН.Г. В списке имеется также функция СТАНДОТКЛОН, но она оставлена из предыдущих версий Excel в целях совместимости. После того, как запись выбрана, жмем на кнопку «OK».
Способ 2: вкладка «Формулы»
Также рассчитать значение среднеквадратичного отклонения можно через вкладку «Формулы».
-
Выделяем ячейку для вывода результата и переходим во вкладку «Формулы».
Способ 3: ручной ввод формулы
Существует также способ, при котором вообще не нужно будет вызывать окно аргументов. Для этого следует ввести формулу вручную.
-
Выделяем ячейку для вывода результата и прописываем в ней или в строке формул выражение по следующему шаблону:
=СТАНДОТКЛОН.Г(число1(адрес_ячейки1); число2(адрес_ячейки2);…)
или
=СТАНДОТКЛОН.В(число1(адрес_ячейки1); число2(адрес_ячейки2);…).
Всего можно записать при необходимости до 255 аргументов.
Как видим, механизм расчета среднеквадратичного отклонения в Excel очень простой. Пользователю нужно только ввести числа из совокупности или ссылки на ячейки, которые их содержат. Все расчеты выполняет сама программа. Намного сложнее осознать, что же собой представляет рассчитываемый показатель и как результаты расчета можно применить на практике. Но постижение этого уже относится больше к сфере статистики, чем к обучению работе с программным обеспечением.
Отблагодарите автора, поделитесь статьей в социальных сетях.
Разбираем формулы среднеквадратического отклонения и дисперсии в Excel
Цель данной статьи показать, как математические формулы, с которыми вы можете столкнуться в книгах и статьях, разложить на элементарные функции в Excel.
В данной статье мы разберем формулы среднеквадратического отклонения и дисперсии и рассчитаем их в Excel.
Перед тем как переходить к расчету среднеквадратического отклонения и разбирать формулу, желательно разобраться в элементарных статистических показателях и обозначениях.
Рассматривая формулы моделей прогнозирования, мы встретимся со следующими показателями:
Например, у нас есть временной ряд — продажи по неделям в шт.
Для этого временного ряда i=1, n=10 , ,
Рассмотрим формулу среднего значения:
Для нашего временного ряда определим среднее значение
Также для выявления тенденций помимо среднего значения представляет интерес и то, насколько наблюдения разбросаны относительно среднего. Среднеквадратическое отклонение показывает меру отклонения наблюдений относительно среднего.
Формула расчета среднеквадратического отклонение для выборки следующая:
Разложим формулу на составные части и рассчитаем среднеквадратическое отклонение в Excel на примере нашего временного ряда.
1. Рассчитаем среднее значение для этого воспользуемся формулой Excel =СРЗНАЧ(B11:K11)
= СРЗНАЧ(ссылка на диапазон) = 100/10=10
2. Определим отклонение каждого значения ряда относительно среднего
для первой недели = 6-10=-4
для второй недели = 10-10=0
для третей = 7-1=-3 и т.д.
3. Для каждого значения ряда определим квадрат разницы отклонения значений ряда относительно среднего
для первой недели = (-4)^2=16
для второй недели = 0^2=0
для третей = (-3)^2=9 и т.д.
4. Рассчитаем сумму квадратов отклонений значений относительно среднего с помощью формулы =СУММ(ссылка на диапазон (ссылка на диапазон с
)
=16+0+9+4+16+16+4+9+0+16=90
5. , для этого сумму квадратов отклонений значений относительно среднего разделим на количество значений минус единица (Сумма((Xi-Xср)^2))/(n-1)
= 90/(10-1)=10
6. Среднеквадратическое отклонение равно = корень(10)=3,2
Итак, в 6 шагов мы разложили сложную математическую формулу, надеюсь вам удалось разобраться со всеми частями формулы и вы сможете самостоятельно разобраться в других формулах.
Рассмотрим еще один показатель, который в будущем нам понадобятся — дисперсия.
Как рассчитать дисперсию в Excel?
Дисперсия — квадрат среднеквадратического отклонения и отражает разброс данных относительно среднего.
Рассчитаем дисперсию:
Итак, теперь мы умеем рассчитывать среднеквадратическое отклонение и дисперсию в Excel. Надеемся, полученные знания пригодятся вам в работе.
Точных вам прогнозов!
Присоединяйтесь к нам!
Скачивайте бесплатные приложения для прогнозирования и бизнес-анализа:
- Novo Forecast Lite — автоматический расчет прогноза в Excel .
- 4analytics — ABC-XYZ-анализ и анализ выбросов в Excel.
- Qlik Sense Desktop и QlikView Personal Edition — BI-системы для анализа и визуализации данных.
Тестируйте возможности платных решений:
- Novo Forecast PRO — прогнозирование в Excel для больших массивов данных.
Получите 10 рекомендаций по повышению точности прогнозов до 90% и выше.
Как найти среднее арифметическое число в Excel
Для того чтобы найти среднее значение в Excel (при том неважно числовое, текстовое, процентное или другое значение) существует много функций. И каждая из них обладает своими особенностями и преимуществами. Ведь в данной задаче могут быть поставлены определенные условия.
Например, средние значения ряда чисел в Excel считают с помощью статистических функций. Можно также вручную ввести собственную формулу. Рассмотрим различные варианты.
Как найти среднее арифметическое чисел?
Чтобы найти среднее арифметическое, необходимо сложить все числа в наборе и разделить сумму на количество. Например, оценки школьника по информатике: 3, 4, 3, 5, 5. Что выходит за четверть: 4. Мы нашли среднее арифметическое по формуле: =(3+4+3+5+5)/5.
Как это быстро сделать с помощью функций Excel? Возьмем для примера ряд случайных чисел в строке:
- Ставим курсор в ячейку А2 (под набором чисел). В главном меню – инструмент «Редактирование» — кнопка «Сумма». Выбираем опцию «Среднее». После нажатия в активной ячейке появляется формула. Выделяем диапазон: A1:H1 и нажимаем ВВОД.
- В основе второго метода тот же принцип нахождения среднего арифметического. Но функцию СРЗНАЧ мы вызовем по-другому. С помощью мастера функций (кнопка fx или комбинация клавиш SHIFT+F3).
- Третий способ вызова функции СРЗНАЧ из панели: «Формула»-«Формула»-«Другие функции»-«Статические»-«СРЗНАЧ».
Или: сделаем активной ячейку и просто вручную впишем формулу: =СРЗНАЧ(A1:A8).
Теперь посмотрим, что еще умеет функция СРЗНАЧ.
Найдем среднее арифметическое двух первых и трех последних чисел. Формула: =СРЗНАЧ(A1:B1;F1:H1). Результат:
Среднее значение по условию
Условием для нахождения среднего арифметического может быть числовой критерий или текстовый. Будем использовать функцию: =СРЗНАЧЕСЛИ().
Найти среднее арифметическое чисел, которые больше или равны 10.
Результат использования функции СРЗНАЧЕСЛИ по условию «>=10»:
Третий аргумент – «Диапазон усреднения» — опущен. Во-первых, он не обязателен. Во-вторых, анализируемый программой диапазон содержит ТОЛЬКО числовые значения. В ячейках, указанных в первом аргументе, и будет производиться поиск по прописанному во втором аргументе условию.
Внимание! Критерий поиска можно указать в ячейке. А в формуле сделать на нее ссылку.
Найдем среднее значение чисел по текстовому критерию. Например, средние продажи товара «столы».
Функция будет выглядеть так: =СРЗНАЧЕСЛИ($A$2:$A$12;A7;$B$2:$B$12). Диапазон – столбец с наименованиями товаров. Критерий поиска – ссылка на ячейку со словом «столы» (можно вместо ссылки A7 вставить само слово «столы»). Диапазон усреднения – те ячейки, из которых будут браться данные для расчета среднего значения.
В результате вычисления функции получаем следующее значение:
Внимание! Для текстового критерия (условия) диапазон усреднения указывать обязательно.
Как посчитать средневзвешенную цену в Excel?
Как посчитать средний процент в Excel? Для этой цели подойдут функции СУММПРОИЗВ и СУММ. Таблица для примера:
Как мы узнали средневзвешенную цену?
С помощью формулы СУММПРОИЗВ мы узнаем общую выручку после реализации всего количества товара. А функция СУММ — сумирует количесвто товара. Поделив общую выручку от реализации товара на общее количество единиц товара, мы нашли средневзвешенную цену. Этот показатель учитывает «вес» каждой цены. Ее долю в общей массе значений.
Среднее квадратическое отклонение: формула в Excel
Различают среднеквадратическое отклонение по генеральной совокупности и по выборке. В первом случае это корень из генеральной дисперсии. Во втором – из выборочной дисперсии.
Для расчета этого статистического показателя составляется формула дисперсии. Из нее извлекается корень. Но в Excel существует готовая функция для нахождения среднеквадратического отклонения.
Среднеквадратическое отклонение имеет привязку к масштабу исходных данных. Для образного представления о вариации анализируемого диапазона этого недостаточно. Чтобы получить относительный уровень разброса данных, рассчитывается коэффициент вариации:
среднеквадратическое отклонение / среднее арифметическое значение
Формула в Excel выглядит следующим образом:
СТАНДОТКЛОНП (диапазон значений) / СРЗНАЧ (диапазон значений).
Коэффициент вариации считается в процентах. Поэтому в ячейке устанавливаем процентный формат.
Как рассчитать коэффициент вариации в Эксель
Microsoft Excel позволяет максимально упростить пользователю ряд задач. С помощью данной утилиты можно в одно мгновение производить сложнейшие расчеты, применяя исходные данные. Сегодня мы поговорим о том, как использовать коэффициент вариации в Excel.
Коэффициент вариации показывает отношение стандартного отклонения к среднему арифметическому, а результат отображается в процентах.
Шаг 1. Расчет стандартного отклонения
Данный инструмент также называют среднеквадратичным отклонением, которое представляет собой квадратный корень из дисперсии. Чтобы рассчитать стандартное отклонение, применяется функция СТАНДОТКЛОН. В последних версиях Excel она разделена на две части, в зависимости от того, как происходит вычисление: СТАНДОТКЛОН.Г(по генеральной совокупности), СТАНДОТКЛОН.В(по выборке). Записываются функции следующим образом:
= СТАНДОТКЛОН(Число1;Число2;…) — Для старой версии
= СТАНДОТКЛОН.В(Число1;Число2;…) — Для новой версии соответственно.
1. Чтобы начать расчет стандартного отклонения, выделите подходящую ячейку и нажмите кнопку «Вставить функцию», расположенную в верхней панели инструментов.
2. Откроется окно мастера функций. Перейдите в категорию «Статистические», затем выберите строку с названием «СТАНДОТКЛОН»(СТАНДОТКЛОН .В или .Г соответственно). Нажмите «ОК».
3. В открывшемся окне аргументов необходимо указать диапазон ячеек, с которыми будет производиться расчет. Также можно ввести конкретные числа. После указания параметров нажмите кнопку «ОК».
4. В ранее выделенной ячейке отобразится итоговый расчет стандартного отклонения.
Шаг 2. Расчет среднего арифметического
Среднее арифметическое отражает общую сумму значений числового ряда, поделенных на их количество. Для этого используем функцию СРЗНАЧ.
1. Выделите нужную ячейку для отображения конечного результата, затем воспользуйтесь кнопкой «Вставить функцию».
2. Перейдите в категорию «Статистические» и выберите поле с наименованием «СРЗНАЧ», после этого нажмите «ОК».
4. В раннее выбранной ячейке выведется результат вычислений среднего арифметического.
Шаг 3. Нахождение коэффициента вариации
Мы получили все предварительные данных для конечных вычислений, поэтому приступаем к последнему шагу, а именно к расчету коэффициента вариации.
1. Выделите ячейку для конечного результата, затем поменяйте формат ячейки на процентный. Сделать это можно во вкладке «Главная», кликнув по полю формата и выбрав соответствующий.
2. Снова вернитесь к ранее выбранной ячейке и выделите ее двойным щелчком левой кнопки мыши. Поставьте в ней знак «=», затем выделите ячейку с результатом вычислений стандартного отклонения. Теперь нажмите кнопку «/»(разделить) на клавиатуре и выберите ячейку со средним арифметическим. После ввода данных нажмите клавишу Enter.
3. Результат будет автоматически выведен на экран.
Также существует способ рассчитать коэффициент вариации без предварительных шагов, который мы рассмотрим ниже:
1. Аналогично выделите ячейку, затем придайте ей процентный формат. Впишите в нее следующую формулу:
«Диапазон значений» указывает с исходными данными. Можете указать его вручную, либо просто выделив нужный диапазон ячеек. Вместо оператора СТАНДОТКЛОН также можно ввести СТАНДОТКЛОН .В или СТАНДОТКЛОН .Г соответственно(для новых версий Excel).
2. После занесения всех параметров нажмите клавишу Enter, чтобы получить конечный результат.
С помощью Excel мы смогли максимально упростить выполнение сложных расчетов. Для этого нам понадобилось лишь грамотное использование встроенных инструментов приложения. Как видите, пока не существует способа рассчитать коэффициент вариации в одно действие, поэтому мы воспользовались обходными путями. Надеемся, вам помогла наша статья.
Как посчитать среднее квадратичное отклонение в Excel (расчет)
На листе Excel нужно выделить ячейку, в которой появится готовый результат. Нажимаете на «Вставить функцию», которая находится слева от строки функций.
Появится список, в котором нужно найти и выбрать СТАНДОТКЛОН.В или СТАНДОТКЛОН.Г, и нажать ОК.
Перед вами появится окно аргументов функций. В каждой строке следует ввести число совокупности. Если числа расположены в ячейках листа, тогда можно указать их координаты или просто нажать на них. Адреса должны сразу показаться в соответствующих полях. Кликаете на ОК.
Расчет занесется в ячейку, которую выделили в самом начале процедуры поиска среднего квадратичного отклонения.
Следует выделить ячейку для занесения результата расчета. Захотите во вкладку «Формулы.
В блоке инструментов «Библиотека функций» нажимаете на «Другие функции», а в списке, который появится, выбираете «Статистические». Дальше необходимо определиться со значениями СТАНДОТКЛОН.В или СТАНДОТКЛОН.Г (будет зависеть от того, выборочная или генеральная совокупность будет принимать участие в расчетах).
Затем запускается окно аргументов. Все дальнейшие действия будут производиться также как написано в первом методе выше.
Ручной ввод формулы
Выделяете ячейку, в которую будет выводиться результат. Далее прописываете в ней или в строке формул выражение по такому шаблону — =СТАНДОТКЛОН.Г(число1(адрес_ячейки1); число2(адрес_ячейки2);…)или =СТАНДОТКЛОН.В(число1(адрес_ячейки1); число2(адрес_ячейки2);…). Если нужно, то можно записать максимально 255 аргументов.
Когда запись будет совершена, следует кликнуть Enter на клавиатуре.