Стандартное отклонение |
СТАНДОТКЛОН(число1;число2;…) |
Sx = Sx2
Сумма квадратов отклонений |
КВАДРОТКЛ(число1;число2;…) |
||
n |
|||
∑(xi − x )2 |
|||
i=1 |
|||
Коэффициент корреляции |
КОРРЕЛ(массив1;массив2) |
||
n |
|||
rx, y = |
∑(xi − x )( yi − y) |
||
i=1 |
|||
n |
n |
||
∑(xi − x )2 ∑( yi − y)2 |
|||
i=1 |
i=1 |
||
t-критерий Стьюдента для про- |
СТЬЮДРАСПОБР(вероятность; |
||
верки значимости коэффициента |
степени_свободы) |
||
корреляции |
r2 |
||
tнабл = |
y, x |
(n − 2) |
1− r2 |
||
y, x |
Матрица |
коэффициентов |
пар- |
Обращение |
к средствам анализа |
||||||||
ной корреляции |
данных. Для вычисления матрицы ко- |
|||||||||||
ryx |
ryx |
эффициентов |
парной корреляции R |
|||||||||
1 |
ryx |
… |
следует воспользоваться инструментом |
|||||||||
ryx |
1 |
2 |
… |
m |
Корреляция из пакета Анализ дан- |
|||||||
1 |
rx x |
rx x |
||||||||||
1 |
rx1 x2 |
1 |
2 |
1 |
m |
ных |
||||||
R = |
ryx2 |
1 … |
rx2 xm |
|||||||||
… |
… … |
… |
||||||||||
… |
||||||||||||
r |
yxm |
r |
r |
… |
1 |
|||||||
x1 xm |
x2 xm |
Оценивает стандартно отклонение по выборке Стандартное отклонение это мера того, наскольк широко разбросаны точк данных относительно и среднего
Возвращает сумму квад ратов отклонений точе данных от их среднего
Возвращает коэффициен корреляции между интер валами ячеек массив1
массив2
Вычисленное по этой формуле значение tнабл сравнивается с критическим значением t— критерия, которое берется из таблицы значений t— распределения Стьюдента с учетом заданного уровня значимости и числа степеней свободы (n – 2) или определяется с помощью функции СТЬЮДРАСПОБР( ) Инструмент Корреляци применяется, если имеет ся более двух переменны измерений для каждог объекта. В результате вы дается таблица – корреля ционная матрица, показы вающая значение функ ции КОРРЕЛ( ) для каж дой возможной пары пе ременных измерений Любое значение коэффи циента корреляции долж но находиться в диапазо не от –1 до +1 включи тельно
Формулы, используемые при регрессионном анализе
Формула для вычислений |
Функция или инструмент Анализа |
Результат вычисле |
13 |
14
данных в Excel |
ний /Примечания |
||||||||||||||||||||||
Оценка параметров модели пар- |
Для вычисления параметров уравнения |
Возвращает |
подро |
||||||||||||||||||||
ной |
и множественной линейной |
регрессии следует воспользоваться инст- |
ную |
информацию |
|||||||||||||||||||
регрессии |
′ |
рументом Регрессия из пакета Анализ |
параметрах |
модел |
|||||||||||||||||||
′ |
−1 |
данных |
качестве |
модели, |
ра |
||||||||||||||||||
A = ( X X ) |
X Y |
четных |
значениях |
||||||||||||||||||||
остатках в виде чет |
|||||||||||||||||||||||
рех |
таблиц: |
Регресс |
|||||||||||||||||||||
онная |
статистик |
||||||||||||||||||||||
Дисперсионный анал |
|||||||||||||||||||||||
Коэффициенты, |
В |
||||||||||||||||||||||
вод остатка. |
|||||||||||||||||||||||
Также могут быть п |
|||||||||||||||||||||||
лучены график подб |
|||||||||||||||||||||||
ра и график остатко |
|||||||||||||||||||||||
Оценка качества модели регрессии |
|||||||||||||||||||||||
F-критерий Фишера для провер- |
=FРАСПОБР(вероятность;степени_ |
Возвращает |
обратн |
||||||||||||||||||||
ки значимости модели регрессии |
свободы1;степени_свободы2) |
значение |
для |
||||||||||||||||||||
вероятность – это вероятность, связан- |
распределения |
вероя |
|||||||||||||||||||||
R |
2 |
ностей. |
|||||||||||||||||||||
k |
ная с F-распределением |
FРАСПОБР( ) мож |
|||||||||||||||||||||
F = (1 − R2 )/(n − k −1) |
степени_свободы 1 – это числитель |
использовать, чтобы о |
|||||||||||||||||||||
ределить |
критическ |
||||||||||||||||||||||
степеней свободы (ν1 = k) |
значения |
||||||||||||||||||||||
распределения. |
|||||||||||||||||||||||
степени_свободы 2 – это знаменатель |
Чтобы |
определить |
кр |
||||||||||||||||||||
степеней свободы (ν2 = (n – k – 1), |
тическое |
значение |
|||||||||||||||||||||
где k – количество факторов, включен- |
нужно |
использова |
|||||||||||||||||||||
ных в модель) |
уровень |
значимости |
|||||||||||||||||||||
как |
аргумент |
вероя |
|||||||||||||||||||||
ность |
для FРАСПОБ |
||||||||||||||||||||||
). |
|||||||||||||||||||||||
Коэффициент детерминации |
Коэффициент детерминации |
показывает долю вари |
|||||||||||||||||||||
n |
n |
ции результативного признака, находящегося под воз |
|||||||||||||||||||||
∑( yˆi − y)2 |
∑ei2 |
действием изучаемых факторов, то есть определяет, |
|||||||||||||||||||||
R2 |
= |
i=1 |
=1− |
i=1 |
какая доля вариации признака Y учтена в модели и |
||||||||||||||||||
n |
n |
||||||||||||||||||||||
∑( yi − y) |
2 |
∑ |
( yi − y) |
2 |
обусловлена влиянием на него факторов. |
||||||||||||||||||
Чем ближе R2 к 1, тем выше качество модели |
|||||||||||||||||||||||
i=1 |
i=1 |
||||||||||||||||||||||
Коэффициент множественной корреляции |
Данный коэффициент является универсальным, так к |
||||||||||||||||||||||
(индекс корреляции) R |
он отражает тесноту связи и точность модели, а также |
||||||||||||||||||||||
может использоваться при любой форме связи пере- |
|||||||||||||||||||||||
n |
n |
менных. |
|||||||||||||||||||||
R = |
1− |
∑ei |
2 |
= |
∑( yˆi − y)2 |
Чем ближе R к 1, тем выше качество модели |
|||||||||||||||||
i=1 |
i=1 |
||||||||||||||||||||||
n |
n |
||||||||||||||||||||||
∑( yi − y)2 |
∑( yi − y)2 |
||||||||||||||||||||||
i=1 |
i=1 |
||||||||||||||||||||||
t-критерий Стьюдента для оценки значимости |
Вычисленное значение taj сравнивается с критически |
||||||||||||||||||||||
параметров модели линейной регрессии: |
значением t-критерия, которое берется из таблицы зн |
||||||||||||||||||||||
taj = aˆ j /σaj |
чений t-распределения Стьюдента с учетом заданного |
||||||||||||||||||||||||||||
уровня значимости и числа степеней свободы (n – k – |
|||||||||||||||||||||||||||||
1). В Excel критическое значение t-критерия можно п |
|||||||||||||||||||||||||||||
лучить с помощью функции |
|||||||||||||||||||||||||||||
СТЬЮДРАСПОБР(вероятность; степени_свободы |
|||||||||||||||||||||||||||||
вероятность – вероятность, соответствующая двусто |
|||||||||||||||||||||||||||||
роннему распределению Стьюдента |
|||||||||||||||||||||||||||||
степени_свободы – число степеней свободы, характе |
|||||||||||||||||||||||||||||
ризующее распределение |
|||||||||||||||||||||||||||||
Средняя относительная ошибка аппрокси- |
Средняя относительная ошибка аппроксимации – |
||||||||||||||||||||||||||||
мации |
ei |
оценка точности модели |
|||||||||||||||||||||||||||
1 |
n |
||||||||||||||||||||||||||||
Eотн = |
∑ |
×100% |
|||||||||||||||||||||||||||
n |
|||||||||||||||||||||||||||||
i=1 y i |
|||||||||||||||||||||||||||||
Оценка влияния отдельных факторов на зависимую переменную на основе модели |
|||||||||||||||||||||||||||||
Коэффициенты эластичности |
Коэффициент эластичности показывает, на сколь |
||||||||||||||||||||||||||||
Эj = a j |
x |
j |
процентов изменится значение исследуемой величин |
||||||||||||||||||||||||||
при изменении соответствующего фактора на 1% |
|||||||||||||||||||||||||||||
y |
|||||||||||||||||||||||||||||
Бета-коэффициенты |
S x j |
Бета-коэффициент показывает, на какую часть свое |
|||||||||||||||||||||||||||
β j = |
aˆ j |
СКО изменится значение исследуемой переменной п |
|||||||||||||||||||||||||||
изменении соответствующего фактора на 1 СКО |
|||||||||||||||||||||||||||||
S y |
|||||||||||||||||||||||||||||
Дельта-коэффициенты |
Дельта-коэффициент показывает среднюю долю вли |
||||||||||||||||||||||||||||
j = ry,x j |
β j / R2 |
ния соответствующего фактора в совокупном влиян |
|||||||||||||||||||||||||||
всех факторов, включенных в модель |
|||||||||||||||||||||||||||||
Построение интервальных прогнозов по модели регрессии |
|||||||||||||||||||||||||||||
U ( X |
) = σ |
t 1+ X T |
( X T X )−1 |
X |
прогн – ошибка прогнозирования, которая позволяет опр |
||||||||||||||||||||||||
прогн |
e |
α |
прогн |
||||||||||||||||||||||||||
делить доверительный интервал прогноза, |
|||||||||||||||||||||||||||||
где |
– стандартная ошибка модели |
||||||||||||||||||||||||||||
Регрессионная статистика в отчете Excel |
|||||||||||||||||||||||||||||
Наименование в |
Принятое наименование |
Формула |
|||||||||||||||||||||||||||
отчете Excel |
|||||||||||||||||||||||||||||
Множественный R |
Коэффициент множественной корре- |
R = |
R2 |
||||||||||||||||||||||||||
ляции, индекс корреляции |
|||||||||||||||||||||||||||||
R-квадрат |
Коэффициент детерминации, R2 |
n |
n |
||||||||||||||||||||||||||
R2 = |
∑( yˆi − y)2 |
=1− |
∑ei2 |
||||||||||||||||||||||||||
i=1 |
i=1 |
||||||||||||||||||||||||||||
n |
n |
||||||||||||||||||||||||||||
∑( yi − y)2 |
∑( yi − y)2 |
||||||||||||||||||||||||||||
i=1 |
i=1 |
||||||||||||||||||||||||||||
15 |
Нормированный R— |
Скорректированный R2 |
2 |
2 |
n −1 |
|||||||
= 1 |
− |
(1 − R |
)n − k −1 |
||||||||
квадрат |
R |
||||||||||
Стандартная ошибка |
Среднеквадратическое отклонение от |
σe |
= ∑ei2 /(n −k −1) = |
||||||||
модели |
= |
ESS /(n −k −1) |
|||||||||
Дисперсионный анализ в отчете Excel
Наименование |
Df – число |
SS – сумма |
MS – дисперсия |
|||||||
в отчете Excel |
степеней |
квадратов |
на одну степень |
|||||||
свободы |
свободы |
|||||||||
Регрессия |
k |
RSS = |
∑( yi |
y ) |
2 |
/ k |
||||
∑( yˆi − y )2 |
ˆ |
− |
= |
|||||||
= RSS / k |
||||||||||
Остаток |
n – k –1 |
2 |
2 |
|||||||
ESS = ∑ei |
∑ei /(n − k |
−1) = |
||||||||
= ESS /(n − k −1) |
||||||||||
Итого |
n – 1 |
TSS = ∑( yi |
− y ) |
2 |
||||||
F-критерий Фишера
R2 |
|||
F = |
k |
||
1− R2 |
) |
/ (n − k −1) |
|
( |
Названия некоторых функций в Excel 2010 были изменены по сравнению с более ранними версиями.
Чтобы повысить точность работы функций MS Excel, обеспечить их согласованность и привести имена функций в соответствии с их назначением, корпорация Microsoft изменила, переименовала и добавила несколько функций в библиотеку MS Excel 2010.
Для обеспечения обратной совместимости переименованные функции доступны также и по их старым именам.
Название функции в Excel более |
Название функции в Excel 2010 |
Примечания |
|
ранних версий |
|||
ДИСП(число1,[число2],…]) |
ДИСП.В(число1,[число2],…]) |
Оценивает дисперсию |
|
по выборке |
|||
СТЬЮДРАСПОБР(вероятность; |
СТЬДЕНТ.ОБР.2Х(вероятность, |
Возвращает двусто- |
|
степени_свободы) |
степени_свободы) |
роннее обратное t— |
|
распределение Стью- |
|||
дента |
|||
FРАСПОБР(вероятность;степени_ |
F.ОБР.ПХ(вероятность,степени_с |
Возвращает значение, |
|
свободы1;степени_свободы2) |
вободы1, степени_свободы2) |
обратное (правосто- |
|
роннему) F— |
|||
распределению веро- |
|||
ятностей |
|||
ХИ2ОБР(вероятность,степени_ |
ХИ2.ОБР.ПХ(вероятность,степен |
Возвращает обратное |
|
свободы) |
и_свободы) |
значение односторон- |
|
ней вероятности рас- |
|||
пределения хи-квадрат |
|||
16 |
4. Комплексный пример исследования экономических данных с ис пользованием корреляционнорегрессионного анализа
На основе статистических данных за 16 месяцев, приведенных в табл. 1, проведите корреляционно-регрессионный анализ с целью прогнозирования объема реализации продукции фирмы на два месяца вперед.
Таблица 1. Исходные данные
Y |
Х1 |
X2 |
X3 |
X4 |
X5 |
|
Объем реализа- |
Затраты на |
Средняя цена |
Индекс потре- |
|||
Время |
Цена товара |
товара у кон- |
бительских рас- |
|||
ции |
рекламу |
|||||
курентов |
ходов |
|||||
126 |
1 |
4,0 |
15,0 |
17,0 |
100,0 |
|
137 |
2 |
4,8 |
14,8 |
17,3 |
98,4 |
|
148 |
3 |
3,8 |
15,2 |
16,8 |
101,2 |
|
191 |
4 |
8,7 |
15,5 |
16,2 |
103,5 |
|
274 |
5 |
8,2 |
15,5 |
16,0 |
104,1 |
|
370 |
6 |
9,7 |
16,0 |
18,0 |
107,0 |
|
432 |
7 |
14,7 |
18,1 |
20,2 |
107,4 |
|
445 |
8 |
18,7 |
13,0 |
15,8 |
108,5 |
|
367 |
9 |
19,8 |
15,8 |
18,2 |
108,3 |
|
367 |
10 |
10,6 |
16,9 |
16,8 |
109,2 |
|
321 |
11 |
8,6 |
16,3 |
17,0 |
110,1 |
|
307 |
12 |
6,5 |
16,1 |
18,3 |
110,7 |
|
331 |
13 |
12,6 |
15,4 |
16,4 |
110,3 |
|
345 |
14 |
6,5 |
15,7 |
16,2 |
111,8 |
|
364 |
15 |
5,8 |
16,0 |
17,7 |
112,3 |
|
384 |
16 |
5,7 |
15,1 |
16,2 |
112,9 |
? 1. Осуществите двумя способами выбор факторных признаков для построения регрессионной модели:
а) на основе анализа матрицы коэффициентов парной корреляции с проверкой гипотезы о независимости объясняющих переменных (тест на выявление мультиколлинеарности Фаррара–Глоубера);
б) с помощью пошагового отбора методом исключения.
2.Оцените параметры модели. Дайте экономическую интерпретацию коэффициентов регрессии.
3.Для оценки качества модели определите:
а) коэффициент детерминации; б) коэффициент множественной корреляции;
в) среднюю относительную ошибку аппроксимации.
17
4. Проведите оценку значимости уравнения регрессии и его коэффициен-
тов.
5.По диаграммам остатков определите ту объясняющую переменную, от которой может зависеть дисперсия случайных возмущений. Проверьте выполнение условия гомоскедастичности остатков по тесту Голдфельда – Квандта.
6.Оцените по модели влияние факторов на зависимую переменную.
7.Постройте точечный и интервальный прогнозы результирующего показателя на два месяца вперед (α = 0,1).
Ре ш е н и е .
Содержательная интерпретация конечной цели задачи – прогнозирования объема продаж:
прогноз объема продаж – это предсказание будущего спроса, выраженное в денежных единицах или единицах продаваемого товара; в более узком смысле – это процесс определения объема реализации товара или группы товаров на несколько ближайших периодов времени.
1. Выбор факторных признаков для построения регрессионной модели
Корреляционный анализ данных
Объем реализации – это зависимая переменная Y (тыс. руб.).
Вкачестве независимых, объясняющих переменных выбраны:
X1 – время, дни;
X2 – затраты на рекламу, тыс. руб.; X3 – цена товара, руб.;
X4 – средняя цена товара у конкурентов, руб.; X5 – индекс потребительских расходов, %.
Вэтом примере количество наблюдений n = 16, количество объясняющих переменных m = 5.
Для проведения корреляционного анализа используем инструмент Кор-
реляция (надстройка Анализ данных Excel).
Врезультате будет получена матрица коэффициентов парной корреляции
(табл. 2).
Таблица 2. Результат корреляционного анализа
Сред- |
||||||
Объем реа- |
Затра- |
Цена |
няя це- |
Индекс потре- |
||
Время |
ты на |
на то- |
бительских |
|||
лизации |
рекла- |
товара |
вара у |
|||
расходов |
||||||
му |
конку- |
|||||
рентов |
||||||
Объем реализа- |
1 |
|||||
ции |
||||||
18
Время |
0,678 |
1 |
||||
Затраты на рек- |
0,646 |
0,106 |
1 |
|||
ламу |
||||||
Цена товара |
0,233 |
0,174 |
–0,003 |
1 |
||
Средняя цена |
||||||
товара у конку- |
0,226 |
–0,051 |
0,204 |
0,698 |
1 |
|
рентов |
||||||
Индекс потреби- |
||||||
тельских расхо- |
0,816 |
0,960 |
0,273 |
0,235 |
0,03 |
1 |
дов |
Анализ матрицы коэффициентов парной корреляции начнем с анализа первого столбца матрицы, в котором расположены коэффициенты корреляции, отражающие тесноту связи зависимой переменной Объем реализации с включенными в анализ факторами. Анализ показывает, что зависимая переменная, то есть объем реализации, имеет тесную связь с индексом потребительских расходов (ryx5 = 0,816), с затратами на рекламу (ryx2 = 0,646) и временем (ryx1 = 0,678). Факторы Х3 и Х4 имеют слабую связь с зависимой переменной и их не рекомендуется включать в модель регрессии.
Затем перейдем к анализу остальных столбцов матрицы с целью выявления коллинеарности. Факторы Х1 и Х5 тесно связаны между собой ( rx1x5 = 0,960),
что свидетельствует о наличии коллинеарности. Из этих двух переменных оставим Х5 – индекс потребительских расходов, так как rx1y = 0,678 < rx5y = 0,816.
Таким образом, на основе анализа только корреляционной матрицы оста-
ются два фактора – Затраты на рекламу и Индекс потребительских расходов
(n = 16, k =2).
Одним из условий классической регрессионной модели является предположение о независимости объясняющих переменных.
В нашем примере из двух тесно связанных друг с другом факторов Х1 и Х5 ( rx1x5 = 0,960) один, Х1, был исключен.
Для выявления мультиколлинеарности оставшихся факторов выполняем
тест Фаррара–Глоубера по факторам Х2, Х3, Х4, Х5.
1.Проверка наличия мультиколлинеарности всего массива переменных
1.Построим матрицу межфакторных корреляций R1 (табл. 3) и найдем ее определитель det[R1 ] = 0,373 с помощью функции МОПРЕД.
Таблица 3. Матрица R1
X2 |
X3 |
X4 |
X5 |
|||
X2 |
1 |
–0,003 |
0,204 |
0,273 |
||
R1= |
||||||
X3 |
–0,003 |
1 |
0,698 |
0,235 |
||
19
X4 |
0,204 |
0,698 |
1 |
0,031 |
X5 |
0,273 |
0,235 |
0,031 |
1 |
2. Вычислим наблюдаемое значение статистики Фаррара–Глоубера по следующей формуле:
FGнабл = − n −1− 1 (2k +5) ln (det [R ]) = −[15 −13 / 6] ln (0,373) =12,66,
⎣6 1
где n = 16 – количество наблюдений; k = 4 – количество факторов.
Фактическое значение этого критерия FGнабл сравниваем с табличным значением χ2 при 12 k (k −1) = 6 степенях свободы и уровне значимости α = 0,05.
Табличное значение χ2 можно найти с помощью функции ХИ2.ОБР.ПХ3 (рис. 1).
Рис. 1. Получение табличного значения χ2
Так как FGнабл > FGкрит (12,66 > 12,59), то в массиве объясняющих переменных существует мультиколлинеарность.
2. Проверка наличия мультиколлинеарности каждой переменной с другими переменными
1. Вычислим обратную матрицу
X2 |
X3 |
X4 |
X5 |
3 В более ранних версиях Excel – ХИ2ОБР.
20
X2 |
X3 |
X4 |
X5 |
|||
X2 |
1,252 |
0,544 |
–0,621 |
–0,451 |
||
С = R−1 |
= |
X3 |
0,544 |
2,376 |
–1,749 |
–0,654 |
1 |
||||||
X4 |
–0,621 |
–1,749 |
2,331 |
0,510 |
||
X5 |
–0,451 |
–0,654 |
0,510 |
1,262 |
||
Fj = (cjj |
−1) |
n − k −1 |
||||||
2. Вычислим F-критерии |
k |
где cjj – диагональные эле- |
||||||
менты матрицы C: |
, |
|||||||
F2 |
F3 |
F4 |
F5 |
|||||
0,692 |
3,784 |
3,660 |
0,719 |
|||||
3. Фактические значения F-критериев сравниваем с табличным значением
Fтабл = 3,357 при ν1 = 4 и ν2 = (n – k – 1) = 11 степенях свободы и уровне значимости α = 0,05, где k – количество факторов.
4. Так как F3 > Fтабл и F4 > Fтабл, то независимые переменные Х3 и Х4 мультиколлинеарны с другими.
3. Проверка наличия мультиколлинеарности каждой пары переменных
1. |
Вычислим частные коэффициенты корреляции по формуле |
||
rij( ) = |
−cij |
, где cjj – элементы матрицы C: |
|
cii |
cjj |
||
r2,3(4,5) |
= |
−(0,544) |
= −0, 315; |
|||
1, 252 2,376 |
||||||
r |
= |
−(−0, 621) |
= 0, 363; |
|||
2,4(3,5) |
1, 252 2,331 |
|||||
r |
= |
−(−0, 451) |
= 0,359; |
|||
2,5(3,4) |
1, 252 1, 262 |
|||||
r |
= |
−(−1, 749) |
= 0, 743; |
|||
3,4(2,5) |
2, 376 2, 331 |
|||||
r |
= |
−(−0, 654) |
= 0, 378; |
|||
3,5(2,4) |
2, 376 1, 262 |
|||||
r4,5(2,3) |
= |
−(0, 510) |
= −0, 297. |
|||
62 |
||||||
21
1− rij2
2. Вычислим t-критерии по формуле tij = rij( ) n − k −1 :
t2,3 = –1,102; t2,4 = 1,293; t2,5 = 1,275; t3,4 = 3,682; t3,5 = 1,353; t4,5 = –1,032.
Фактические значения t-критериев сравниваются с табличным значением при степенях свободы (n – k – 1)=11 и уровне значимости α = 0,05: tтабл = 2,201.
Так как | t3,4 | > tтабл и r3,4(2,5) = 0,743 1, то между независимыми переменными Х3 и Х4 существует мультиколлинеарность.
Для того чтобы избавиться от мультиколлинеарности, можно исключить одну из переменных мультиколлинеарной пары Х3, Х4. Удалить следует переменную Х3, так как у нее больше значение F-критерия. Следовательно, она больше влияет на общую мультиколлинеарность факторов.
Результаты проведенного теста не опровергают выводы, сделанные ранее только на основе корреляционной матрицы.
Целесообразность включения фактора Х4 рассмотрим с помощью теста на выбор «длинной» и «короткой» регрессии. Этот тест используется для отбора наиболее существенных объясняющих переменных. Иногда переход от большего числа исходных показателей анализируемой системы к меньшему числу наиболее информативных факторов может быть объяснен дублированием информации, из-за сильно взаимосвязанных факторов. Стремление к построению более простой модели приводит к идее уменьшения размерности модели без потери ее качества. Для этого используют тест проверки «длинной» и «короткой» регрессий.
Рассмотрим две модели регрессии:
yi = β0 + β1 xi1 + … + βk xik + εi (длинную), yi = β0 + β1 xi1 + … + βk xik–q + εi (короткую).
Предположим, что модель не зависит от последних q объясняющих переменных и их можно исключить из модели. Это соответствует гипотезе
H0: βk–q+1 = βk–q+2 = … = βk = 0,
то есть последние q коэффициентов βi равны нулю.
Алгоритм проверки следующий:
1. Построим по МНК «длинную» регрессию по всем факторам Х1, …, Хk и найдем для нее сумму квадратов остатков ESSдлин.
22
Соседние файлы в предмете Эконометрика
- #
20.12.201558.37 Кб22dannye_dlya_kr.xls
- #
- #
- #
Тема: Контрольная работа по ЭММ и ПМ вариант №12 (решена в Excel)
Раздел: Бесплатные рефераты по ЭММ и ПМ
Тип: Контрольная работа | Размер: 23.99K | Скачано: 210 | Добавлен 13.02.13 в 10:48 | Рейтинг: +1 | Еще Контрольные работы
Задача
Исследуется взаимосвязь курса доллара США с курсами евро, японской иены и английского фунта стерлингов. Имеются данные об официальных курсах валют, установленных Центральным банком Российской Федерации, за двенадцать дней.
День | Доллар США, руб./долл. | Евро, руб./евро | Японская иена, руб./100 иен | Английский фунт, руб./фунт |
1 | 28,12 | 36,13 | 26,97 | 52,63 |
2 | 28,18 | 35,97 | 26,8 | 52,32 |
3 | 28,13 | 35,97 | 26,77 | 52,26 |
4 | 28,08 | 36 | 26,63 | 52,28 |
5 | 28,06 | 36,13 | 26,53 | 52,43 |
6 | 28,03 | 36,28 | 26,7 | 52,58 |
7 | 28,02 | 36,34 | 26,67 | 52,9 |
8 | 28 | 36,47 | 26,63 | 52,99 |
9 | 27,99 | 36,54 | 26,6 | 52,81 |
10 | 27,93 | 36,5 | 26,5 | 52,89 |
11 | 27,95 | 36,52 | 26,55 | 52,62 |
12 | 27,97 | 36,54 | 26,52 | 52,67 |
1. Постройте матрицу парных коэффициентов линейной корреляции. Выполните тест Фаррара -Глоубера на мультиколлинеарность. 2. Постройте линейную регрессионную модель курса доллара США, обосновав отбор факторов. Оцените параметры модели.
3. Оцените качество построенной модели.
4. Изменение курсов каких валют существенно влияет на изменение курса доллара США? Изменение какого фактора сильнее всего влияет на изменение курса доллара США? Оцените вклад каждого из факторов в вариацию курса доллара США с помощью D -коэффициентов. 5. Присутствует ли в остатках регрессии автокорреляция первого порядка? 6. Можно ли считать остатки случайными?
7. Спрогнозируйте курс доллара на следующие два дня.
Внимание!
Если вам нужна помощь в написании работы, то рекомендуем обратиться к профессионалам. Более 70 000 авторов готовы помочь вам прямо сейчас. Бесплатные корректировки и доработки. Узнайте стоимость своей работы
Бесплатная оценка
+1
13.02.13 в 10:48
Автор:Jonya
Понравилось? Нажмите на кнопочку ниже. Вам не сложно, а нам приятно).
Чтобы скачать бесплатно Контрольные работы на максимальной скорости, зарегистрируйтесь или авторизуйтесь на сайте.
Важно! Все представленные Контрольные работы для бесплатного скачивания предназначены для составления плана или основы собственных научных трудов.
Друзья! У вас есть уникальная возможность помочь таким же студентам как и вы! Если наш сайт помог вам найти нужную работу, то вы, безусловно, понимаете как добавленная вами работа может облегчить труд другим.
Добавить работу
Если Контрольная работа, по Вашему мнению, плохого качества, или эту работу Вы уже встречали, сообщите об этом нам.
Добавление отзыва к работе
Добавить отзыв могут только зарегистрированные пользователи.
Похожие работы
- Контрольная по эконометрике вариант 12
Задание 2
1. Построить матрицу парных коэффициентов корреляции. Проверить наличие мультиколлинеарности. Обосновать отбор факторов в модель.
2. Построить уравнение множественной регрессии в линейной форме с выбранными факторами.
3. Оценить статистическую значимость уравнения регрессии и его параметров с помощью критериев Фишера и Стьюдента.
4. Построить уравнение регрессии со статистически значимыми факторами. Оценить качество уравнения регрессии с помощью коэффициента детерминации R 2 . Оценить точность построенной модели.
5. Оценить прогноз объема выпуска продукции, если прогнозные значения факторов составляют 75% от их максимальных значений.
Условия задачи (Вариант 21)
По данным, представленным в таблице 1 (n =17), изучается зависимость объема выпуска продукции Y (млн. руб.) от следующих факторов (переменных):
X 1 – численность промышленно-производственного персонала, чел.
X 2 – среднегодовая стоимость основных фондов, млн. руб.
X 3 – износ основных фондов, %
X 4 – электровооруженность, кВт×ч.
X 5 – техническая вооруженность одного рабочего, млн. руб.
X 6 – выработка товарной продукции на одного работающего, руб.
Таблица 1. Данные выпуска продукции
№ | Y | X 1 | X 2 | X 3 | X 4 | X 5 | X 6 |
39,5 | 4,9 | 3,2 | |||||
46,4 | 60,5 | 20,4 | |||||
43,7 | 24,9 | 9,5 | |||||
35,7 | 50,4 | 34,7 | |||||
41,8 | 5,1 | 17,9 | |||||
49,8 | 35,9 | 12,1 | |||||
44,1 | 48,1 | 18,9 | |||||
48,1 | 69,5 | 12,2 | |||||
47,6 | 31,9 | 8,1 | |||||
58,6 | 139,4 | 29,7 | |||||
70,4 | 16,9 | 5,3 | |||||
37,5 | 17,8 | 5,6 | |||||
62,0 | 27,6 | 12,3 | |||||
34,4 | 13,9 | 3,2 | |||||
35,4 | 37,3 | 19,0 | |||||
40,8 | 55,3 | 19,3 | |||||
48,1 | 35,1 | 12,4 |
Построить матрицу парных коэффициентов корреляции. Проверить наличие мультиколлинеарности. Обосновать отбор факторов в модель
В таблице 2 представлена матрица коэффициентов парной корреляции
для всех переменных, участвующих в рассмотрении. Матрица получена с помощью инструмента Корреляция
из пакета Анализ данных
в Excel.
Таблица 2. Матрица коэффициентов парной корреляции
Y |
X1 |
X2 |
X3 |
X4 |
X5 |
X6 |
|
Y | |||||||
X1 | 0,995634 | ||||||
X2 | 0,996949 | 0,994947 | |||||
X3 | -0,25446 | -0,27074 | -0,26264 | ||||
X4 | 0,12291 | 0,07251 | 0,107572 | 0,248622 | |||
X5 | 0,222946 | 0,166919 | 0,219914 | -0,07573 | 0,671386 | ||
X6 | 0,067685 | -0,00273 | 0,041955 | -0,28755 | 0,366382 | 0,600899 |
Визуальный анализ матрицы позволяет установить:
1) У
имеет довольно высокие парные корреляции с переменными Х1, Х2 (>0,5)
и низкие с переменными Х3,Х4,Х5,Х6 (<0,5);
2) Переменные анализа Х1, Х2 демонстрируют довольно высокие парные корреляции, что обуславливает необходимость проверки факторов на наличие между ними мультиколлинеарности. Тем более, что одним из условий классической регрессионной модели является предположение о независимости объясняющих переменных.
Для выявления мультиколлинеарности факторов выполним тест Фаррара-Глоубера
по факторам Х1,Х2,Х3,Х4,Х5,Х6
.
Проверка теста Фаррара-Глоубера на мультиколлинеарность факторов включает несколько этапов.
1) Проверка наличия мультиколлинеарности всего массива переменных
.
Одним из условий классической регрессионной модели является предположение о независимости объясняющих переменных. Для выявления мультиколлинеарности между факторами вычисляется матрица межфакторных корреляций R с помощью Пакета анализа данных (таблица 3).
Таблица 3.Матрица межфакторных корреляций R
X1 |
X2 |
X3 |
X4 |
X5 |
X6 |
|
X1 | 0,994947 | -0,27074 | 0,07251 | 0,166919 | -0,00273 | |
X2 | 0,994947 | -0,26264 | 0,107572 | 0,219914 | 0,041955 | |
X3 | -0,27074 | -0,26264 | 0,248622 | -0,07573 | -0,28755 | |
X4 | 0,07251 | 0,107572 | 0,248622 | 0,671386 | 0,366382 | |
X5 | 0,166919 | 0,219914 | -0,07573 | 0,671386 | 0,600899 | |
X6 | -0,00273 | 0,041955 | -0,28755 | 0,366382 | 0,600899 |
Между факторами Х1 и Х2, Х5 и Х4, Х6 и Х5 наблюдается сильная зависимость (>0,5).
Определитель det (R) = 0,001488 вычисляется с помощью функции МОПРЕД. Определитель матрицы R стремится к нулю, что позволяет сделать предположение об общей мультиколлинеарности факторов.
2) Проверка наличия мультиколлинеарности каждой переменной с другими переменными:
· Вычислим обратную матрицу R -1 с помощью функции Excel МОБР (таблица 4):
Таблица 4. Обратная матрица R -1
X1 |
X2 |
X3 |
X4 |
X5 |
X6 |
|
X1 | 150,1209 | -149,95 | 3,415228 | -1,70527 | 6,775768 | 4,236465 |
X2 | -149,95 | 150,9583 | -3,00988 | 1,591549 | -7,10952 | -3,91954 |
X3 | 3,415228 | -3,00988 | 1,541199 | -0,76909 | 0,325241 | 0,665121 |
X4 | -1,70527 | 1,591549 | -0,76909 | 2,218969 | -1,4854 | -0,213 |
X5 | 6,775768 | -7,10952 | 0,325241 | -1,4854 | 2,943718 | -0,81434 |
X6 | 4,236465 | -3,91954 | 0,665121 | -0,213 | -0,81434 | 1,934647 |
· Вычисление F-критериев , где – диагональные элементы матрицы , n=17, k = 6 (таблица 5).
Таблица 5. Значения F-критериев
F1 (Х1) | F2 (Х2) | F3 (Х3) | F4 (Х4) | F5 (Х5) | F6 (Х6) |
89,29396 | 89,79536 | 0,324071 | 0,729921 | 1,163903 | 0,559669 |
· Фактические значения F-критериев сравниваются с табличным значением F табл = 3,21
(FРАСПОБР(0,05;6;10)) при n1= 6 и n2 = n — k – 1=17-6-1=10 степенях свободы и уровне значимости α=0,05, где k – количество факторов.
· Значения F-критериев для факторов Х1 и Х2 больше табличного, что свидетельствует о наличии мультиколлинеарности между данными факторами. Меньше всего влияет на общую мультиколлинеарность факторов фактор Х3.
3) Проверка наличия мультиколлинеарности каждой пары переменных
· Вычислим частные коэффициенты корреляции по формуле , где – элементы матрицы (таблица 6)
Таблица 6. Матрица коэффициентов частных корреляций
X1 |
X2 |
X3 |
X4 |
X5 |
X6 |
|
X1 | ||||||
X2 | 0,996086 | |||||
X3 | -0,22453 | 0,197329 | ||||
X4 | 0,093432 | -0,08696 | 0,415882 | |||
X5 | -0,32232 | 0,337259 | -0,1527 | 0,581191 | ||
X6 | -0,24859 | 0,229354 | -0,38519 | 0,102801 | 0,341239 |
· Вычисление t
-критериев по формуле (таблица 7)
n — число данных = 17
K — число факторов = 6
Таблица 7.t-критерии для коэффициентов частной корреляции
X1 |
X2 |
X3 |
X4 |
X5 |
X6 |
|
X1 | ||||||
X2 | 35,6355 | |||||
X3 | -0,72862 | 0,636526 | ||||
X4 | 0,296756 | -0,27604 | 1,446126 | |||
X5 | -1,07674 | 1,13288 | -0,4886 | 2,258495 | ||
X6 | -0,81158 | 0,745143 | -1,31991 | 0,326817 | 1,147999 |
t табл = СТЬЮДРАСПОБР(0,05;10) = 2,23
Фактические значения t-критериев сравниваются с табличным значением при степенях свободы n-k-1 = 17-6-1=10 и уровне значимости α=0,05;
t21 > tтабл
t54 > tтабл
Из таблиц 6 и 7 видно, что две пары факторов X1 и Х2, Х4 и Х5 имеют высокую статистически значимую частную корреляцию, то есть являются мультиколлинеарными. Для того чтобы избавиться от мультиколлинеарности, можно исключить одну из переменных коллинеарной пары. В паре Х1 и Х2 оставляем Х2, в паре Х4 и Х5 оставляем Х5.
Таким образом, в результате проверки теста Фаррара-Глоубера остаются факторы: Х2, Х3, Х5, Х6.
Завершая процедуры корреляционного анализа, целесообразно посмотреть частные корреляции выбранных факторов с результатом Y.
Построим матрицу парных коэффициентов корреляции, исходя из данных таблицы 8.
Таблица 8. Данные выпуска продукции с отобранными факторами Х2, Х3, Х5, Х6.
№ наблю-дения | Y | X 2 | X 3 | X 5 | X 6 |
39,5 | 3,2 | ||||
46,4 | 20,4 | ||||
43,7 | 9,5 | ||||
35,7 | 34,7 | ||||
41,8 | 17,9 | ||||
49,8 | 12,1 | ||||
44,1 | 18,9 | ||||
48,1 | 12,2 | ||||
47,6 | 8,1 | ||||
58,6 | 29,7 | ||||
70,4 | 5,3 | ||||
37,5 | 5,6 | ||||
12,3 | |||||
34,4 | 3,2 | ||||
35,4 | |||||
40,8 | 19,3 | ||||
48,1 | 12,4 |
В последнем столбце таблицы 9 представлены значения t-критерия для столбца У.
Таблица 9.Матрица коэффициентов частной корреляции с результатом Y
Y | X2 | X3 | X5 | X6 | t критерий (t табл (0,05;11)= 2,200985 |
|
Y | 0,996949 | -0,25446 | 0,222946 | 0,067685 | ||
X2 | 0,996949 | -0,26264 | 0,219914 | 0,041955 | 44,31676 | |
X3 | -0,25446 | -0,26264 | -0,07573 | -0,28755 | 0,916144 | |
X5 | 0,222946 | 0,219914 | -0,07573 | 0,600899 | -0,88721 | |
X6 | 0,067685 | 0,041955 | -0,28755 | 0,600899 | 1,645749 |
Из таблицы 9 видно, что переменная Y
имеет высокую и одновременно статистически значимую частную корреляцию с фактором Х2.
По территориям Южного федерального округа РФ приводятся данные за 2011 год
Территории федерального округа |
Валовой региональный продукт, млрд. руб., Y |
Инвестиции в основной капитал, млрд. руб., X1 |
1. Респ. Адыгея |
||
2. Респ. Дагестан |
||
3. Респ. Ингушетия |
||
4. Кабардино-БалкарскаяРесп. |
||
5. Респ. Калмыкия |
||
6. Карачаево-ЧеркесскаяРесп. |
||
7. Респ. Северная Осетия — Алания |
||
8. Краснодарский кра) |
||
9. Ставропольский край |
||
10. Астраханская обл. |
||
11. Волгоградская обл. |
||
12. Ростовская обл. |
- 1. Рассчитайте матрицу парных коэффициентов корреляции; оцените статистическую значимость коэффициентов корреляции.
- 2. Постройте поле корреляции результативного признака и наиболее тесно связанного с ним фактора.
- 3. Рассчитайте параметры линейной парной регрессии для каждого фактора Х..
- 4. Оцените качество каждой модели через коэффициент детерминации, среднюю ошибку аппроксимации и F-критерий Фишера. Выберите лучшую модель.
составит 80% от его максимального значения. Представьте графически: фактические и модельные значения, точки прогноза.
- 6. Используя пошаговую множественную регрессию (метод исключения или метод включения), постройте модель формирования цены квартиры за счёт значимых факторов. Дайте экономическую интерпретацию коэффициентов модели регрессии.
- 7. Оцените качество построенной модели. Улучшилось ли качество модели по сравнению с однофакторной моделью? Дайте оценку влияния значимых факторов на результат с помощью коэффициентов эластичности,в — и -? коэффициентов.
При решении данной задачи расчеты и построение графиков и диаграмм будем вести с использованием настройки Excel Анализ данных.
1. Рассчитаем матрицу парных коэффициентов корреляции и оценим статистическую значимость коэффициентов корреляции
В диалоговом окне Корреляция в поле Входной интервал вводим диапазон ячеек, содержащих исходные данные. Так как мы выделили и заголовки столбцов, то устанавливаем флажок Метки в первой строке.
Получили следующие результаты:
Таблица 1.1 Матрица парных коэффициентов корреляции
Анализ матрицы коэффициентов парной корреляции показывает, что зависимая переменная Y, т.е валового регионального продукта имеет более тесную связь с Х1 (инвестиции в основной капитал). Коэффициент корреляции равен 0,936. Это означает, что на 93,6% зависимая переменная Y (валовой региональный продукт) зависит от показателя Х1 (инвестиции в основной капитал).
Статистическая значимость коэффициентов корреляции определим с помощью t-критерия Стьюдента. Табличное значение сравниваем с расчетными значениями.
Вычислим табличное значение с помощью функции СТЬЮДРАСПОБР.
t табл.=0,129 при доверительной вероятности равной 0,9 и степенью свободы (n-2).
Статистическим значимым является фактор Х1.
2. Построим поле корреляции результативного признака (валового регионального продукта) и наиболее тесно связанного с ним фактора (инвестиции в основной капитал)
Для этого воспользуемся инструментом построения точечной диаграммы программы Excel.
В результате получаем поле корреляции цены валового регионального продукта, млрд. руб. и инвестиции в основной капитал, млрд. руб. (рисунок 1.1.).
Рисунок 1.1
3. Рассчитаем параметры линейной парной регрессии для каждого фактора Х
Для расчета параметров линейной парной регрессии воспользуемся инструментом Регрессия, входящим в настойку Анализ данных.
В диалоговом окне Регрессия в поле Входной интервал Y вводим адрес диапазона ячеек, которые представляет зависимую переменную. В поле
Входной интервал Х вводим адрес диапазона, который содержит значения независимых переменных. Выполним вычисления параметры парной регрессии для фактора Х.
Для Х1 получили следующие данные, представленные в таблице 1.2:
Таблица 1.2
Уравнение регрессии зависимости цены валового регионального продукта от инвестиции в основной капитал имеет вид:
4. Оценим качество каждой модели через коэффициент детерминации, среднюю ошибку аппроксимации и F-критерий Фишера. Установим, какая модель является лучшей.
Коэффициент детерминации, среднюю ошибку аппроксимации мы получили в результате расчетов, проведенных в пункте 3. Полученные данные представлены в следующих таблицах:
Данные по Х1:
Таблица 1.3а
Таблица 1.4б
А) Коэффициент детерминации определяет, какая доля вариации признака У учтена в модели и обусловлена влиянием на него фактора Х. Чем больше значение коэффициента детерминации, тем теснее связь между признаками в построенной математической модели.
В программе Excel обозначается R-квадрат.
Исходя из данного критерия наиболее адекватной является модель уравнения регрессии зависимости цены валового регионального продукта от инвестиции в основной капитал (Х1).
Б) Среднюю ошибку аппроксимации рассчитаем по формуле:
где числитель — сумма квадратов отклонения расчетных значений от фактических. В таблицах она находится в столбце SS, строке Остатки.
Среднее значение цены квартиры рассчитаем в Excel с помощью функции СРЗНАЧ. = 24,18182 млрд. руб.
При проведении экономических расчетов модель считается достаточно точной, если средняя ошибка аппроксимации меньше 5%, модель считается приемлемой, если средняя ошибка аппроксимации меньше 15%.
По данному критерию, наиболее адекватной является математическая модель для уравнения регрессии зависимости цены валового регионального продукта от инвестиции в основной капитал (Х1).
В) Для проверки значимости модели регрессии используется F-тест. Для этого выполняется сравнение и критического (табличного)значений F-критерия Фишера.
Расчетные значения приведены в таблицах 1.4б (обозначены буквой F).
Табличное значение F-критерий Фишера рассчитаем в Excel с помощью функции FРАСПОБР. Вероятность возьмем равной 0,05. Получили: = 4,75
Расчетные значения F-критерий Фишера для каждого фактора сравним с табличным значением:
71,02 > = 4,75 модель по данному критерию адекватна.
Проанализировав данные по всем трем критериям, можно сделать вывод, что наиболее лучшей является математическая модель, построена для фактора валового регионального продукта, которая описана линейным уравнением
5. Для выбранной модели зависимости цены валового регионального продукта
осуществим прогнозирование среднего значения показателя при уровне значимости, если прогнозное значения фактора составит 80% от его максимального значения. Представим графически: фактические и модельные значения, точки прогноза.
Рассчитаем прогнозное значение Х, по условию оно составит 80% от максимального значения.
Рассчитаем Х max в Excel с помощью функции МАКС.
0,8 *52,8 = 42,24
Для получения прогнозных оценок зависимой переменной подставим полученное значение независимой переменной в линейное уравнение:
5,07+2,14*42,24 = 304,55 млрд. руб.
Определим доверительный интервал прогноза, который будет иметь следующие границы:
Для вычисления доверительного интервала для прогнозного значения рассчитываем величину отклонения от линии регрессии.
Для модели парной регрессии величина отклонения рассчитывается:
т.е. значение стандартной ошибки из таблицы 1.5а.
(Так как число степеней свободы равно единицы, то знаменатель будет равен n-2). корреляция парная регрессия прогноз
Для расчета коэффициента воспользуемся функцией Excel СТЬЮДРАСПОБР, вероятность возьмем равную 0,1, число степеней свободы 38.
Значение рассчитаем с помощью Excel, получим 12294.
Определим верхнюю и нижнюю границы интервала.
- 304,55+27,472= 332,022
- 304,55-27,472= 277,078
Таким образом, прогнозное значение = 304,55 тыс.долл., будет находиться между нижней границей, равной 277,078 тыс.долл. и верхней границей, равной 332,022 млдр. Руб.
Фактические и модельные значения, точки прогноза представлены графически на рисунке 1.2.
Рисунок 1.2
6. Используя пошаговую множественную регрессию (метод исключения), построим модель формирования цены валового регионального продукта за счёт значимых факторов
Для построения множественной регрессии воспользуемся функцией Регрессия программы Excel, включив в нее все факторы. В результате получаем результативные таблицы, из которых нам необходим t-критерий Стьюдента.
Таблица 1.8а
Таблица 1.8б
Таблица 1.8в.
Получаем модель вида:
Поскольку < (4,75 < 71,024), уравнение регрессии следует признать адекватным.
Выберем наименьшее по модулю значение t-критерия Стьюдента, оно равно 8,427, сравниваем его с табличным значением, которые рассчитываем в Excel, уровень значимости берем равным 0,10, число степеней свободы n-m-1=12-4=8: =1,8595
Поскольку 8,427>1,8595 модель следует признать адекватной.
7. Для оценки значимого фактора полученной математической модели, рассчитаем коэффициенты эластичности, и — коэффициенты
Коэффициент эластичности показывает, насколько процентов изменится результативный признак при изменении факторного признака на 1%:
Э X4 = 2,137 *(10,69/24,182) = 0,94%
То есть с ростом инвестиции в основной капитал 1% стоимость в среднем возрастает на 0,94%.
Коэффициент показывает на какую часть величины среднего квадратического отклонения меняется среднее значение зависимой переменной с изменением независимой переменной на одно среднеквадратическое отклонение.
2,137* (14.736/33,632) = 0,936.
Данные средних квадратических отклонений взяты из таблиц, полученных с помощью инструменты Описательная статистика.
Таблица 1.11 Описательная статистика (Y)
Таблица 1.12 Описательная статистика (Х4)
Коэффициент определяет долю влияния фактора в суммарном влиянии всех факторов:
Для расчета коэффициентов парной корреляции вычисляем матрицу парных коэффициентов корреляции в программе Excel с помощью инструмента Корреляция настройки Анализа данных.
Таблица 1.14
(0,93633*0,93626) / 0,87 = 1,00.
Вывод: Из полученных расчетов можно сделать вывод, что результативный признак Y (валовой региональный продукт) имеет большую зависимость от фактора X1 (инвестиции в основной капитал) (на 100%).
Список литературы
- 1. Магнус Я.Р., Катышев П.К., Пересецкий А.А. Эконометрика. Начальный курс. Учебное пособие. 2-е изд. — М.: Дело, 1998. — с. 69 — 74.
- 2. Практикум по эконометрике: Учебное пособие / И.И. Елисеева, С.В. Курышева, Н.М. Гордеенко и др. 2002. — с. 49 — 105.
- 3. Доугерти К. Введение в эконометрику: Пер. с англ. — М.: ИНФРА-М, 1999. — XIV, с. 262 — 285.
- 4. Айвызян С.А., Михтирян В.С. Прикладная математика и основы эконометрики. -1998., с 115-147
. - 5. Кремер Н.Ш., Путко Б.А. Эконометрика. -2007. с 175-251.
Коэффициент корреляции отражает степень взаимосвязи между двумя показателями. Всегда принимает значение от -1 до 1. Если коэффициент расположился около 0, то говорят об отсутствии связи между переменными.
Если значение близко к единице (от 0,9, например), то между наблюдаемыми объектами существует сильная прямая взаимосвязь. Если коэффициент близок к другой крайней точке диапазона (-1), то между переменными имеется сильная обратная взаимосвязь. Когда значение находится где-то посередине от 0 до 1 или от 0 до -1, то речь идет о слабой связи (прямой или обратной). Такую взаимосвязь обычно не учитывают: считается, что ее нет.
Расчет коэффициента корреляции в Excel
Рассмотрим на примере способы расчета коэффициента корреляции, особенности прямой и обратной взаимосвязи между переменными.
Значения показателей x и y:
Y – независимая переменная, x – зависимая. Необходимо найти силу (сильная / слабая) и направление (прямая / обратная) связи между ними. Формула коэффициента корреляции выглядит так:
Чтобы упростить ее понимание, разобьем на несколько несложных элементов.
Между переменными определяется сильная прямая связь.
Встроенная функция КОРРЕЛ позволяет избежать сложных расчетов. Рассчитаем коэффициент парной корреляции в Excel с ее помощью. Вызываем мастер функций. Находим нужную. Аргументы функции – массив значений y и массив значений х:
Покажем значения переменных на графике:
Видна сильная связь между y и х, т.к. линии идут практически параллельно друг другу. Взаимосвязь прямая: растет y – растет х, уменьшается y – уменьшается х.
Матрица парных коэффициентов корреляции в Excel
Корреляционная матрица представляет собой таблицу, на пересечении строк и столбцов которой находятся коэффициенты корреляции между соответствующими значениями. Имеет смысл ее строить для нескольких переменных.
Матрица коэффициентов корреляции в Excel строится с помощью инструмента «Корреляция» из пакета «Анализ данных».
Между значениями y и х1 обнаружена сильная прямая взаимосвязь. Между х1 и х2 имеется сильная обратная связь. Связь со значениями в столбце х3 практически отсутствует.
Экономические данные представляют собой количественные характеристики каких-либо экономических объектов или процессов. Они формируются под действием множества факторов, не все из которых доступны внешнему контролю. Неконтролируемые факторы могут принимать случайные значения из некоторого множества значений и тем самым обусловливать случайность данных, которые они определяют. Одной из основных задач в экономических исследованиях является анализ зависимостей между переменными.
Рассматривая зависимости между признаками, необходимо выделить прежде всего два типа связей:
- функциональные —
характеризуются полным соответствием между изменением факторного признака и изменением результативной величины: каждому значению признака-фактора соответствуют вполне определенные значения результативного признака.
Этот тип связи выражается в виде формульной зависимости. Функциональная зависимость может связывать результативный признак с одним или несколькими факторными признаками. Так, величина заработной платы при повременной оплате труда зависит от количества отработанных часов; - корреляционные
— между изменением двух признаков нет полного соответствия, воздействие отдельных факторов проявляется лишь в среднем, при массовом наблюдении фактических данных. Одновременное воздействие на изучаемый признак большого количества разнообразных факторов приводит к тому, что одному и тому же значению признака-фактора соответствует целое распределение значений результативного признака,
поскольку в каждом конкретном случае прочие факторные признаки могут изменять силу и направленность своего воздействия.
Следует иметь в виду, что при наличии функциональной зависимости между признаками можно, зная величину факторного признака, точно определить величину результативного признака.
При наличии же корреляционной зависимости устанавливается лишь тенденция изменения результативного признака
при изменении величины факторного признака.
Изучая взаимосвязи между признаками, их классифицируют по направлению, форме, числу факторов:
- по направлению
связи делятся на прямые
и обратные.
При прямой связи направление изменения результативного признака совпадает с направлением изменения признака-фактора. При обратной связи направление изменения результативного признака противоположно направлению изменения признака- фактора. Например, чем выше квалификация рабочего, тем выше уровень производительности его труда (прямая связь). Чем выше производительность труда, тем ниже себестоимость единицы продукции (обратная связь); - по форме
(виду функции) связи делят на линейные
(прямолинейные) и нелинейные
(криволинейные). Линейная связь отображается прямой линией, нелинейная — кривой (парабол ой, гиперболой и т.п.). При линейной связи с возрастанием значения факторного признака происходит равномерное возрастание (убывание) значения результативного признака; - по количеству факторов, действующих на результативный признак,
связи подразделяют на однофакторные
(парные) и многофакторные.
Изучение зависимости вариации признака от окружающих условий и составляет содержание теории корреляции .
При проведении корреляционного анализа вся совокупность данных рассматривается как множество переменных (факторов), каждая из которых содержит п
наблюдений.
При изучении взаимосвязи между двумя факторами их, как правило, обозначают Х=
(х р х 2 ,
…,х п)
и Y= (у { , у 2 ,
…,у и).
Ковариация —
это статистическая мера взаимодействия
двух переменных. Например, положительное значение ковариации доходности двух ценных бумаг показывает, что доходности этих ценных бумаг имеют тенденцию изменяться в одну сторону.
Ковариация между двумя переменными X
и Y
рассчитывается следующим образом:
где- фактические значения переменных
X
и г;
Если случайные величины Хи Y
независимы, теоретическая ковариация равна нулю.
Ковариация зависит от единиц, в которых измеряются переменные Хи
У, она является ненормированной величиной. Поэтому для измерения силы связи
между двумя переменными используется другая статистическая характеристика, называемая коэффициентом корреляции.
Для двух переменных X
и Y коэффициент парной корреляции
определяется следующим образом:
где SSy —
оценки дисперсий величин Хи Y.
Эти оценки характеризуют степень разброса
значений х { ,х 2 , …,х п (у 1 ,у 2 ,у п)
вокруг своего среднего х (у
соответственно), или вариабельность
(изменчивость) этих переменных на множестве наблюдений.
Дисперсия
(оценка дисперсии) определяется по формуле
В общем случае для получения несмещенной оценки дисперсии сумму квадратов следует делить на число степеней свободы оценки (п-р),
где п —
объем выборки, р —
число наложенных на выборку связей. Так как выборка уже использовалась один раз для определения среднего X,
то число наложенных связей в данном случае равно единице (р =
1), а число степеней свободы оценки (т.е. число независимых элементов выборки) равно (п —
1).
Более естественно измерять степень разброса значений переменных в тех же единицах, в которых измеряется и сама переменная. Эту задачу решает показатель, называемый среднеквадратическим отклонением
(стандартным отклонением
) или стандартной ошибкой
переменной X
(переменной Y)
и определяемый соотношением
Слагаемые в числителе формулы (3.2.1) выражают взаимодействие двух переменных и определяют знак корреляции (положительная или отрицательная). Если, например, между переменными существует сильная положительная взаимосвязь (увеличение одной переменной при увеличении второй), каждое слагаемое будет положительным числом. Аналогично, если между переменными существует сильная отрицательная взаимосвязь, все слагаемые в числителе будут отрицательными числами, что в результате дает отрицательное значение корреляции.
Знаменатель выражения для коэффициента парной корреляции [см. формулу (3.2.2)] просто нормирует числитель таким образом, что коэффициент корреляции оказывается легко интерпретируемым числом, не имеющим размерности, и принимает значения от -1 до +1.
Числитель выражения для коэффициента корреляции, который трудно интерпретировать из-за необычных единиц измерения, есть ковариация ХиУ.
Несмотря на то что иногда она используется как самостоятельная характеристика (например, в теории финансов для описания совместного изменения курсов акций на двух биржах), удобнее пользоваться коэффициентом корреляции. Корреляция и ковариация представляют, по сути, одну и ту же информацию, однако корреляция представляет эту информацию в более удобной форме.
Для качественной оценки коэффициента корреляции применяются различные шкалы, наиболее часто — шкала Чеддока. В зависимости от значения коэффициента корреляции связь может иметь одну из оценок:
- 0,1-0,3 — слабая;
- 0,3-0,5 — заметная;
- 0,5-0,7 — умеренная;
- 0,7-0,9 — высокая;
- 0,9-1,0 — весьма высокая.
Оценка степени тесноты связи с помощью коэффициента корреляции проводится, как правило, на основе более или менее ограниченной информации об изучаемом явлении. В связи с этим возникает необходимость оценки существенности линейного коэффициента корреляции, дающая возможность распространить выводы по результатам выборки на генеральную совокупность.
Оценка значимости коэффициента корреляции при малых объемах выборки выполняется с использованием 7-критерия Стьюдента. При этом фактическое (наблюдаемое) значение этого критерия определяется по формуле
Вычисленное по этой формуле значение / набл сравнивается с критическим значением 7-критерия, которое берется из таблицы значений /-критерия Стьюдента (см. Приложение 2) с учетом заданного уровня значимости ос и числа степеней свободы (п
— 2).
Если 7 набл > 7 табл, то полученное значение коэффициента корреляции признается значимым (т.е. нулевая гипотеза, утверждающая равенство нулю коэффициента корреляции, отвергается). И таким образом делается вывод, что между исследуемыми переменными есть тесная статистическая взаимосвязь.
Если значение г у х
близко к нулю, связь между переменными слабая. Если корреляция между случайными величинами:
- положительная, то при возрастании одной случайной величины другая имеет тенденцию в среднем возрастать;
- отрицательная, то при возрастании одной случайной величины другая имеет тенденцию в среднем убывать. Удобным графическим средством анализа парных данных является диаграмма рассеяния
, которая представляет каждое наблюдение в пространстве двух измерений, соответствующих двум факторам. Диаграмму рассеяния, на которой изображается совокупность значений двух признаков, называют еще корреляционным полем.
Каждая точка этой диаграммы имеет координаты х (. и у г
По мере того как возрастает сила линейной связи, точки на графике будут лежать более близко к прямой линии, а величина г
будет ближе к единице.
Коэффициенты парной корреляции используются для измерения силы линейных связей различных пар признаков из их множества. Для множества признаков получают матрицу коэффициентов парной корреляции.
Пусть вся совокупность данных состоит из переменной Y = =
(у р у 2 ,
…, у п)
и т
переменных (факторов) X,
каждая из которых содержит п
наблюдений. Значения переменных Y
и X,
содержащиеся в наблюдаемой совокупности, записываются в таблицу (табл. 3.2.1).
Таблица 3.2.1
Переменная Номер наблюдения |
|||||
Х тЗ |
|||||
Х тп |
На основании данных, содержащихся в этой таблице, вычисляют матрицу коэффициентов парной корреляции R,
она симметрична относительно главной диагонали:
Анализ матрицы коэффициентов парной корреляции используют при построении моделей множественной регрессии.
Одной корреляционной матрицей нельзя полностью описать зависимости между величинами. В связи с этим в многомерном корреляционном анализе рассматривается две задачи:
- 1. Определение тесноты связи одной случайной величины с совокупностью остальных величин, включенных в анализ.
- 2. Определение тесноты связи между двумя величинами при фиксировании или исключении влияния остальных величин.
Эти задачи решаются соответственно с помощью коэффициентов множественной и частной корреляции.
Решение первой задачи (определение тесноты связи одной случайной величины с совокупностью остальных величин, включенных в анализ) осуществляется с помощью выборочного коэффициента множественной корреляции
по формуле
где R —
R
[см. формулу (3.2.6)]; Rjj —
алгебраическое дополнение элемента той же матрицы R.
Квадрат коэффициента множественной корреляции Щ
j 2 j
_j J+l m
принято называть выборочным множественным коэффициентом детерминации
; он показывает, какую долю вариации (случайного разброса) исследуемой величины Xj
объясняет вариация остальных случайных величин Х { , Х
2 ,…, Х т.
Коэффициенты множественной корреляции и детерминации являются величинами положительными, принимающими значения в интервале от 0 до 1. При приближении коэффициента R
2 к единице можно сделать вывод о тесноте взаимосвязи случайных величин, но не о ее направлении. Коэффициент множественной корреляции может только увеличиваться, если в модель включать дополнительные переменные, и не увеличится, если исключать какие-либо из имеющихся признаков.
Проверка значимости коэффициента детерминации осуществляется путем сравнения расчетного значения /’-критерия Фишера
с табличным F
raбл. Табличное значение критерия (см. Приложение 1) определяется заданным уровнем значимости а и степенями свободы v l = mnv 2 = n-m-l.
Коэффициент R 2
значимо отличается от нуля, если выполняется неравенство
Если рассматриваемые случайные величины коррелируют друг с другом,
то на величине коэффициента парной корреляции частично сказывается влияние других величин. В связи с этим возникает необходимость исследования частной корреляции между величинами при исключении влияния других случайных величин (одной или нескольких).
Выборочный частный коэффициент корреляции
определяется по формуле
где R Jk , Rjj, R kk —
алгебраические дополнения к соответствующим элементам матрицы R
[см. формулу (3.2.6)].
Частный коэффициент корреляции, также как и парный коэффициент корреляции, изменяется от -1 до +1.
Выражение (3.2.9) при условии т =
3 будет иметь вид
Коэффициент г 12(3) называется коэффициентом корреляции между х {
и х 2 при фиксированном х у
Он симметричен относительно первичных индексов 1, 2. Его вторичный индекс 3 относится к фиксированной переменной.
Пример 3.2.1. Вычисление коэффициентов парной,
множественной и частной корреляции.
В табл. 3.2.2 представлена информация об объемах продаж и затратах на рекламу одной фирмы, а также индекс потребительских расходов за ряд текущих лет.
- 1. Построить диаграмму рассеяния (корреляционное поле) для переменных «объем продаж» и «индекс потребительских расходов».
- 2. Определить степень влияния индекса потребительских расходов на объем продаж (вычислить коэффициент парной корреляции).
- 3. Оценить значимость вычисленного коэффициента парной корреляции.
- 4. Построить матрицу коэффициентов парной корреляции по трем переменным.
- 5. Найти оценку множественного коэффициента корреляции.
- 6. Найти оценки коэффициентов частной корреляции.
1. В нашем примере диаграмма рассеяния имеет вид, приведенный на рис. 3.2.1. Вытянутость облака точек на диаграмме рассеяния вдоль наклонной прямой позволяет сделать предположение, что существует некоторая объективная тенденция прямой линейной связи между значениями переменных Х 2
Y
(объем продаж).
Рис. 3.2.1.
2. Промежуточные расчеты при вычислении коэффициента корреляции между переменными Х 2
(индекс потребительских расходов) и Y
(объем продаж) приведены в табл. 3.2.3.
Средние значения
случайных величин Х 2
и Y,
которые являются наиболее простыми показателями, характеризующими последовательности jCj, х 2 ,
…, х 16 и y v y 2 ,
…, у 16 , рассчитаем по следующим формулам:
Объем продаж Y, тыс. руб. |
Индекс потреби тельских расходов |
Объем продаж Y, тыс. руб. |
Индекс потреби тельских расходов |
||
Таблица 3.2.3
л:, — х |
(И — У)(х, — х) |
(х, — х) 2 |
(у,- — у) 2 |
||||
Дисперсия
характеризует степень разброса значений x v x 2 ,х :
Рассмотрим теперь решение примера 3.2.1 в Excel.
Чтобы вычислить корреляцию средствами Excel, можно воспользоваться функцией =коррел (), указав адреса двух столбцов чисел, как показано на рис. 3.2.2. Ответ помещен в D8 и равен 0,816.
Рис. 3.2.2.
(Примечание. Аргументы функции коррел должны быть числами или именами, массивами или ссылками, содержащими числа. Если аргумент, который является массивом или ссылкой, содержит текст, логические значения или пустые ячейки, то такие значения игнорируются; однако ячейки, которые содержат нулевые значения, учитываются.
Если массив! и массив2 имеют различное количество точек данных, то функция коррел возвращает значение ошибки #н/д.
Если массив1 либо массив2 пуст или если о (стандартное отклонение) их значений равно нулю, то функция коррел возвращает значение ошибки #дел/0 !.)
Критическое значение /-статистики Стьюдента может быть также получено с помощью функции стьюдраспробр 1 пакета Excel. В качестве аргументов функции необходимо задать число степеней свободы, равное п
— 2 (в нашем примере 16 — 2= 14) и уровень значимости а (в нашем примере а = 0,1) (рис. 3.2.3). Если фактическое значение
/-статистики, взятое по модулю, больше критического,
то с вероятностью (1 — а) коэффициент корреляции значимо отличается от нуля.
Рис. 3.2.3. Критическое значение /-статистики равно 1,7613
В Excel входит набор средств анализа данных (так называемый пакет анализа), предназначенный для решения различных статистических задач. Для вычисления матрицы коэффициентов парной корреляции R
следует воспользоваться инструментом Корреляция (рис. 3.2.4) и установить параметры анализа в соответствующем диалоговом окне. Ответ будет помещен на новый рабочий лист (рис. 3.2.5).
1 В Excel 2010 название функции стьюдраспробр изменено на стью-
ДЕНТ.ОБР.2Х.
Рис. 3.2.4.
Рис. 3.2.5.
- Основоположниками теории корреляции считаются английские статистики Ф. Гальтон (1822-1911) и К. Пирсон (1857-1936). Термин «корреляция» был заимствован из естествознания и обозначает «соотношение, соответствие». Представление о корреляции как взаимозависимости между случайными переменными величинами лежит воснове математико-статистической теории корреляции.
Матрица парных коэффициентов корреляции
Y |
X1 |
X2 |
X3 |
X4 |
X5 |
|
Y | ||||||
X1 | 0,732705 | |||||
X2 | 0,785156 | 0,706287 | ||||
X3 | 0,179211 | -0,29849 | 0,208514 | |||
X4 | 0,667343 | 0,924333 | 0,70069 | 0,299583 | ||
X5 | 0,709204 | 0,940488 | 0,691809 | 0,326602 | 0,992945 |
В узлах матрицы находятся парные коэффициенты корреляции, характеризующие тесноту взаимосвязи между факторными признаками. Анализируя эти коэффициенты, отметим, что чем больше их абсолютная величина, тем большее влияние оказывает соответствующий факторный признак на результативный. Анализ полученной матрицы осуществляется в два этапа:
1. Если в первом столбце матрицы есть коэффициенты корреляции, для которых /r / < 0,5, то соответствующие признаки из модели исключаются. В данном случае в первом столбце матрицы коэффициентов корреляции исключается фактор или коэффициент роста уровня инфляции. Данный фактор оказывает меньшее влияние на результативный признак, нежели оставшиеся четыре признака.
2. Анализируя парные коэффициенты корреляции факторных признаков друг с другом, (r XiXj), характеризующие тесноту их взаимосвязи, необходимо оценить их независимость друг от друга, поскольку это необходимое условие для дальнейшего проведения регрессионного анализа. В виду того, что в экономике абсолютно независимых признаков нет, необходимо выделить, по возможности, максимально независимые. Факторные признаки, находящиеся в тесной корреляционной зависимости друг с другом, называются мультиколлинеарными. Включение в модель мультиколлинеарных признаков делает невозможным экономическую интерпретацию регрессионной модели, так как изменение одного фактора влечет за собой изменение факторов с ним связанных, что может привести к «поломке» модели в целом.
Критерий мультиколлениарности факторов выглядит следующим образом:
/r XiXj / > 0,8
В полученной матрице парных коэффициентов корреляции этому критерию отвечают два показателя, находящиеся на пересечении строк и . Из каждой пары этих признаков в модели необходимо оставить один, он должен оказывать большее влияние на результативный признак. В итоге из модели исключаются факторы и , т.е. коэффициент роста себестоимости реализованной продукции и коэффициент роста объёма её реализации.
Итак, в регрессионную модель вводим факторы Х1 и Х2.
Далее осуществляется регрессионный анализ (сервис, анализ данных, регрессия). Вновь составляет таблица исходных данных с факторами Х1 и Х2. Регрессия в целом используется для анализа воздействия на отдельную зависимую переменную значений независимых переменных (факторов) и позволяет корреляционную связь между признаками представить в виде некоторой функциональной зависимости называемой уравнением регрессии или корреляционно-регрессионной моделью.
В результате регрессионного анализа получаем результаты расчета многомерной регрессии. Проанализируем полученные результаты.
Все коэффициенты регрессии значимы по критерию Стьюдента. Коэффициент множественной корреляции R составил 0,925, квадрат этой величины (коэффициент детерминации) означает, что вариация результативного признака в среднем на 85,5% объясняется за счет вариации факторных признаков, включенных в модель. Коэффициент детерминированности характеризует тесноту взаимосвязи между совокупностью факторных признаков и результативным показателем. Чем ближе значение R-квадрат к 1, тем теснее взаимосвязь. В нашем случае показатель, равный 0,855, указывает на правильный подбор факторов и на наличие взаимосвязи факторов с результативным показателем.
Рассматриваемая модель адекватна, поскольку расчетное значение F-критерия Фишера существенно превышает его табличное значение (F набл =52,401; F табл =1,53).
В качестве общего результата проведенного корреляционно-регрессионного анализа выступает множественное уравнение регрессии, которое имеет вид:
Полученное уравнение регрессии отвечает цели корреляционно-регрессионного анализа и является линейной моделью зависимости балансовой прибыли предприятия от двух факторов: коэффициента роста производительности труда и коэффициента имущества производственного назначения.
На основании полученной модели можно сделать вывод о том, что при увеличении уровня производительности труда на 1% к уровню предыдущего периода величина балансовой прибыли возрастет на 0,95 п.п.; увеличение же коэффициента имущества производственного назначения на 1% приведет к росту результативного показателя на 27,9 п.п. Слелдовательно, доминирующее влияние на рост балансовой прибыли оказывает увеличение стоимости имущества производственного назначения (обновление и рост основных средств предприятия).
По множественной регрессионной модели выполняется многофакторный прогноз результативного признака. Пусть известно, что Х1 = 3,0, а Х3 = 0,7. Подставим значения факторных признаков в модель, получим Упр = 0,95*3,0 + 27,9*0,7 – 19,4 = 2,98. Таким образом, при увеличении производительности труда и модернизации основных средств на предприятии балансовая прибыль в 1 квартале 2005 г. по отношению к предыдущему периоду (IV квартал 2004 г.) возрастет на 2,98%.