Тест бреуша пагана на гетероскедастичность excel - Word и Excel

A Breusch-Pagan Test is used to determine if heteroscedasticity is present in a regression analysis.

This tutorial explains how to perform a Breusch-Pagan Test in Excel.

Example: Breusch-Pagan Test in Excel

For this example we will use the following dataset that describes the attributes of 10 basketball players.

We will fit a multiple linear regression model using rating as the response variable and points, assists, and rebounds as the explanatory variables. Then we will perform a Breusch-Pagan Test to determine if heteroscedasticity is present in the regression.

Step 1: Perform multiple linear regression.

Along the top ribbon in Excel, go to the Data tab and click on Data Analysis. If you don’t see this option, then you need to first install the free Analysis ToolPak.

Once you click on Data Analysis, a new window will pop up. Select Regression and click OK. Fill in the necessary arrays for the response variables and the explanatory variables, then click OK.

This produces the following output:

Step 2: Calculate the squared residuals.

Next, we will calculate the predicted values and the squared residuals for each response value. To calculate the predicted values, we will use the coefficients from the regression output:

We will use the same formula to obtain each predicted value:

Next, we will calculate the squared residuals for each prediction:

We will use the same formula to obtain each squared residual:

Step 3: Perform a new multiple linear regression using the squared residuals as the response values.

Next, we will perform the same steps as before to conduct multiple linear regression using points, assists, and rebounds as the explanatory variables, except we will use the squared residuals as the response values this time. Here is the output of that regression:

Step 4: Perform the Breusch-Pagan Test.

Lastly, we will perform the Breusch-Pagan Test to see if heteroscedasticity was present in the original regression.

First we will calculate the Chi-Square test statistic using the formula:

X² = n*R²_new

where:

n = number of observations

R²_new= R Square of the “new” regression in which the squared residuals were used as the response variable.

In our example, X² = 10 * 0.600395 = 6.00395.

Next, we will find the p-value associated with this test statistic. We can use the following formula in Excel to do so:

=CHISQ.DIST.RT(test statistic, degrees of freedom)

In our case, the degrees of freedom is the number shown for df of regression in the output. In this case, it’s 3. Thus, our formula becomes:

=CHISQ.DIST.RT(6.00395, 3) = 0.111418.

Because this p-value is not less than 0.05, we fail to reject the null hypothesis. We do not have sufficient evidence to say that heteroscedasticity is present in the original regression model.

Источник

Тест Бреуша-Пагана: определение и пример

17 авг. 2022 г.
читать 3 мин

Одно из ключевых предположений линейной регрессии состоит в том, что остатки распределяются с одинаковой дисперсией на каждом уровне предиктора. Это предположение известно как гомоскедастичность .

Когда это предположение нарушается, говорят, что в остатках присутствует гетероскедастичность.Когда это происходит, результаты регрессии становятся ненадежными.

Один из способов визуально определить, присутствует ли гетероскедастичность, состоит в том, чтобы построить график остатков в зависимости от подогнанных значений регрессионной модели.

Если остатки становятся более разбросанными при более высоких значениях на графике, это явный признак наличия гетероскедастичности.

Формальный статистический тест, который мы можем использовать для определения наличия гетероскедастичности, — это тест Бреуша-Пагана .

Этот учебник содержит краткое объяснение теста Бреуша-Пагана вместе с примером.

Что такое тест Бреуша-Пагана?

Тест Бреуша-Пагана используется для определения наличия или отсутствия гетероскедастичности в регрессионной модели.

В тесте используются следующие нулевая и альтернативная гипотезы :

Нулевая гипотеза (H 0 ): присутствует гомоскедастичность (остатки распределены с равной дисперсией)
Альтернативная гипотеза ( HA ): присутствует гетероскедастичность (остатки не распределены с одинаковой дисперсией)

Если p-значение теста меньше некоторого уровня значимости (т. е. α = 0,05), то мы отклоняем нулевую гипотезу и делаем вывод, что в регрессионной модели присутствует гетероскедастичность.

Мы используем следующие шаги для выполнения теста Бреуша-Пагана:

1. Подберите регрессионную модель.

2. Рассчитайте квадраты невязок модели.

3. Подберите новую модель регрессии, используя квадраты невязок в качестве значений отклика.

4. Рассчитайте статистику критерия хи-квадрат X 2 как n*R 2 new , где:

n: общее количество наблюдений
R 2 new : R-квадрат новой регрессионной модели, в которой в качестве значений отклика использовались квадраты остатков.

Если значение p, соответствующее этой статистике критерия хи-квадрат с p (число предикторов) степеней свободы, меньше некоторого уровня значимости (т. е. α = 0,05), то нулевая гипотеза отвергается и делается вывод о наличии гетероскедастичности.

В противном случае не удастся отвергнуть нулевую гипотезу. В этом случае предполагается наличие гомоскедастичности.

Обратите внимание, что большинство статистических программ могут легко выполнить тест Бреуша-Пагана, поэтому вам, вероятно, никогда не придется выполнять эти шаги вручную, но полезно знать, что происходит за кулисами.

Пример теста Бреуша-Пагана

Предположим, у нас есть следующий набор данных, содержащий информацию о 10 разных баскетболистах:

Используя статистическое программное обеспечение, мы подогнали следующую модель множественной линейной регрессии :

рейтинг = 62,47 + 1,12*(очки) + 0,88*(передачи) – 0,43*(подборы)

Затем мы используем эту модель для прогнозирования рейтинга каждого игрока и рассчитываем квадраты остатков (т. е. квадрат разницы между прогнозируемым рейтингом и фактическим рейтингом):

Затем мы подгоняем новую модель регрессии, используя квадраты остатков в качестве значений отклика и исходные переменные-предикторы в качестве переменных-предикторов еще раз. Мы находим следующее:

п: 10
Р 2 новый : 0,600395

Таким образом, наша статистика критерия хи-квадрат для теста Бреуша-Пагана равна n*R 2 new = 10*0,600395 = 6,00395.Степени свободы — это p = 3 переменных-предиктора.

Согласно Калькулятору хи-квадрат для P-значения , p-значение, соответствующее X 2 = 6,00395 с 3 степенями свободы, составляет 0,111418 .

Поскольку это p-значение не меньше 0,05, мы не можем отвергнуть нулевую гипотезу. Таким образом, мы предполагаем, что гомоскедастичность присутствует.

Тест Бреуша-Пагана на практике

В следующих руководствах представлены пошаговые примеры выполнения теста Бреуша-Пагана в различных статистических программах:

Как выполнить тест Бреуша-Пагана в Excel
Как выполнить тест Бреуша-Пагана в R
Как выполнить тест Бреуша-Пагана в Python
Как выполнить тест Бреуша-Пагана в Stata

Источник

Suppose we have a sample {(X_i, y_i): i = 1, …, n} of size n with k independent variables. We perform OLS regression based on this data and find the residuals r_i based on the regression model. Next, perform OLS regression using the data {(X_i, r_i²): i = 1, …, n} to find the coefficient of determination R².

We test the null hypothesis that the original data is homoskedastic using the following test

Here, LM stands for the Lagrange Multiplier.

This test can only be used when your data is normally distributed; i.e. the residuals are normally distributed.

Essentially this test is testing whether the regression coefficients for all the independent variables are equal to zero. Thus, we can also use an F test comparing this second regression with the regression of the squared residuals only on the constant term. This is equivalent to the test

F-test

Example 1: Conduct the Breusch-Pagan test for the data in Example 2 of Multiple Regression Analysis using Excel.

The data for the first 20 (of 50) states are shown in columns A through E of Figure 1.

Figure 1 – Breusch-Pagan Test (part 1)

Column F contains the predicted Poverty values for each state based on the linear regression of the Infant Mortality, White and Crime variables on Poverty. Here, range F4:F53 contains the array formula =TREND(B4:B53,C4:E53). Column G contains the residuals (i.e. the r_i values); e.g. cell G4 contains the formula =B4-F4. Column H contains the squared residual values: e.g. cell H4 contains the formula =G4^2.

We now create the linear regression model with Infant Mortality, White and Crime as the independent variables and the squared residuals from column H as the dependent variable. The results are shown on the right side of Figure 1. We now use the results from this regression to conduct the Breusch-Pagan Test as shown in Figure 2.

Figure 2 – Breusch-Pagan Test (part 2)

We see that the p-values of the two versions of the test are .52 and .54, which means there is no heteroskedasticity.

Real Statistics Functions: The following Real Statistics functions automate the Breusch-Pagan test in Excel.

BPagStat(R1, R2, chi) = Breusch-Pagan statistic for the X values in R1 and Y values in R2; if chi = TRUE (default) then the LM statistic is returned; otherwise the F statistic is returned.

BPagTest(R1, R2, chi) = p-value of the Breusch-Pagan test for the X values in R1 and Y values in R2; if chi = TRUE (default) then the chi-square test is used; otherwise the F test is used.

The values in Figure 1 can be achieved by placing the formulas

=BPagStat(C4:E53,B4:B53) in cell S3
=BPagTest(C4:E53,B4:B53) in cell S5

=BPagStat(C4:E53,B4:B53,FALSE) in S7
=BPagTest(C4:E53,B4:B53,FALSE) in S10

Источник

Скрипт в R для этого примера

Данные для этого примера.

Гетероскедастичность — это типичная «болезнь» пространственных данных, поэтому лучше по умолчанию исходить из того, что она в вашей модели есть. Тем не менее, иногда бывает полезно уметь аккуратно проверить её наличие. Для этого можно использовать два традиционных подхода: графический анализ данных и формальные статистические тесты.

Один из способов выявления гетероскедастичности при помощи графического анализа состоит в том, чтобы построить диаграммы рассеяния, в каждой из которых по оси ординат стоит зависимая переменная, а по оси абсцисс — один из регрессоров. Если, разглядывая подобную диаграмму, вы видите нечто похожее на рисунок 2.3б, то у вас есть гетероскедастичность, связанная с соответствующим регрессором. Другой вариант состоит в анализе графика остатков регрессии. Отсортируйте остатки по возрастанию какой-либо объясняющей переменной и постройте их график. Если разброс остатков вокруг нуля равномерен (как, например, на рис. 5.1), то можно заключить, что гетероскедастичность, связанная с этим регрессором, в данных отсутствует. Если же на графике остатков явно видно, что их разброс вокруг нуля зависит от значения регрессора (как, например, на рис. 5.2), значит, гетероскедастичность есть.

Рисунок 5.1. Поведение остатков регрессии говорит в пользу гомоскедастичности

Рисунок 5.2. Поведение остатков регрессии говорит в пользу гетероскедастичности

Анализ графиков не всегда позволяет сделать однозначный вывод по поводу наличия или отсутствия гетероскедастичности, поэтому помимо него могут быть полезны соответствующие формальные статистические тесты. Ниже приводятся два наиболее часто используемых в настоящее время теста.

Тест Бреуша — Пагана

Тестируемая гипотеза в данном тесте состоит в том, что гетероскедастичности в модели нет:

(H_{0}:{sigma_{1}^{2} = ldots = sigma_{n}^{2}})

Альтернативная гипотеза — дисперсия случайной ошибки (varepsilon_{i}) некоторым образом зависит от группы переменных:

(H_{1}:{sigma_{i}^{2} = {gamma_{0} + gamma_{1}}}{z_{i}^{(1)} + ldots + gamma_{p}}z_{i}^{(p)})

Здесь (z_{i}^{(1)},z_{i}^{(2)},ldots,z_{i}^{(p)}) — набор переменных, которые предположительно влияют на дисперсию случайной ошибки. Обычно в качестве таких переменных берутся регрессоры из исходной модели, а также их квадраты.

Процедура осуществления теста устроена так: сначала при помощи обычного МНК оценивается исходная модель (для которой мы хотим проверить отсутствие гетероскедастичности) и вычисляются соответствующие остатки (e_{i}). Далее вычисляется вспомогательное значение ({{overset{sim}{sigma}}^{2} = frac{1}{n}}{sum e_{i}^{2}}). После этого необходимо оценить вспомогательное уравнение, в котором справа стоят переменные, потенциально влияющие на дисперсию случайной ошибки:

({frac{e_{i}^{2}}{{overset{sim}{sigma}}^{2}} = {gamma_{0} + gamma_{1}}}{z_{i}^{(1)} + ldots + gamma_{p}}{z_{i}^{(p)} + u_{i}})

Далее вычисляется расчетное значение тестовой статистики по простой формуле: половина от объясненной суммы квадратов во вспомогательном уравнении.

Если верна нулевая гипотеза, то указанная статистика асимптотически имеет распределение Хи-квадрат с (p) степенями свободы. Поэтому, если расчетное значение больше критического значения, взятого из таблиц распределения (chi^{2}) с (p) степенями свободы для выбранного исследователем уровня значимости, то следует отвергнуть нулевую гипотезу и заключить, что в данных есть гетероскедастичность (необходимые таблицы доступны, например, в приложении к главе 6). В противном случае можно сделать вывод в пользу гомоскедастичности.

Тест Уайта

Тестируемая гипотеза в данном тесте снова состоит в том, что гетероскедастичности в модели нет:

(H_{0}:{sigma_{1}^{2} = ldots = sigma_{n}^{2}})

Альтернативная гипотеза — дисперсия случайной ошибки (varepsilon_{i}) произвольным (возможно, нелинейным) образом зависит от переменных модели.

Процедура теста устроена так: сначала при помощи обычного МНК оценивается исходная модель (для которой мы хотим проверить отсутствие гетероскедастичности) и вычисляются соответствующие остатки (e_{i}). После этого необходимо оценить вспомогательное уравнение, в котором слева стоит (e_{i}^{2}), а справа — константа, регрессоры исходного уравнения, их квадраты и попарные произведения¹.

Далее вычисляется расчетное значение тестовой статистики по следующей формуле

({left( {R^{2}mathit{во}mathit{вспомогательном}mathit{уравнении}} right) ast n}.)

Если верна нулевая гипотеза, то указанная статистика асимптотически имеет распределение Хи-квадрат с (p) степенями свободы ((p) — число регрессоров во вспомогательном уравнении). Поэтому, если расчетное значение больше критического значения, взятого из таблиц распределения (chi^{2}) с (p) степенями свободы для выбранного исследователем уровня значимости, то следует отвергнуть нулевую гипотезу и заключить, что в данных есть гетероскедастичность. В противном случае можно сделать вывод в пользу гомоскедастичности².

Закончить обсуждение вопроса выявления гетероскедастичности следует предостережением по поводу ложной гетероскедастичности. Ложной гетероскедастичностью называется ситуация, при которой формальные тесты указывают на наличие гетероскедастичности, однако в действительности дело вовсе не в ней, а в неверной спецификации уравнения. Хорошим примером может служить рисунок 4.5б, на котором представлена нелинейная зависимость между парой переменных. Если при этом ошибочно оценить линейную регрессию (соответствующая прямая линия изображена на рисунке), то статистические тесты будут говорить в пользу гетероскедастичности, так как поведение остатков технически будет зависеть от значения регрессора (см. нижний график на этом же рисунке). Однако в действительности гетероскедастичности в модели нет, а есть только нелинейная связь между переменными.

Важно различать истинную и ложную гетероскедастичность, так как они приводят к совершенно разным последствиям. Истинная гетероскедастичность не вызывает смещения оценок коэффициентов модели, в то время как ошибочная спецификация уравнения регрессии вызывает его, то есть является гораздо более серьезной проблемой.

Пример 5.3. Оценка эффективности использования удобрений (окончание)

Для модели, оцененной в примере 5.1, осуществите тест Уайта, используя пятипроцентный уровень значимости. Интерпретируйте полученные результаты.

Решение:

Результаты оценки вспомогательного уравнения для осуществления теста Уайта представлены ниже.

Тест Уайта на гетероскедастичность

МНК, использованы наблюдения 1-200

Зависимая переменная: квадраты остатков регрессии, оцененной в примере 5.1

Коэффициент Ст. ошибка t-статистика P-значение

--------------------------------------------------------------------

const -2270,16 5654,83 -0,4015 0,6886

FUNG1 0,482935 108,468 0,004452 0,9965

FUNG2 -150,789 95,3876 -1,581 0,1158

GIRB 1,82902 98,0229 0,01866 0,9851

INSEC 129,035 72,6436 1,776 0,0775 *

LABOUR 2,05511 4,84800 0,4239 0,6722

YDOB1 30,5354 43,6171 0,7001 0,4849

YDOB2 3,43369 50,1279 0,06850 0,9455

квадрат_FUNG1 0,0956897 0,0549105 1,743 0,0833 *

FUNG1*FUNG2 0,0294522 0,0492979 0,5974 0,5510

FUNG1*GIRB -0,0332633 0,0480171 -0,6927 0,4895

FUNG1*INSEC 0,0229300 0,0554156 0,4138 0,6796

FUNG1*LABOUR -0,00259087 0,00348456 -0,7435 0,4582

FUNG1*YDOB1 0,0104778 0,0246791 0,4246 0,6717

FUNG1*YDOB2 -0,0536699 0,0501448 -1,070 0,2861

квадрат_FUNG2 0,0919819 0,0646201 1,423 0,1565

FUNG2*GIRB -0,0931636 0,0529473 -1,760 0,0803 *

FUNG2*INSEC -0,0878293 0,0548646 -1,601 0,1113

FUNG2*LABOUR -0,00520969 0,00419928 -1,241 0,2165

FUNG2*YDOB1 0,0829467 0,0471221 1,760 0,0802 *

FUNG2*YDOB2 -0,0118900 0,0437395 -0,2718 0,7861

квадрат_GIRB -0,0598434 0,0581283 -1,030 0,3048

GIRB*INSEC -0,0361947 0,0561232 -0,6449 0,5199

GIRB*LABOUR 0,00279620 0,00413522 0,6762 0,4999

GIRB*YDOB1 0,0287539 0,0384965 0,7469 0,4562

GIRB*YDOB2 0,0537695 0,0489420 1,099 0,2735

квадрат_INSEC -0,0406052 0,0570708 -0,7115 0,4778

INSEC*LABOUR -0,00562133 0,00477862 -1,176 0,2412

INSEC*YDOB1 0,0367439 0,0296061 1,241 0,2163

INSEC*YDOB2 -0,0599689 0,0474392 -1,264 0,2080

квадрат_LABOUR -0,000342326 0,000950427 -0,3602 0,7192

LABOUR*YDOB1 -0,00130669 0,00215676 -0,6059 0,5454

LABOUR*YDOB2 0,00492378 0,00240166 2,050 0,0419 **

квадрат_YDOB1 -0,0176598 0,00913794 -1,933 0,0550 *

YDOB1*YDOB2 -0,0352604 0,0255207 -1,382 0,1690

квадрат_YDOB2 0,0194422 0,0232499 0,8362 0,4042

Неисправленный R-квадрат = 0,280856

Тестовая статистика: n*R-квадрат = 56,171138,

р-значение = P(Хи-квадрат(35) > 56,171138) = 0,013059

В учебных целях мы привели оцененное уравнение полностью, хотя обычно в этом нет нужды, так как для осуществления теста достаточно знать только количество переменных в этом уравнении, его R-квадрат и число наблюдений. Обратите внимание, что число регрессоров тут действительно велико из-за добавления квадратов и попарных произведений переменных из исходного уравнения.

В нашем случае P-значение для осуществляемого теста (представленное в самом низу таблицы с результатами) составляет 0,013. Это меньше, чем 0,05. Поэтому при уровне значимости 5% следует отвергнуть нулевую гипотезу данного теста. Напомним, что нулевая гипотеза теста Уайта состоит в том, что в модели нет гетероскедастичности. Следовательно, отвергая её, мы должны заключить: в нашем случае в данных наблюдается гетероскедастичность.

Обратите внимание, что добавлять нужно только такие квадраты и попарные произведения, включение которых в модель не приводит к чистой мультиколлинеарности. Например, квадраты фиктивных переменных добавлять не стоит, так как они будут принимать в точности такие же значения, что и исходные переменные ((0^{2} = 0) и (1^{2} = 1)).↩︎
В XX веке для выявления гетероскедастчиности использовался широкий спектр альтернативных тестов: Голдфелда — Квандта, Спирмена, Глейзера и Парка. Они остались за рамками этой книги, поскольку в современных исследованиях применяются редко.↩︎

Источник

Рис. 3.16. Регрессия по последним 9 наблюдениям

Найдем статистику (3.5):

Fнабл =	QII	=	0.000121	= 0.3 .
ост
QI	0.0004
	ост

Так как

Fнабл = 0,3 < Fкрит (α;ν1 = n −2 d −k −1;ν2 = n −2 d −k −1) =

= Fкрит (0.05;ν1 = 252−7 −6 −1;ν2 = 252−7 −6 −1) =19,

то гипотеза о гомоскедастичности не отвергается.

Следует заметить, что переменная Х1 гомоскедастична, но это не значит, что по всем остальным переменным модель может быть гетероскедастичной. Поэтому необходима дальнейшая проверка по остальным переменным.

Предполагается, что дисперсия случайной ошибки зависит от

нескольких независимых переменных.

si2=γ0+γ1zi1+γ2zi2+…+γmzim.

Этапы тестирования:

1.Рассчитывают МНК-оценки коэффициентов регрессии.

2.Находят остатки ei.

3.Находят квадраты остатков ei2.

4.Рассчитывают коэффициент детерминации R2 для регрессии

ei2 = γ0+γ1zi1+γ2zi2+…+γmzim.
5. Вычисляют X2набл = n R2.	(3.6)

6.Если X2набл превосходит критическое значение статистики Хи-квадрат для m степеней свободы, гетероскедастичность присутствует.

Задача 7

По данным таблицы 3.2 проверить гипотезу о гетероскедастичности, используя тест Бреуша-Пагана.

Решение

Рассчитаем регрессию по всем шести переменным, в результате получим регрессию (рис. 3.10). При построении регрессии необходимо вывести остатки ei, для этого следует поставить флажок «Остатки» в параметрах Регрессии (рис. 2.15).

В результате получим таблицу остатков. Найдем квадраты остатков

(рис. 3.17).

Рис. 3.17. Вывод остатка регрессии

Затем строим регрессию, в которой за зависимую переменную берется столбец квадратов остатков еi2, а за зависимые переменные –переменные Х1,

Х2, Х3, Х4, Х5, Х6.

Результат представлен на рис. 3.18.

Рис. 3.18. Вывод остатка регрессии

Найдена статистика (3.6): Χ2набл = nR2 = 25 0,68 =17,15 .

Так как Х2набл=17,15> Х2крит =12,59, то гипотеза о гомоскедастичности отвергается и модель считается гетероскедастичной.

Критическое значение распределения Хи-квадрат найдено с помощью действий: fx→Статистические→ХИ2ОБР(m), где m – число переменных, входящих в уравнение регрессии (в данном случае 6).

Тест Вайта (White)

Этот тест аналогичен тесту Бреуша-Пагана. В качестве независимых переменных используются все регрессоры, их квадраты и попарные

произведения.

si2=γ0+γ1xi1+γ2xi2+…+γkxik+ γk+1xi1 xi2+ γk+2xi1 xi3 +…+ γmxik2.

Этапы тестирования:

1.Рассчитывают МНК-оценки коэффициентов регрессии.

2.Находят остатки ei.

3.Находят квадраты остатков ei2.

4.Находят оценку остаточной дисперсии Sˆ 2 .

5.Рассчитывают R2 для регрессии

e	2=γ	+γ x +γ x +…+γ x + γ	x	x + γ	x	x +…+ γ x	2.
i	0	1 i1 2 i2	k ik	k+1 i1	i2	k+2 i1	i3	m	ik
6. Вычисляют X2набл = nR2.							(3.7)

7.Если X2набл превосходит критическое значение статистики Хи-квадрат для m степеней свободы, то гетероскедастичность присутствует.

Задача 8

По данным таблицы 3.2 проверить гипотезу о гетероскедастичности, используя тест Вайта.

Решение

Так как число переменных, входящих в уравнение не может быть больше 16, оставим только первые четыре переменных. В таблице построим данные, соответствующие квадратам переменных и их перекрестным произведениям (рис. 3.19).

Рис. 3.19. Данные для построения регрессии

Построим уравнение регрессии для этих переменных. Получим коэффициент детерминации, равный 0,98 (рис. 3.20).

Рис. 3.20. Расчет теста Вайта

Рассчитаем статистику по формуле (3.7).

Так как X2набл = nR2=24,64 > Х2крит =22,36 для числа степеней свободы, равного 13, то гипотеза о гомоскедастичности отвергается и модель можно считать гетероскедастичной.

3.5.2. Коррекция на гетероскедастичность

Рассмотрим модель:

yi = β0 + β1 xi +ui .

Пусть ошибки ui не коррелированны, но характеризуются разной дисперсией:

то есть модель гетероскедастична.	D( ui ) =σi2 ,
			ошибок u имеет вид:
Матрица ковариаций	W		вектора
		2	0 …	0
	σ1
		0	σ22 …	0
	Ω =			…	.
	… … …
		0	0 …	2
		σn

Формула обобщенного метода наименьших квадратов

b = (X T Ω−1 X )−1 X T Ω−1Y

сводится к взвешенному методу наименьших квадратов, так как матрица

					2	0 …	0
				1/σ1
Ω	-1	имеет простой вид:Ω	−1		0	1/σ22 …	0
		=		… … …	.
				…
					0	0 …	2
					1/σn

Если s2i – известны, то получить модель с гомоскедастичными остатками можно, использовав в качестве весов наблюдений величины 1/σi .

Разделим каждую строку матрицы данных на σi:

= β0

+ β1

(3.8)

В результате получим преобразованную модель:

yi′ = β0

+ β1 xi′

+εi .

(3.9)

Найдем дисперсию D(εi):

σi2

D(εi ) = D (

) =

D(ui )

=1.

σi2

σi

В итоге получим пересмотренную модель:

yi′ = β0 hi + β1 xi′ +εi ,

(3.10)

где

yi′ =

hi =

xi′ =

, εi =

σi

Заметим, что модель (3.10) не включает свободный член, bi –

коэффициент регрессии при новой переменной h.

На практике дисперсии ошибок почти никогда не известны.

Однако, иногда можно предположить, что σ2i пропорциональны некоторой переменной Zi.

yi = β0 + β1 xi +ui

D ui = σi2

σi = λZi .

Тогда в качестве весов наблюдений следует использовать величину 1/zi:

= β0

+ β1

В итоге получим пересмотренную модель:

где

yi′ = β0 hi + β1 xi′ +εi ,

(3.11)

yi′ =

hi =

xi′ =

, εi

(3.12)Подобрать простое

преобразование для того, чтобы добиться гомоскедастичности удается не всегда.Часто гетероскедастичность является сигналом о неправильной функциональной форме модели.

В общем случае для коррекции гетероскедастичности используют следующую процедуру:

1.	Рассчитывают МНК-оценки коэффициентов регрессии.
2.	Находят остатки ei.
3.	Находят квадраты остатков e 2.
					i
4.	Находят логарифмы квадратов остатков ln(e	2).
						i
5.	Рассчитывают регрессиюln(ei2) = γ0+γ0zi1+γ0zi2+…+γ0zik+ui.
7.	Получают	прогноз	ln(ei2)пр.Находят	веса	наблюдений
	w =	exp(ln(e2	прогноз	)) .
	i	i

9.Полученные веса wi используют во взвешенном методе наименьших квадратов.

Задача 9

Для регрессии, рассчитанной по таблице 3.2 сделать коррекцию на гетероскедастичность.

Решение

Регрессия, рассчитанная в задаче 5 имеет вид:

уˆ = −0,6423−0,0005x1 +0,000043x2 +0,01858х3 + +0,00133х4 −0,0014х5 +0,00022х6.

Модель гетероскедастична согласно тесту Бреуша-Пагана (задача 7). Возможно, что модель имеет неправильную форму.

Построим модель

logY = β0 +log β1 X1 + β2 log X 2 +… + βk log X k +ε

и модель

logY = β0 + β1 X1 + β2 X 2 +… + βk X k +ε .

Проверим для каждой гипотезу о гетероскедастичности тестом БреушаПагана. Проделайте это самостоятельно, для нахождения логарифмов воспользуйтесь функцией: fx→Математические→LOG.

Сделаем коррекцию на гетероскедастичность, используя взвешенный метод наименьших квадратов.

Рассчитываем МНК-оценки коэффициентов регрессии, найдем остатки ei (не забудьте при нахождении регрессии поставить флажок «Остатки» в параметрах Регрессии).

Найдем квадраты остатков ei2, логарифмы квадратов остатков ln(ei2)

(рис.3.21).

Рис. 3.21. Нахождение логарифмов квадратов остатков

Построим регрессию от логарифмов остатков, независимые

переменные – значения Х1, Х2, Х3, Х4, Х5, Х6.

ln(ei2) = γ0+γ0zi1+γ0zi2+…+γ0zik+ui.

Найдем прогноз ln(ei2)пр и веса наблюдений wi = exp(ln(ei2 прогноз )) (рис.

3.22).

Рис. 3.22. Нахождение весов wi

Рассчитанные веса wi используют во взвешенном методе наименьших квадратов.

Преобразуем имеющиеся по условию данные. Поделим каждое значение таблицы на соответствующие веса, при этом по строке деление на вес не меняется, а по столбцу – меняется. Не забудьте клавишу F4 — при необходимости нажмите на нее два или три раза.

Получим преобразованные данные рис. 3.23 (обратите внимание на строку формул). Дополнительно необходимо построить столбец 1/Вес.

Рис. 3.23. Преобразование данных

Построим регрессию без свободного члена. Для этого в окне «Константа-ноль» поставьте флажок.

Получим результаты регрессии (рис. 3.24). Это модель гомоскедастична, ее коэффициенты имеют ту же самую интерпретацию, а стандартные ошибки более точные:

уˆ′= −0,618 1 −0,00036x1′ +0,0x2′ +0,018х3′ + wi

+0,0014х4′ −0,0014х5′ −0,00026х6′.

Как видно из модели значения коэффициентов поменялось незначительно, однако переменная х5 стала значимой, а х6 – поменяла знак.

Рис. 3.24. Регрессия, построенная взвешенным МНК

На значение коэффициента детерминации при взвешенном МНК обращать внимание не следует.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

Источник