Квадратичная регрессионная модель в excel это


Регрессия — это статистический метод, который мы можем использовать для объяснения взаимосвязи между одной или несколькими переменными-предикторами и переменной-откликом. Наиболее распространенным типом регрессии является линейная регрессия , которую мы используем, когда связь между переменной-предиктором и переменной-откликом является линейной .

То есть, когда предикторная переменная увеличивается, переменная отклика также имеет тенденцию к увеличению. Например, мы можем использовать модель линейной регрессии для описания взаимосвязи между количеством часов обучения (переменная-предиктор) и оценкой, которую студент получает на экзамене (переменная-ответ).

Однако иногда связь между переменной-предиктором и переменной-ответом нелинейна.Одним из распространенных типов нелинейных отношений является квадратичная зависимость , которая может выглядеть как U или перевернутая U на графике.

То есть, когда переменная-предиктор увеличивается, переменная-отклик также имеет тенденцию к увеличению, но после определенного момента переменная-отклик начинает уменьшаться, поскольку переменная-предиктор продолжает расти.

Например, мы можем использовать модель квадратичной регрессии, чтобы описать взаимосвязь между количеством часов, потраченных на работу, и уровнями счастья человека. Возможно, чем больше человек работает, тем более удовлетворенным он себя чувствует, но как только он достигает определенного порога, большая работа на самом деле приводит к стрессу и уменьшению счастья. В этом случае модель квадратичной регрессии будет соответствовать данным лучше, чем модель линейной регрессии.

Давайте рассмотрим пример выполнения квадратичной регрессии в Excel.

Квадратичная регрессия в Excel

Предположим, у нас есть данные о количестве отработанных часов в неделю и сообщаемом уровне счастья (по шкале от 0 до 100) для 16 разных людей:

Во-первых, давайте создадим диаграмму рассеяния, чтобы увидеть, является ли линейная регрессия подходящей моделью для соответствия данным.

Выделите ячейки A2:B17.Затем щелкните вкладку «ВСТАВИТЬ» на верхней ленте, затем нажмите « Разброс » в области « Диаграммы ». Это создаст диаграмму рассеяния данных:

Диаграмма рассеяния в Excel

Легко заметить, что зависимость между количеством отработанных часов и заявленным счастьем не является линейной. На самом деле он имеет U-образную форму, что делает его идеальным кандидатом для квадратичной регрессии .

Прежде чем мы подгоним модель квадратичной регрессии к данным, нам нужно создать новый столбец для квадратов значений нашей переменной-предиктора.

Сначала выделите все значения в столбце B и перетащите их в столбец C.

Затем введите формулу =A2^2 в ячейку B2. Это дает значение 36.Затем щелкните в правом нижнем углу ячейки B2 и перетащите формулу вниз, чтобы заполнить оставшиеся ячейки в столбце B.

Далее мы подгоним модель квадратичной регрессии.

Нажмите «ДАННЫЕ» на верхней ленте, затем нажмите « Анализ данных» справа. Если вы не видите эту опцию, то вам сначала нужно установить бесплатный Analysis ToolPak .

После того, как вы нажмете « Анализ данных» , появится всплывающее окно. Нажмите «Регрессия», а затем нажмите «ОК» .

Затем заполните следующие значения в появившемся окне Регрессия.Затем нажмите ОК .

Будут отображены следующие результаты:

Результаты квадратичной регрессии в Excel

Вот как интерпретировать различные числа из вывода:

Квадрат R: также известный как коэффициент детерминации, это доля дисперсии переменной отклика, которая может быть объяснена предикторными переменными. В этом примере R-квадрат равен 0,9092 , что указывает на то, что 90,92% дисперсии зарегистрированных уровней счастья можно объяснить количеством отработанных часов и количеством отработанных часов^2.

Стандартная ошибка: Стандартная ошибка регрессии — это среднее расстояние, на которое наблюдаемые значения отклоняются от линии регрессии. В этом примере наблюдаемые значения отклоняются от линии регрессии в среднем на 9,519 единиц .

F-статистика : F-статистика рассчитывается как регрессия MS/остаточная MS. Эта статистика показывает, обеспечивает ли регрессионная модель лучшее соответствие данным, чем модель, которая не содержит независимых переменных. По сути, он проверяет, полезна ли регрессионная модель в целом. Как правило, если ни одна из переменных-предикторов в модели не является статистически значимой, общая F-статистика также не является статистически значимой. В этом примере статистика F равна 65,09 , а соответствующее значение p <0,0001. Поскольку это p-значение меньше 0,05, регрессионная модель в целом является значимой.

Коэффициенты регрессии. Коэффициенты регрессии в последней таблице дают нам числа, необходимые для написания оценочного уравнения регрессии:

у шляпа = б 0 + б 1 х 1 + б 2 х 1 2

В этом примере расчетное уравнение регрессии имеет вид:

сообщаемый уровень счастья = -30,252 + 7,173 (отработанные часы) -0,106 (отработанные часы) 2

Мы можем использовать это уравнение для расчета ожидаемого уровня счастья человека на основе количества отработанных часов. Например, ожидаемый уровень счастья человека, который работает 30 часов в неделю, составляет:

сообщаемый уровень счастья = -30,252 + 7,173(30) -0,106(30) 2 = 88,649 .

Дополнительные ресурсы

Как добавить квадратную линию тренда в Excel
Как читать и интерпретировать таблицу регрессии
Что такое хорошее значение R-квадрата?
Понимание стандартной ошибки регрессии
Простое руководство по пониманию F-теста общей значимости в регрессии

You need to use an undocumented trick with Excel’s LINEST function:

=LINEST(known_y's, [known_x's], [const], [stats])

Background

A regular linear regression is calculated (with your data) as:

=LINEST(B2:B21,A2:A21)

which returns a single value, the linear slope (m) according to the formula:

enter image description here

which for your data:

enter image description here

is:

enter image description here

Undocumented trick Number 1

You can also use Excel to calculate a regression with a formula that uses an exponent for x different from 1, e.g. x1.2:

enter image description here

using the formula:

=LINEST(B2:B21, A2:A21^1.2)

which for you data:

enter image description here

is:

enter image description here

You’re not limited to one exponent

Excel’s LINEST function can also calculate multiple regressions, with different exponents on x at the same time, e.g.:

=LINEST(B2:B21,A2:A21^{1,2})

Note: if locale is set to European (decimal symbol «,»), then comma should be replaced by semicolon and backslash, i.e. =LINEST(B2:B21;A2:A21^{12})

Now Excel will calculate regressions using both x1 and x2 at the same time:

enter image description here

How to actually do it

The impossibly tricky part there’s no obvious way to see the other regression values. In order to do that you need to:

  • select the cell that contains your formula:

    enter image description here

  • extend the selection the left 2 spaces (you need the select to be at least 3 cells wide):

    enter image description here

  • press F2

  • press Ctrl+Shift+Enter

    enter image description here

You will now see your 3 regression constants:

  y = -0.01777539x^2 + 6.864151123x + -591.3531443

Bonus Chatter

I had a function that I wanted to perform a regression using some exponent:

y = m×xk + b

But I didn’t know the exponent. So I changed the LINEST function to use a cell reference instead:

=LINEST(B2:B21,A2:A21^F3, true, true)

With Excel then outputting full stats (the 4th paramter to LINEST):

enter image description here

I tell the Solver to maximize R2:

enter image description here

And it can figure out the best exponent. Which for you data:

enter image description here

is:

enter image description here

Исследуя модели простой и множественной регрессии, предполагалось, что зависимость между откликом Y и каждой из объясняющих переменных является линейной. Однако существуют и другие виды взаимосвязи. Одной из наиболее распространенных нелинейных взаимосвязей между двумя переменными является квадратичная зависимость. Для ее анализа предназначена модель квадратичной регрессии. [1]

Материал будет проиллюстрирован сквозным примером: прогнозирование продолжительности простоя художников, входящих в профсоюз. Представьте себе, что вы — директор телевизионной станции и стремитесь сократить производственные расходы. В частности, художники, входящие в профсоюз, получают почасовую оплату, даже когда они ничего не делают. Эти часы называют часами простоя. Считается, что общее количество часов простоя за неделю зависит от общего количества времени, проведенного в офисе, общего количества часов, проведенных на выезде, времени, затраченного на озвучивание, и общей продолжительности работы. Постройте модель множественной регрессии, позволяющую наиболее точно предсказать количество часов простоя. Она позволит выявить причины возникающих простоев и уменьшить их количество в будущем. Как построить наиболее подходящую модель? С чего начать?

Модель квадратичной регрессии:

где β0 — сдвиг, β1 — коэффициент линейного эффекта, β2 — коэффициент квадратичного эффекта, εi – случайная ошибка переменной Y в i-ом наблюдении.

Скачать заметку в формате Word или pdf, примеры в формате Excel2013

Модель квадратичной регрессии похожа на модель множественной регрессии с двумя переменными, за исключением того, что вторая объясняющая переменная является квадратом первой. Как и в модели множественной регрессии, выборочные коэффициенты регрессии b0,b1 и b2 представляют собой оценки параметров генеральной совокупности β0, β1 и β2. Таким образом, можно сформулировать следующую квадратичную модель с одной объясняющей переменной Х1 и зависимой переменной Y (уравнение квадратичной регрессии):

где коэффициент b0 является сдвигом, коэффициент b1 оценивает линейный эффект, а коэффициент b2 — квадратичный эффект.

Вычисление коэффициентов регрессии и предсказание отклика. Проиллюстрируем применение квадратичной модели на примере эксперимента, в котором изучается влияние зольной пыли на прочность бетона. Для этого была создана выборка, состоящая из 18 образцов 28-дневного бетона, прочность которого равна 4000 фунтов на дюйм. Объем зольной пыли колебался от 0 до 60%. Уровень значимости α = 0,05 (рис. 1).

Рис. 1. Прочность 28-дневного бетона и содержание зольной пыли в 18 образцах

Для того чтобы выбрать наиболее подходящую модель, описывающую зависимость прочности бетона от процента зольной пыли, построим диаграмму разброса (рис. 2). Как видим, при возрастании процента зольной пыли прочность бетона увеличивается, достигает максимума при содержании зольной пыли, равном 40%, а затем уменьшается. Итак, квадратичная модель точнее описывает исследуемую зависимость, чем линейная.

02. Диаграмма разброса содержания зольной пыли и прочности бетона

Рис. 2. Диаграмма разброса содержания зольной пыли (ось X) и прочности бетона (ось Y)

Значения трех коэффициентов регрессии (b0,b1 и b2) можно вычислить с помощью Пакета анализа Excel. Предварительно нужно создать еще одну колонку со значениями Х2 (рис. 3).

Рис. 3. Результаты регрессионного анализа, полученные с помощью Пакета анализа Excel при решении задачи о прочности бетона

Уравнение квадратичной регрессии имеет следующий вид:

где — предсказанная прочность i-го образца, Х1i — содержание зольной пыли в i-ом образце.

Для того чтобы продемонстрировать соответствие построенной модели исходным данным, на рис. 4 приведен график квадратичной зависимости прочности бетона от содержания зольной пыли. Для построения графика нужно вернуться к рис. 2, кликнуть правой кнопкой мыши на точках диаграммы, и выбрать Добавить линию тренда. В открывшемся окне выбрать параметр линии тренда Полиномиальная, степень 2, а также кликнуть Показывать уравнение на диаграмме.

Рис. 4. График квадратичной зависимости на диаграмме разброса содержания зольной пыли (ось X) и прочности бетона (ось Y)

Коэффициент b0, представляющий собой предсказанную среднюю прочность бетона при нулевом содержании зольной пыли, представляет собой сдвиг отклика и равен 4 486,361. Чтобы объяснить смысл коэффициентов b1 и b2, следует обратить внимание на рис. 4. Как видим, при увеличении содержания зольной пыли прочность бетона сначала увеличивается, а затем уменьшается. Этот эффект можно продемонстрировать, предсказав среднюю прочность бетона при содержании зольной пыли, равном 20, 40 и 60%. Используя квадратичную модель:

получаем следующие результаты (рис. 5):

05. Предсказанная прочность бетона на основе квадратичной модели

Рис. 5. Предсказанная прочность бетона на основе квадратичной модели

Проверка значимости квадратичной модели. Убедившись, что квадратичная модель адекватна исходным данным, можно проверить, существует ли статистически значимая зависимость между прочностью бетона Y и содержанием зольной пыли X. Нулевая и альтернативная гипотезы формулируются следующим образом: Н0: β1 = β2 = 0 (между откликом Y и объясняющей переменной Х1 нет зависимости); Н1: β1 ≠ 0 и/или β2 ≠ 0 (между откликом Y и объясняющей переменной Х1 есть зависимость). Нулевую гипотезу можно проверить с помощью F-критерия:

(см. рис. 3, ячейки D31, D32, Е31)

Если уровень значимости α = 0,05, критическое значение F-распределения, имеющего две и 15 степеней свободы, =F.ОБР(0,95;2;15) = 3,682 (рис. 6). Поскольку F = 13,84 > FU = 3,68 и р =1-F.РАСП(E31;2;15;ИСТИНА) = 0,00039 < 0,05, нулевая гипотеза Н0 отклоняется. Таким образом, между прочностью бетона и содержанием зольной пыли существует статистически значимая зависимость.

Рис. 6. Проверка гипотезы о существовании зависимости между откликом и объясняющей переменной, если уровень значимости равен 0,05, а F-распределение имеет две степени свободы в числителе и 15 – в знаменателе

Оценка квадратичного эффекта. Регрессионная модель, описывающая зависимость между двумя переменными, должна быть не только как можно более точной, но и максимально простой. Следовательно, необходимо проверить, существуют ли статистически значимые различия между квадратичной моделями. Напомним, что для оценки вклада каждой поясняющей переменной используется t-критерий. Среднеквадратичная ошибка каждого коэффициента регрессии и соответствующие значения t-статистики приведены на рис. 3. Чтобы проверить значимость квадратичного эффекта, сформулируем следующую нулевую и альтернативную гипотезы: Н0 — включение квадратичного эффекта не приводит к значительному увеличению точности модели (β2 = 0), Н1 — включение квадратичного эффекта значительно повышает точность модели (β2 ≠ 0). t-статистика квадратичного эффекта (β2) = –4,458 (см. рис. 3, ячейка D38). Критические значения t-статистики, имеющего 15 степеней свободы при уровне значимости α = 0,05: tL =СТЬЮДЕНТ.ОБР(0,025;15) = –2,1315; tU =СТЬЮДЕНТ.ОБР(0,975;15) = +2,1315 (рис. 7).

Рис. 7. Проверка гипотезы о вкладе квадратичного эффекта, если уровень значимости α = 0,05, a t-распределение имеет 15 степеней свободы

Поскольку t = –4,458 < tL = –2,1315, и, кроме того, р = 0,00046 < 0,05, нулевая гипотеза Н0 отклоняется. Следовательно, квадратичный эффект значительно повышает точность предсказания по сравнению с линейной моделью, описывающей зависимость между прочностью бетона и содержанием зольной пыли.

Коэффициент множественной смешанной корреляции в модели множественной регрессии позволяет оценить долю вариации переменной Y, объясняемой изменениями двух объясняющих переменных. В квадратичном регрессионном анализе влияния содержания золы на прочность бетона этот коэффициент задается формулой:

В нашем примере SSR = 2 695 473 (рис. 3, ячейка С31), SST = 4 156 690 (ячейка С33). Таким образом, rY.122 = 0,6485. Эта величина означает, что 64,85% вариации прочности бетона можно объяснить квадратичной зависимостью между прочностью бетона и содержанием зольной пыли.

Преобразование данных в регрессионных моделях

Перейдем к изучению регрессионных моделей, в которых независимая переменная X, зависимая переменная Y или обе переменные подвергаются преобразованиям, чтобы преодолеть ограничения, наложенные на модель, либо для ее линеаризации. К наиболее распространенным преобразованиям относятся извлечение квадратного корня или логарифмирование.

Извлечение квадратного корня. Для преодоления ограничений, связанных со свойством гомоскедастичности, [2] а также для превращения нелинейной модели в линейную часто применяется извлечение квадратного корня. Если из объясняющей переменной извлекается квадратный корень, регрессионная модель принимает следующий вид:

Пример 1. Извлечение квадратного корня из переменной X (рис. 8а) превращает нелинейную зависимость (рис. 8б) в линейную (рис. 8в).

Рис. 8. Диаграммы разброса: (б) для исходных данных; (в) для квадратного корня из переменной X

Логарифмическое преобразование. Когда нарушается условие гомоскедастичности, кроме извлечения квадратного корня, часто применяется логарифмическое преобразование. Оно также позволяет превратить нелинейную модель в линейную. Чтобы не углубляться в сложные формулы, проиллюстрируем применение логарифмического преобразования на примере.

Пример 2. Диаграмма разброса (рис. 9а), демонстрирующая экспоненциальный рост исходных данных, может принять вид линейной путем преобразования зависимой и объясняющей переменных (рис. 9б). Удобнее всего это сделать простым выбором Логарифмической шкалы по обеим осям (рис. 9в). Иногда достаточно изменить только одну ось.

Рис. 9. Диаграммы разброса: (а) для исходных данных; (б) после логарифмического преобразования переменных X и Y; (в) показано, что преобразованы не исходные данные, а вид шкал на диаграмме

Коллинеарность

Применение модели множественной регрессии сопряжено с весьма важной проблемой — возможной коллинеарностью объясняющих переменных. Коллинеарными называют объясняющие переменные, значительно коррелирующие друг с другом. В этих ситуациях переменные не добавляют новой информации, поэтому их влияние на отклик трудно оценить. Это может привести к явной неустойчивости регрессионных коэффициентов, соответствующих коллинеарным переменным. Оценить коллинеарность можно, вычислив коэффициент инфляции (variance inflationary factor – VIF) для каждой объясняющей переменной. Коэффициент инфляции:

где Rj2 — коэффициент множественной смешанной корреляции объясняющей переменной Xj со всеми другими объясняющими переменными.

Если модель содержит только две объясняющие переменные, величина R12 представляет собой коэффициент смешанной корреляции между переменными X1 и Х2. Он может совпадать с величиной R22 — коэффициентом смешанной корреляции между переменными Х2 и Х1. Если в модели содержатся три объясняющие переменные, то величина Rj2, где j = 1, 2, 3, представляет собой коэффициент множественной смешанной корреляции между переменной Xj и двумя другими объясняющими переменными.

Если объясняющие переменные не коррелируют друг с другом, коэффициент VIFj равен 1. Если объясняющие переменные сильно коррелируют друг с другом, VIFj может быть больше 10.

Модель множественной регрессии, в которой существуют большие коэффициенты инфляции, следует применять с крайней осторожностью. Эти модели позволяют предсказывать значения зависимой переменной только в том случае, если значения независимых переменных, подставляемые в модель, хорошо согласуются с данными, содержащимися в исходном наборе данных. Эти модели нельзя применять для экстраполяции отклика на значения независимых переменных, не содержащихся в исходной выборке. Кроме того, коэффициенты таких моделей не поддаются интерпретации, поскольку независимые переменные содержат перекрывающуюся информацию, а их индивидуальный вклад невозможно вычислить точно. Для решения этой проблемы следует исключить из регрессионной модели переменную, имеющую наибольший коэффициент инфляции. Довольно часто после этой операции сокращенная модель уже не содержит коллинеарных переменных.

Если вернуться к задаче о продажах батончиков OmniPower, рассмотренной ранее, окажется, что коэффициент корреляции между двумя объясняющими переменными (ценой и затратами на рекламу) равен –0,0968. Коэффициент инфляции этих переменных:

Таким образом, объясняющие переменные в задаче о продажах батончиков OmniPower не коллинеарны.

Построение модели множественной регрессии

Остановимся подробнее на процессе построения модели, содержащей несколько объясняющих переменных. Для начала вспомним о задаче, в которой для предсказания объема простоя на телевизионной станции были учтены четыре объясняющие переменные (продолжительность работы в офисе, количество часов, проведенных на выезде, время, затраченное на озвучивание, и общее количество рабочих часов в неделе). Попробуем предсказать количество часов простоя, используя данные, приведенные на рис. 10.

Рис. 10. Предсказание продолжительности простоя по количеству часов, проведенных в офисе, количеству часов, проведенных на выезде, количеству часов, затраченных на озвучивание, и общему количеству рабочих часов в неделе.

Прежде чем приступать к прогнозированию, необходимо учесть, что модель должна быть экономной. Это значит, что наша цель — разработать регрессионную модель, включающую в себя как можно меньше объясняющих переменных, позволяющих адекватно интерпретировать интересующий нас отклик. Регрессионная модель с минимальным количеством переменных намного проще других и меньше страдает от коллинеарности переменных. Кроме того, необходимо понимать, что модель с большим количеством объясняющих переменных порождает большие сложности при регрессионном анализе. Во-первых, оценка всех возможных регрессионных моделей становится крайне сложной вычислительной задачей. Во-вторых, даже если конкурентные модели удалось оценить, может оказаться, что единственной оптимальной модели не существует, а есть несколько одинаково хороших.

Начнем анализ простоев на телевизионной станции с оценки коллинеарности других объясняющих переменных, вычислив коэффициент инфляции (4) для каждой из них (рис. 11). Для этого необходимо исключить колонку Простой, а затем провести регрессионный анализ последовательно назначая в качестве зависимой переменной Присутствие, Отсутствие, Озвучивание и Всего, а в качестве объясняющих – три оставшиеся (подробнее см. Excel-файл).

Рис. 11. Анализ коллинеарности объясняющих переменных

Обратите внимание на то, что коэффициенты VIF относительно малы и колеблются от 1,23 для часов, проведенных на выезде, до 2,0 для общего количества рабочих часов. Таким образом, поскольку коэффициенты VIF не больше пяти, мы можем утверждать, что объясняющие переменные не коллинеарны.

Пошаговый подход к построению регрессионной модели. Продолжим анализ задачи о простоях и попробуем определить такой набор объясняющих переменных, который позволил бы построить адекватную и точную модель без необходимости учитывать все переменные. Одним из основных способов построения таких моделей является пошаговая регрессия, с помощью которой можно определить наилучшую регрессионную модель без перебора всех регрессионных моделей. После определения наилучшей модели для проверки проводится анализ остатков.

Напомним, что для оценки вклада переменных в модель множественной регрессии применяется F-критерий. В процессе шаговой регрессии F-критерий применяется к модели с любым количеством переменных. Важным свойством пошаговой процедуры является то, что объясняющие переменные, включенные в модель на предыдущих этапах, могут впоследствии исключаться из рассмотрения. Это значит, что на каждом этапе объясняющие переменные как включаются, так и исключаются из модели. Пошаговая регрессия останавливается, когда ни добавление, ни удаление объясняющих переменных не повышают точность модели.

При включении объясняющих переменных в модель и удалении их из нее уровень значимости α принимается равным 0,05. Начнем с попарного анализа, в котором зависимой переменной является Простой, а объясняющей переменной (единственной) последовательно: Присутствие, Отсутствие, Озвучивание и Всего (рис. 12). Видно, что наиболее сильно коррелирует с откликом Присутствие. Поскольку р-значение равно 0,001 и меньше 0,05, эта переменная включается в регрессионную модель.

Рис. 12. Анализ влияния первой объясняющей переменной на отклик

На следующем этапе в модель включается вторая объясняющая переменная. Она должна иметь наибольшее влияние на точность модели при условии, что первая объясняющая переменная (продолжительность работы в офисе) уже учтена. В данной задаче такой переменной оказалось количество часов, проведенных на выезде (рис. 13). Поскольку р-значение, соответствующее этой переменной, равно 0,027 и не больше 0,05, количество часов, проведенных на выезде (отсутствие), включается в модель.

Рис. 13. Анализ влияния второй объясняющей переменной при условии, что первая объясняющая переменная (Присутствие) уже учтена

Теперь необходимо определить, насколько велик вклад продолжительности работы в офисе и не следует ли исключить его из модели. Поскольку р-значение для этой переменной равно 0,0001, ее следует оставить в модели (см. Excel-файл).

На следующем этапе необходимо решить, стоит ли включать в модель третью переменную (рис. 14). Поскольку ни одна из оставшихся переменных не удовлетворяет F-критерию с 5%-ным уровнем значимости, в результате получаем регрессионную модель с двумя объясняющими переменными: продолжительностью работы в офисе (присутствие) и количеством часов, проведенных на выезде (отсутствие).

Рис. 14. Анализ влияния третьей объясняющей переменной при условии, что две объясняющие переменные (Присутствие и Отсутствие) уже учтены

Процедура пошаговой регрессии была предложена около тридцати лет назад, когда стоимость компьютерного времени была очень высока. В этих условиях она позволяла сократить объем перебора объясняющих переменных и широко использовалась. В настоящее время появились новые очень эффективные регрессионные модели. Так был разработан более общий подход к построению альтернативных регрессионных моделей, получивший название метода выбора наилучшего подмножества. В последнее время появилась новая методика исследования — интеллектуальный анализ данных — способ анализа информации в огромных базах данных для поиска статистически значимых зависимостей среди огромного количества объясняющих переменных. В этих условиях метод выбора наилучшего подмножества становится непрактичным.

С помощью метода выбора наилучшего подмножества либо оценивают всевозможные регрессионные модели для заданного набора данных, либо определяют наилучшие подмножества моделей для заданного количества независимых переменных. На рис. 15 показаны результаты применения метода выбора наилучшего подмножества для решения задачи о простоях на телевизионной станции. Обратите внимание на то, что максимальным значением скорректированного коэффициента r2 является число 0,551. Оно достигается для модели, в которой учитываются четыре объясняющие переменные и эффект взаимодействия всех пяти оцениваемых параметров.

15. Результаты применения метода выбора наилучшего подмножества

Рис. 15. Результаты применения метода выбора наилучшего подмножества для решения задачи о простоях на телевизионной станции; чтобы создать эту таблицу нужно последовательно провести регрессионный анализ для каждого набора объясняющих переменных (всего 15 раз, подробнее см. файл Данные для построения рисунка 15); обратите внимание на чрезвычайно маленькое значение коэффициента r2 и учтите, что скорректированный коэффициент r2 может быть отрицательным.

В качестве второго критерия часто используется статистика, предложенная Мэллоусом. Статистика Ср оценивает разность между эмпирической и истинной регрессионной моделями:

15а. Статистика Ср

где n – количество наблюдений (в нашем случае 26, см. рис. 10), k — количество независимых переменных, включенных в регрессионную модель, Т — общее количество параметров (включая эффекты взаимодействия), включенных в полную модель регрессии (T = kmax + 1), 15б. Rk2 — коэффициент множественной смешанной корреляции в регрессионной модели, содержащей k независимых переменных, 15в. RТ2 — коэффициент множественной смешанной корреляции в полной регрессионной модели, содержащей все Т оцениваемых параметра.

Вычислим статистику Ср для модели, содержащей продолжительность работы в офисе и количество часов, проведенных на выезде, используя вышеприведенную формулу:

n = 26, k = 2, T = 4 + 1 = 5, = 0,490,  = 0,623.

Таким образом,

Если отклонения регрессионной модели, содержащей k независимых переменных, от истинной модели являются случайными, среднее значение статистики Ср равно k + 1, т.е. количеству параметров. Таким образом, при оценке многих альтернативных регрессионных моделей основная цель — найти модели, для которых величина Ср близка k + 1 или меньше этого числа. Как показано на рис. 15, этому критерию соответствует лишь одна модель, содержащая все четыре независимые переменные. Следовательно, необходимо выбрать именно эту модель. Довольно часто статистика Ср выделяет не одну, как в данном случае, а несколько моделей, которые подлежат более глубокому анализу на основе критериев экономии, простоты и соответствия исходным предположениям (по результатам анализа остатков). Обратите также внимание на то, что значение статистики Ср для модели, выбранной по результатам пошагового анализа, равно 8,4. Эта величина намного превышает предполагаемый уровень k + 1 =3.

Определив объясняющие переменные, которые следует включить в модель, необходимо проверить ее точность с помощью анализа остатков (рис. 16). Обратите внимание на то, что все графики не демонстрируют никаких явных зависимостей.

Рис. 16. Графики остатков, построенные с помощью Пакета анализа Excel при решении задачи о простоях

Этапы построения регрессионной модели (рис. 17):

  1. Определить набор независимых переменных для включения в регрессионную модель.
  2. Построить полную регрессионную модель, учитывающую все независимые переменные, и вычислить коэффициент VIF для каждой из них.
  3. Определить, все ли независимые переменные имеют коэффициент VIF больше пяти.
  4. Возможны три варианта: (а) для всех независимых переменных коэффициент VIF больше пяти. Перейти к п. 5; (б) для одной независимой переменной коэффициент VIF больше пяти. Исключить ее из модели и, перейти к п. 5; (в) для нескольких независимых переменных коэффициент VIF больше пяти. Исключить из модели независимую переменную, имеющую наибольший коэффициент VIF, и перейти к п. 2.
  5. Применить метод выбора наилучшего подмножества к оставшимся переменным и определить наилучшую модель (по величине Ср).
  6. Перечислить все модели, у которых Ср ≤ k + 1.
  7. Выбрать среди моделей, обнаруженных в п. 6, наилучшую.
  8. Выполнить полный анализ выбранной модели, включая анализ остатков.
  9. В зависимости от результатов анализа остатков добавить квадратичные члены, преобразовать данные и выполнить повторный анализ.
  10. Применить полученную модель, чтобы предсказать значения зависимой переменной.

Рис. 17. Схема построения модели

Ловушки и этические проблемы, связанные со множественной регрессией

Построение моделей является синтезом искусства и науки. Разные люди придерживаются разных точек зрения на оптимальность регрессионных моделей. В любом случае рекомендуем придерживаться схемы на рис. 17. Однако применение этой схемы сопряжено с некоторыми ловушками:

  • Необходимо понимать, что при интерпретации коэффициента регрессии, соответствующего конкретной независимой переменной, остальные переменные считаются константами.
  • Следует проводить анализ остатков для каждой независимой переменной.
  • Нужно оценивать эффект взаимодействия и проверять, чтобы наклоны отклика по каждой из объясняющей переменной были одинаковыми.
  • Необходимо вычислять коэффициенты VIF для каждой независимой переменной, включаемой в модель.
  • Следует проверять несколько альтернативных моделей, используя метод выбора наилучшего подмножества.

Этические вопросы возникают, когда модель множественной регрессии используется для предсказания величин, находящихся под управлением пользователя. Ключевым моментом в этом случае являются намерения исследователя. Возможны варианты, когда статистик преднамеренно не исключает из модели множественной регрессии коллинеарные переменные и неправомерно применяет метод наименьших квадратов даже тогда, когда не выполняются необходимые условия.

Резюме. В заметке показано, как директор телевизионной станции может применять множественный линейный анализ для сокращения продолжительности простоев. Рассмотрены различные модели множественной регрессии, включая квадратичные модели, модели с фиктивными переменными, модели с эффектами взаимодействия. Изучены способы преобразования переменных, исследованы коллинеарные переменные и описан процесс построения регрессионной модели.

Рис. 18. Структурная схема заметки

Предыдущая заметка Введение в множественную регрессию

Следующая заметка Анализ временных рядов

К оглавлению Статистика для менеджеров с использованием Microsoft Excel


[1] Используются материалы книги Левин и др. Статистика для менеджеров. – М.: Вильямс, 2004. – с. 937–981

[2] Гомоскедастичность – равенство дисперсий случайных отклонений для различных Х, то есть, распределение предсказанного отклика Y вокруг среднего значения Y_среднееодинаково для всех Х.

Регрессионный анализ в Microsoft Excel

Регрессивный анализ в Microsoft Excel

Регрессионный анализ является одним из самых востребованных методов статистического исследования. С его помощью можно установить степень влияния независимых величин на зависимую переменную. В функционале Microsoft Excel имеются инструменты, предназначенные для проведения подобного вида анализа. Давайте разберем, что они собой представляют и как ими пользоваться.

Подключение пакета анализа

Но, для того, чтобы использовать функцию, позволяющую провести регрессионный анализ, прежде всего, нужно активировать Пакет анализа. Только тогда необходимые для этой процедуры инструменты появятся на ленте Эксель.

    Перемещаемся во вкладку «Файл».

Переход во вкладку Файл в Microsoft Excel

Переход в параметры в программе Microsoft Excel

Открывается окно параметров Excel. Переходим в подраздел «Надстройки».

Переход в надстройки в программе Microsoft Excel

В самой нижней части открывшегося окна переставляем переключатель в блоке «Управление» в позицию «Надстройки Excel», если он находится в другом положении. Жмем на кнопку «Перейти».

Перемещение в надстройки в программе Microsoft Excel

Активация пакета анализа в программе Microsoft Excel

Теперь, когда мы перейдем во вкладку «Данные», на ленте в блоке инструментов «Анализ» мы увидим новую кнопку – «Анализ данных».

Блок настроек Анализ в программе Microsoft Excel

Виды регрессионного анализа

Существует несколько видов регрессий:

  • параболическая;
  • степенная;
  • логарифмическая;
  • экспоненциальная;
  • показательная;
  • гиперболическая;
  • линейная регрессия.

О выполнении последнего вида регрессионного анализа в Экселе мы подробнее поговорим далее.

Линейная регрессия в программе Excel

Внизу, в качестве примера, представлена таблица, в которой указана среднесуточная температура воздуха на улице, и количество покупателей магазина за соответствующий рабочий день. Давайте выясним при помощи регрессионного анализа, как именно погодные условия в виде температуры воздуха могут повлиять на посещаемость торгового заведения.

Общее уравнение регрессии линейного вида выглядит следующим образом: У = а0 + а1х1 +…+акхк . В этой формуле Y означает переменную, влияние факторов на которую мы пытаемся изучить. В нашем случае, это количество покупателей. Значение x – это различные факторы, влияющие на переменную. Параметры a являются коэффициентами регрессии. То есть, именно они определяют значимость того или иного фактора. Индекс k обозначает общее количество этих самых факторов.

    Кликаем по кнопке «Анализ данных». Она размещена во вкладке «Главная» в блоке инструментов «Анализ».

Переход в анализ данных в программе Microsoft Excel

Открывается небольшое окошко. В нём выбираем пункт «Регрессия». Жмем на кнопку «OK».

Запуск регрессии в программе Microsoft Excel

Открывается окно настроек регрессии. В нём обязательными для заполнения полями являются «Входной интервал Y» и «Входной интервал X». Все остальные настройки можно оставить по умолчанию.

В поле «Входной интервал Y» указываем адрес диапазона ячеек, где расположены переменные данные, влияние факторов на которые мы пытаемся установить. В нашем случае это будут ячейки столбца «Количество покупателей». Адрес можно вписать вручную с клавиатуры, а можно, просто выделить требуемый столбец. Последний вариант намного проще и удобнее.

В поле «Входной интервал X» вводим адрес диапазона ячеек, где находятся данные того фактора, влияние которого на переменную мы хотим установить. Как говорилось выше, нам нужно установить влияние температуры на количество покупателей магазина, а поэтому вводим адрес ячеек в столбце «Температура». Это можно сделать теми же способами, что и в поле «Количество покупателей».

Ввод интервала в настройках регрессии в программе Microsoft Excel

С помощью других настроек можно установить метки, уровень надёжности, константу-ноль, отобразить график нормальной вероятности, и выполнить другие действия. Но, в большинстве случаев, эти настройки изменять не нужно. Единственное на что следует обратить внимание, так это на параметры вывода. По умолчанию вывод результатов анализа осуществляется на другом листе, но переставив переключатель, вы можете установить вывод в указанном диапазоне на том же листе, где расположена таблица с исходными данными, или в отдельной книге, то есть в новом файле.

Параметры вывода в настройках регрессии в программе Microsoft Excel

После того, как все настройки установлены, жмем на кнопку «OK».

Запуск регрессивного анализа в программе Microsoft Excel

Разбор результатов анализа

Результаты регрессионного анализа выводятся в виде таблицы в том месте, которое указано в настройках.

Результат анализа регрессии в программе Microsoft Excel

Одним из основных показателей является R-квадрат. В нем указывается качество модели. В нашем случае данный коэффициент равен 0,705 или около 70,5%. Это приемлемый уровень качества. Зависимость менее 0,5 является плохой.

Ещё один важный показатель расположен в ячейке на пересечении строки «Y-пересечение» и столбца «Коэффициенты». Тут указывается какое значение будет у Y, а в нашем случае, это количество покупателей, при всех остальных факторах равных нулю. В этой таблице данное значение равно 58,04.

Значение на пересечении граф «Переменная X1» и «Коэффициенты» показывает уровень зависимости Y от X. В нашем случае — это уровень зависимости количества клиентов магазина от температуры. Коэффициент 1,31 считается довольно высоким показателем влияния.

Как видим, с помощью программы Microsoft Excel довольно просто составить таблицу регрессионного анализа. Но, работать с полученными на выходе данными, и понимать их суть, сможет только подготовленный человек.

Мы рады, что смогли помочь Вам в решении проблемы.

Помимо этой статьи, на сайте еще 11907 инструкций.
Добавьте сайт Lumpics.ru в закладки (CTRL+D) и мы точно еще пригодимся вам.

Отблагодарите автора, поделитесь статьей в социальных сетях.

Опишите, что у вас не получилось. Наши специалисты постараются ответить максимально быстро.

Регрессия В Excel

Для построения модели регрессии необходимо выбрать пункт СервисАнализ данныхРегрессия . (В Excel 2007 этот режим находится в блоке Данные/Анализ данных/Регрессия ) Появится диалоговое окно, которое нужно заполнить:

В результате выводится информация, содержащая все необходимые сведения и сгруппированная в три блока: Регрессионная статистика, Дисперсионный анализ, Вывод остатка. Рассмотрим их подробнее.
1. Регрессионная статистика:
множественный R определяется формулой ;
R-квадрат вычисляется по формуле ;
Нормированный R -квадрат вычисляется по формуле ;
Стандартная ошибка S вычисляется по формуле ;
Наблюдения ¾ это количество данных n.

2. Дисперсионный анализ, строка Регрессия:
Параметр df равен m (количество наборов факторов x);
Параметр SS определяется формулой ;
Параметр MS определяется формулой ;
Статистика F определяется формулой ;
Значимость F. Если полученное число превышает α=1-p, то принимается гипотеза R 2 = 0 (нет линейной зависимости), иначе принимается гипотеза R 2 ≠0 (есть линейная зависимость).

3. Дисперсионный анализ, строка Остаток:
Параметр df равен n-m-1;
Параметр SS определяется формулой ;
Параметр MS определяется формулой .

4. Дисперсионный анализ, строка Итого содержит сумму первых двух столбцов.

5. Дисперсионный анализ, строка Y-пересечение содержит значение коэффициента a0, стандартной ошибки Sb0 и t-статистики tb0.
P-значение ¾ это значение уровней значимости, соответствующее вычисленным t-статистикам. Определяется функцией СТЬЮДРАСП(t-статистика; nm-1). Если P-значение превышает α=1-p, то соответствующая переменная статистически незначима и ее можно исключить из модели.
Нижние 95% и Верхние 95% ¾ это нижние и верхние границы 95-процентных доверительных интервалов для коэффициентов теоретического уравнения линейной регрессии. Если в блоке ввода данных значение доверительной вероятности было оставлено по умолчанию, то последние два столбца будут дублировать предыдущие. Если пользователь ввел свое значение доверительной вероятности, то последние два столбца содержат значения нижней и верхней границы для указанной доверительной вероятности.

6. Дисперсионный анализ, строки x1, x2. xm содержат значения коэффициентов, стандартных ошибок, t-статистик, P-значений и доверительных интервалов для соответствующих xi.
Блок Вывод остатка содержит значения предсказанного y (в наших обозначениях это ) и остатки .

Алгоритм работы

а) Коэффициенты уравнения соответствуют данным столбца Коэффициенты (следующий за столбцомY-пересечения) (блок Дисперсионный анализ).
б) Стандартная ошибка регрессии соответствует значению Стандартная ошибка блока Регрессионная статистика.
Стандартные ошибки коэффициентов соответствуют значениям столбца Стандартная ошибка блока Дисперсионный анализ.
в) Доверительные интервалы соответствуют интервалам Нижние %, Верхние %.
г) Статистическая значимость коэффициентов уравнения соответствует столбцу t -статистика. Граничная точка t(α; n-m-1) вычисляется с помощью функции СТЬЮДРАСПОБР(0,05;n-m-1) . Если i -ое значение P-значения меньше a, то i -ый коэффициент статистически значим и влияет на результативный признак.
д) Коэффициент детерминации R-квадрат в блоке Регрессионная статистика. Скорректированный (нормированный) коэффициент детерминации R2n. Это означает, что модель объясняет R2n*100% общего разброса значений результативного признака с учетом поправки на число степеней свободы.
Проверка гипотезы о статистической значимости коэффициента детерминации:
Проводим правостороннюю проверку. Граничная точка Fα;n-m-1 определяется с помощью функции FРАСПОБР(α;m;n-m-1) .
Статистика F (определяется из блока Дисперсионный анализ).
Если F> Fα;n-m-1, то гипотеза отвергается H0 и принимает гипотеза H1 на уровне значимости α%.
Этот вывод подтверждает число из столбца Значимость F, которое должно быть меньше значения a.

Статистические таблицы Стьюдента и Фишера

  1. Среднее значение: СРЗНАЧ(диапазон)
  2. Квадратическое отклонение: КВАДРОТКЛ(диапазон)
  3. Дисперсия: ДИСП(диапазон)
  4. Дисперсия для генеральной совокупности: ДИСПР(диапазон)
  5. Среднеквадратическое отклонение: СТАНДОТКЛОН(диапазон)
  6. Уравнение регрессии y = b1x1+b2x2+. bnxn+b0: ЛИНЕЙН(диапазон Y;диапазон X;1;1) .
  • Выделите блок ячеек размером (n+1) столбцов и 5 строк.

Методические пояснения. 1. Для вычисления коэффициентов регрессии воспользуйтесь встроенной функцией ЛИНЕЙН (функция находится в категории «Статистические»), обратите внимание, что эта функция является функцией массива, поэтому ее использование подразумевает выполнение следующих шагов:
1) В свободном месте рабочего листа выделите область ячеек размером 5 строк и 2 столбца для вывода результатов;
2) В Мастере функций (категория «Статистические») выберите функцию ЛИНЕЙН .
3) Заполните поля аргументов функции:
Известные_значения_y адреса ячеек, содержащих значения признака ;
Известные_значения_x адреса ячеек, содержащих значения фактора ;
Константа — значение (логическое), указывающее на наличие свободного члена в уравнении регрессии: укажите в поле Константа значение 1, тогда свободный член рассчитывается обычным образом (если значение поля Константа равно 0, то свободный член полагается равным 0);
Статистика — значение (логическое), которое указывает на то, следует ли выводить дополнительную информацию по регрессионному анализу или нет: укажите в поле Статистика значение равное 1, тогда будет выводиться дополнительная регрессионная информация (если Статистика=0, то выводятся только оценки коэффициентов уравнения регрессии);
4) После того, как будут заполнены все аргументы функции, нажмите комбинацию клавиш + + .
Результаты расчета параметров регрессионной модели будут выведены в виде следующей таблицы:

Значение коэффициента b Значение коэффициента a
Стандартная ошибка mb коэффициента b Стандартная ошибка ma коэффициента a
Коэффициент детерминации R 2 Стандартное отклонение остатков Sост
Значение Fстатистики Число степеней свободы, равное n-2
Регрессионная сумма квадратов Остаточная сумма квадратов

2. Табличные значения распределения Стьюдента определите с помощью функции СТЬЮДРАСПОБР. Аргументы этой функции:
Вероятность — уровень значимости α (можно принять равным 0,05, т.е. 5%);
Степени_свободы — число степеней свободы, для парной линейной регрессии равно n-2, где n — число наблюдений.
3. Табличное значение распределения Фишера определите с помощью функции FРАСПОБР. Аргументы этой функции:
Вероятность — уровень значимости α (можно принять равным 0,05, т.е. 5%);
Степени_свободы1 — число степеней свободы числителя, для парной регрессии равно 1 (т.к. один фактор);
Степени_свободы2 — число степеней свободы знаменателя, для парной регрессии равно n-2, где n — число наблюдений.
4. Коэффициент корреляции вычислите с помощью функции КОРРЕЛ. Аргументы функции:
Массив 1ш и Массив 2 — адреса ячеек, в которых содержатся значения величин, для которых вычисляется коэффициент корреляции.
5. Для вычисления (X T X) -1
1) Построите матрицу .
2) Постройте транспонированную к ней матрицу X T . Для построения матрицы X T необходимо воспользоваться функцией ТРАНСП (категория Ссылки и массивы).
3) матрицу X T необходимо умножить на матрицу X;
Произведение матриц вычисляется с помощью функции МУМНОЖ, аргументами которой являются перемножаемые матрицы. Перемножаемые матрицы должны удовлетворять условию соответствия размеров: матрица размера mxn может быть умножена справа на матрицу размера nxk, в результате получится матрица размера mxk.
В случае множественной регрессии с тремя факторами матрица X будет иметь размер nx4, матрица X T — размер 4xn, а их произведение X T X — размер 4×4.
Функция МУМНОЖ является функцией массива! Поэтому перед использованием функции МУМНОЖ необходимо выделить область размером mxk, в которой будет выведен результат, затем вставить функцию МУМНОЖ, указав ее аргументы. После этого в левой верхней ячейке выделенной области появится первый элемент результирующей матрицы. Для вывода всей матрицы нажмите комбинацию клавиш + + .
4) найти обратную матрицу (X T X) -1 ;
Обратную матрицу (X T X) -1 вычислите с помощью функции МОБР . Функция МОБР также является функцией массива и ее использование аналогично функции МУМНОЖ: сначала необходимо выделить область ячеек, в которой будет получена обратная матрица, вставить функцию МОБР, затем + + .

6. Коэффициенты множественной линейной регрессии вычисляются с помощью функции ЛИНЕЙН . Для того чтобы использовать эту функцию для вычисления параметров множественной регрессии необходимо
1) Сначала выделить на рабочем листе область размером 5x(k+1), где k — число объясняющих переменных.
2) Затем заполнить поля аргументов этой функции, которые имеют тот же смысл, что и в случае парной регрессии:
Известные_значения_y адреса ячеек, содержащих значения признака y;
Известные_значения_x адреса ячеек, содержащих значения всех объясняющих переменных.
Обратите внимание: выборочные значения факторов должны располагаться рядом друг с другом (в смежной области), причем предполагается, что в первом столбце (строке) содержатся значения первой объясняющей переменной, во втором столбце — второй и т.д.
Константа значение (логическое), указывающее на наличие свободного члена в уравнении регрессии: укажите в поле Константа значение 1, тогда свободный член рассчитывается обычным образом (если значение поля Константа равно 0, то свободный член полагается равным 0);
Статистика значение (логическое), которое указывает на то, следует ли выводить дополнительную информацию по регрессионному анализу или нет: укажите в поле Статистика значение равное 1, тогда будет выводиться дополнительная регрессионная информация (если Статистика=0, то выводятся только оценки коэффициентов уравнения регрессии);

Регрессионный анализ в Microsoft Excel

Регрессивный анализ в Microsoft Excel

​Смотрите также​ При значении коэффициента​ 75,5%. Это означает,​х​ нескольких независимых переменных.​ D, F.​ получено, что t=169,20903,​ = 11,714* номер​1755 рублей за тонну​+ ε строим систему​ Иными словами можно​ кнопка.​20​ того или иного​ или в отдельной​

​ В нём обязательными​степенная;​

Подключение пакета анализа

​Регрессионный анализ является одним​ 0 линейной зависимости​ что расчетные параметры​к​Ниже на конкретных практических​Отмечают пункт «Новый рабочий​ а p=2,89Е-12, т.​ месяца + 1727,54.​4​

  1. ​ нормальных уравнений (см.​​ утверждать, что на​​Теперь, когда под рукой​

    Переход во вкладку Файл в Microsoft Excel

  2. ​50000 рублей​​ параметра от одной​​ книге, то есть​

    Переход в параметры в программе Microsoft Excel

  3. ​ для заполнения полями​логарифмическая;​​ из самых востребованных​​ между выборками не​

    Переход в надстройки в программе Microsoft Excel

  4. ​ модели на 75,5%​.​ примерах рассмотрим эти​​ лист» и нажимают​​ е. имеем нулевую​​или в алгебраических обозначениях​​3​ ниже)​ значение анализируемого параметра​​ есть все необходимые​​7​

    Перемещение в надстройки в программе Microsoft Excel

  5. ​ либо нескольких независимых​ в новом файле.​ являются​​экспоненциальная;​​ методов статистического исследования.​ существует.​

Активация пакета анализа в программе Microsoft Excel

​ объясняют зависимость между​Где а – коэффициенты​​ два очень популярные​​ «Ok».​ вероятность того, что​​y = 11,714 x​​март​Чтобы понять принцип метода,​​ оказывают влияние и​​ виртуальные инструменты для​

Блок настроек Анализ в программе Microsoft Excel

Виды регрессионного анализа

​5​

  • ​ переменных. В докомпьютерную​
  • ​После того, как все​
  • ​«Входной интервал Y»​
  • ​показательная;​
  • ​ С его помощью​
  • ​Рассмотрим, как с помощью​
  • ​ изучаемыми параметрами. Чем​

​ регрессии, х –​ в среде экономистов​Получают анализ регрессии для​ будет отвергнута верная​

Линейная регрессия в программе Excel

​ + 1727,54​1767 рублей за тонну​ рассмотрим двухфакторный случай.​ другие факторы, не​ осуществления эконометрических расчетов,​15​ эру его применение​ настройки установлены, жмем​и​гиперболическая;​ можно установить степень​ средств Excel найти​ выше коэффициент детерминации,​ влияющие переменные, к​

​ анализа. А также​ данной задачи.​ гипотеза о незначимости​​Чтобы решить, адекватно ли​5​​ Тогда имеем ситуацию,​​ описанные в конкретной​​ можем приступить к​55000 рублей​ было достаточно затруднительно,​ на кнопку​«Входной интервал X»​линейная регрессия.​​ влияния независимых величин​​ коэффициент корреляции.​ тем качественнее модель.​ – число факторов.​​ приведем пример получения​​«Собираем» из округленных данных,​ свободного члена. Для​ полученное уравнения линейной​4​ описываемую формулой​​ модели.​​ решению нашей задачи.​8​

  1. ​ особенно если речь​​«OK»​​. Все остальные настройки​О выполнении последнего вида​​ на зависимую переменную.​​Для нахождения парных коэффициентов​​ Хорошо – выше​​В нашем примере в​

    Переход в анализ данных в программе Microsoft Excel

  2. ​ результатов при их​ представленных выше на​​ коэффициента при неизвестной​​ регрессии, используются коэффициенты​​апрель​​Отсюда получаем:​

    Запуск регрессии в программе Microsoft Excel

  3. ​Следующий коэффициент -0,16285, расположенный​ Для этого:​6​ шла о больших​​.​​ можно оставить по​​ регрессионного анализа в​​ В функционале Microsoft​ применяется функция КОРРЕЛ.​ 0,8. Плохо –​

    ​ качестве У выступает​​ объединении.​​ листе табличного процессора​ t=5,79405, а p=0,001158.​ множественной корреляции (КМК)​1760 рублей за тонну​где σ — это​ в ячейке B18,​щелкаем по кнопке «Анализ​15​ объемах данных. Сегодня,​Результаты регрессионного анализа выводятся​ умолчанию.​ Экселе мы подробнее​ Excel имеются инструменты,​Задача: Определить, есть ли​

    ​ меньше 0,5 (такой​​ показатель уволившихся работников.​​Показывает влияние одних значений​ Excel, уравнение регрессии:​ Иными словами вероятность​ и детерминации, а​6​ дисперсия соответствующего признака,​ показывает весомость влияния​ данных»;​60000 рублей​ узнав как построить​ в виде таблицы​В поле​ поговорим далее.​ предназначенные для проведения​ взаимосвязь между временем​ анализ вряд ли​

    Ввод интервала в настройках регрессии в программе Microsoft Excel

    ​ Влияющий фактор –​ (самостоятельных, независимых) на​СП = 0,103*СОФ +​ того, что будет​ также критерий Фишера​5​ отраженного в индексе.​ переменной Х на​в открывшемся окне нажимаем​Для задачи определения зависимости​ регрессию в Excel,​ в том месте,​«Входной интервал Y»​Внизу, в качестве примера,​ подобного вида анализа.​ работы токарного станка​ можно считать резонным).​ заработная плата (х).​ зависимую переменную. К​ 0,541*VO – 0,031*VK​ отвергнута верная гипотеза​ и критерий Стьюдента.​май​МНК применим к уравнению​ Y. Это значит,​

    Параметры вывода в настройках регрессии в программе Microsoft Excel

    ​ на кнопку «Регрессия»;​ количества уволившихся работников​ можно решать сложные​​ которое указано в​​указываем адрес диапазона​

Запуск регрессивного анализа в программе Microsoft Excel

Разбор результатов анализа

​ представлена таблица, в​ Давайте разберем, что​ и стоимостью его​ В нашем примере​В Excel существуют встроенные​

Результат анализа регрессии в программе Microsoft Excel

​ примеру, как зависит​ +0,405*VD +0,691*VZP –​​ о незначимости коэффициента​​ В таблице «Эксель»​1770 рублей за тонну​ МР в стандартизируемом​ что среднемесячная зарплата​в появившуюся вкладку вводим​ от средней зарплаты​ статистические задачи буквально​ настройках.​

​ ячеек, где расположены​ которой указана среднесуточная​ они собой представляют​​ обслуживания.​​ – «неплохо».​​ функции, с помощью​​ количество экономически активного​ 265,844.​ при неизвестной, равна​ с результатами регрессии​7​ масштабе. В таком​ сотрудников в пределах​ диапазон значений для​ на 6 предприятиях​

​ за пару минут.​​Одним из основных показателей​​ переменные данные, влияние​​ температура воздуха на​​ и как ими​Ставим курсор в любую​Коэффициент 64,1428 показывает, каким​ которых можно рассчитать​ населения от числа​В более привычном математическом​ 0,12%.​ они выступают под​6​

​ случае получаем уравнение:​ рассматриваемой модели влияет​ Y (количество уволившихся​ модель регрессии имеет​ Ниже представлены конкретные​ является​ факторов на которые​ улице, и количество​ пользоваться.​

​ ячейку и нажимаем​

lumpics.ru

Регрессия в Excel: уравнение, примеры. Линейная регрессия

​ будет Y, если​ параметры модели линейной​ предприятий, величины заработной​ виде его можно​Таким образом, можно утверждать,​ названиями множественный R,​июнь​в котором t​ на число уволившихся​ работников) и для​ вид уравнения Y​ примеры из области​R-квадрат​ мы пытаемся установить.​ покупателей магазина за​Скачать последнюю версию​ кнопку fx.​ все переменные в​ регрессии. Но быстрее​ платы и др.​

Виды регрессии

​ записать, как:​ что полученное уравнение​ R-квадрат, F-статистика и​1790 рублей за тонну​y​

  • ​ с весом -0,16285,​
  • ​ X (их зарплаты);​
  • ​ = а​
  • ​ экономики.​
  • ​. В нем указывается​
  • ​ В нашем случае​
  • ​ соответствующий рабочий день.​

Пример 1

​ Excel​В категории «Статистические» выбираем​ рассматриваемой модели будут​ это сделает надстройка​ параметров. Или: как​

​y = 0,103*x1 +​ линейной регрессии адекватно.​ t-статистика соответственно.​8​, t​ т. е. степень​подтверждаем свои действия нажатием​

​0​

​Само это понятие было​

​ качество модели. В​

​ это будут ячейки​

​ Давайте выясним при​

​Но, для того, чтобы​

​ функцию КОРРЕЛ.​

​ равны 0. То​

​ «Пакет анализа».​

​ влияют иностранные инвестиции,​

​ 0,541*x2 – 0,031*x3​

​Множественная регрессия в Excel​

​КМК R дает возможность​

​7​

​x​

​ ее влияния совсем​

​ кнопки «Ok».​

​+ а​

​ введено в математику​

​ нашем случае данный​

​ столбца «Количество покупателей».​

​ помощи регрессионного анализа,​

​ использовать функцию, позволяющую​

​Аргумент «Массив 1» -​

​ есть на значение​

​Активируем мощный аналитический инструмент:​

​ цены на энергоресурсы​

​ +0,405*x4 +0,691*x5 –​

​ выполняется с использованием​

​ оценить тесноту вероятностной​

​июль​

​1, …​

​ небольшая. Знак «-»​

​В результате программа автоматически​

​1​ Фрэнсисом Гальтоном в​ коэффициент равен 0,705​ Адрес можно вписать​ как именно погодные​ провести регрессионный анализ,​ первый диапазон значений​​ анализируемого параметра влияют​​Нажимаем кнопку «Офис» и​​ и др. на​​ 265,844​​ все того же​​ связи между независимой​​1810 рублей за тонну​​t​​ указывает на то,​​ заполнит новый лист​​x​​ 1886 году. Регрессия​ или около 70,5%.​​ вручную с клавиатуры,​​ условия в виде​ прежде всего, нужно​ – время работы​

​ и другие факторы,​ переходим на вкладку​ уровень ВВП.​Данные для АО «MMM»​ инструмента «Анализ данных».​ и зависимой переменными.​

Использование возможностей табличного процессора «Эксель»

​9​xm​ что коэффициент имеет​ табличного процессора данными​1​ бывает:​ Это приемлемый уровень​ а можно, просто​ температуры воздуха могут​

  • ​ активировать Пакет анализа.​ станка: А2:А14.​
  • ​ не описанные в​ «Параметры Excel». «Надстройки».​
  • ​Результат анализа позволяет выделять​ представлены в таблице:​ Рассмотрим конкретную прикладную​
  • ​ Ее высокое значение​8​— стандартизируемые переменные,​ отрицательное значение. Это​

​ анализа регрессии. Обратите​+…+а​линейной;​ качества. Зависимость менее​ выделить требуемый столбец.​ повлиять на посещаемость​

Линейная регрессия в Excel

​ Только тогда необходимые​Аргумент «Массив 2» -​ модели.​Внизу, под выпадающим списком,​ приоритеты. И основываясь​СОФ, USD​ задачу.​

  • ​ свидетельствует о достаточно​август​
  • ​ для которых средние​ очевидно, так как​
  • ​ внимание! В Excel​k​параболической;​ 0,5 является плохой.​ Последний вариант намного​
  • ​ торгового заведения.​ для этой процедуры​

​ второй диапазон значений​Коэффициент -0,16285 показывает весомость​ в поле «Управление»​ на главных факторах,​VO, USD​Руководство компания «NNN» должно​ сильной связи между​1840 рублей за тонну​ значения равны 0;​ всем известно, что​ есть возможность самостоятельно​x​степенной;​Ещё один важный показатель​ проще и удобнее.​Общее уравнение регрессии линейного​ инструменты появятся на​

Анализ результатов регрессии для R-квадрата

​ – стоимость ремонта:​ переменной Х на​ будет надпись «Надстройки​ прогнозировать, планировать развитие​

регрессия в Excel

​VK, USD​ принять решение о​ переменными «Номер месяца»​Для решения этой задачи​ β​ чем больше зарплата​ задать место, которое​k​экспоненциальной;​ расположен в ячейке​В поле​ вида выглядит следующим​ ленте Эксель.​ В2:В14. Жмем ОК.​ Y. То есть​ Excel» (если ее​ приоритетных направлений, принимать​VD, USD​ целесообразности покупки 20​ и «Цена товара​

Анализ коэффициентов

​ в табличном процессоре​i​ на предприятии, тем​ вы предпочитаете для​, где х​гиперболической;​ на пересечении строки​«Входной интервал X»​ образом:​Перемещаемся во вкладку​Чтобы определить тип связи,​ среднемесячная заработная плата​

​ нет, нажмите на​ управленческие решения.​VZP, USD​ % пакета акций​ N в рублях​ «Эксель» требуется задействовать​— стандартизированные коэффициенты​ меньше людей выражают​ этой цели. Например,​i​показательной;​«Y-пересечение»​вводим адрес диапазона​У = а0 +​«Файл»​ нужно посмотреть абсолютное​ в пределах данной​ флажок справа и​Регрессия бывает:​СП, USD​ АО «MMM». Стоимость​ за 1 тонну».​ уже известный по​

Множественная регрессия

​ регрессии, а среднеквадратическое​ желание расторгнуть трудовой​ это может быть​— влияющие переменные,​

​логарифмической.​​и столбца​​ ячеек, где находятся​​ а1х1 +…+акхк​​.​​ число коэффициента (для​​ модели влияет на​ выберите). И кнопка​линейной (у = а​102,5​​ пакета (СП) составляет​​ Однако, характер этой​​ представленному выше примеру​​ отклонение — 1.​​ договор или увольняется.​​ тот же лист,​ a​

Оценка параметров

​Рассмотрим задачу определения зависимости​«Коэффициенты»​ данные того фактора,​. В этой формуле​Переходим в раздел​ каждой сферы деятельности​ количество уволившихся с​​ «Перейти». Жмем.​​ + bx);​​535,5​​ 70 млн американских​​ связи остается неизвестным.​​ инструмент «Анализ данных».​​Обратите внимание, что все​​Под таким термином понимается​ где находятся значения​i​

множественная регрессия

​ количества уволившихся членов​. Тут указывается какое​ влияние которого на​Y​

коэффициент регрессии

​«Параметры»​

уравнение регрессии в Excel

​ есть своя шкала).​ весом -0,16285 (это​Открывается список доступных надстроек.​

​параболической (y = a​45,2​ долларов. Специалистами «NNN»​Квадрат коэффициента детерминации R2(RI)​

линейная регрессия в Excel

​ Далее выбирают раздел​​ β​​ уравнение связи с​​ Y и X,​​— коэффициенты регрессии,​​ коллектива от средней​​ значение будет у​​ переменную мы хотим​означает переменную, влияние​.​Для корреляционного анализа нескольких​​ небольшая степень влияния).​​ Выбираем «Пакет анализа»​ + bx +​41,5​

​ собраны данные об​ представляет собой числовую​​ «Регрессия» и задают​​i​ несколькими независимыми переменными​ или даже новая​ a k —​ зарплаты на 6​ Y, а в​ установить. Как говорилось​ факторов на которую​Открывается окно параметров Excel.​ параметров (более 2)​ Знак «-» указывает​

Задача с использованием уравнения линейной регрессии

​ и нажимаем ОК.​ cx2);​21,55​ аналогичных сделках. Было​ характеристику доли общего​ параметры. Нужно помнить,​в данном случае​ вида:​

​ книга, специально предназначенная​

​ число факторов.​

​ промышленных предприятиях.​

​ нашем случае, это​

​ выше, нам нужно​

​ мы пытаемся изучить.​

​ Переходим в подраздел​

​ удобнее применять «Анализ​

​ на отрицательное влияние:​

​После активации надстройка будет​

​экспоненциальной (y = a​

​64,72​

​ принято решение оценивать​

​ разброса и показывает,​

​ что в поле​

​ заданы, как нормируемые​

​y=f(x​

​ для хранения подобных​

​Для данной задачи Y​

​Задача. На шести предприятиях​

​ количество покупателей, при​

​ установить влияние температуры​

​ В нашем случае,​

​«Надстройки»​

​ данных» (надстройка «Пакет​

​ чем больше зарплата,​

​ доступна на вкладке​

​ * exp(bx));​

​Подставив их в уравнение​

​ стоимость пакета акций​

​ разброс какой части​

​ «Входной интервал Y»​

​ и централизируемые, поэтому​

​1​

​ данных.​

​ — это показатель​

​ проанализировали среднемесячную заработную​

​ всех остальных факторах​

​ на количество покупателей​

​ это количество покупателей.​.​ анализа»). В списке​ тем меньше уволившихся.​ «Данные».​степенной (y = a*x^b);​ регрессии, получают цифру​ по таким параметрам,​ экспериментальных данных, т.е.​ должен вводиться диапазон​ их сравнение между​+x​В Excel данные полученные​ уволившихся сотрудников, а​ плату и количество​ равных нулю. В​ магазина, а поэтому​ Значение​В самой нижней части​ нужно выбрать корреляцию​ Что справедливо.​Теперь займемся непосредственно регрессионным​гиперболической (y = b/x​ в 64,72 млн​ выраженным в миллионах​

​ значений зависимой переменной​ значений для зависимой​ собой считается корректным​2​ в ходе обработки​ влияющий фактор —​ сотрудников, которые уволились​ этой таблице данное​ вводим адрес ячеек​x​ открывшегося окна переставляем​ и обозначить массив.​​ анализом.​ + a);​

​ американских долларов. Это​ американских долларов, как:​ соответствует уравнению линейной​

​ переменной (в данном​

​ и допустимым. Кроме​+…x​

Анализ результатов

​ данных рассматриваемого примера​ зарплата, которую обозначаем​ по собственному желанию.​ значение равно 58,04.​ в столбце «Температура».​– это различные​ переключатель в блоке​ Все.​Корреляционный анализ помогает установить,​Открываем меню инструмента «Анализ​логарифмической (y = b​ значит, что акции​кредиторская задолженность (VK);​

​ регрессии. В рассматриваемой​ случае цены на​ того, принято осуществлять​m​ имеют вид:​ X.​ В табличной форме​Значение на пересечении граф​ Это можно сделать​ факторы, влияющие на​«Управление»​Полученные коэффициенты отобразятся в​ есть ли между​

​ данных». Выбираем «Регрессия».​ * 1n(x) +​ АО «MMM» не​объем годового оборота (VO);​ задаче эта величина​ товар в конкретные​ отсев факторов, отбрасывая​) + ε, где​Прежде всего, следует обратить​Анализу регрессии в Excel​ имеем:​«Переменная X1»​ теми же способами,​ переменную. Параметры​в позицию​

​ корреляционной матрице. Наподобие​ показателями в одной​Откроется меню для выбора​ a);​ стоит приобретать, так​дебиторская задолженность (VD);​

​ равна 84,8%, т.​ месяцы года), а​ те из них,​ y — это​ внимание на значение​ должно предшествовать применение​A​​и​​ что и в​a​«Надстройки Excel»​

​ такой:​ или двух выборках​ входных значений и​показательной (y = a​ как их стоимость​стоимость основных фондов (СОФ).​ е. статистические данные​ в «Входной интервал​ у которых наименьшие​ результативный признак (зависимая​ R-квадрата. Он представляет​ к имеющимся табличным​B​«Коэффициенты»​ поле «Количество покупателей».​являются коэффициентами регрессии.​, если он находится​На практике эти две​

​ связь. Например, между​ параметров вывода (где​ * b^x).​

Задача о целесообразности покупки пакета акций

​ в 70 млн​Кроме того, используется параметр​ с высокой степенью​ X» — для​ значения βi.​ переменная), а x​

​ собой коэффициент детерминации.​ данным встроенных функций.​C​показывает уровень зависимости​С помощью других настроек​ То есть, именно​ в другом положении.​ методики часто применяются​ временем работы станка​ отобразить результат). В​Рассмотрим на примере построение​ американских долларов достаточно​ задолженность предприятия по​ точности описываются полученным​ независимой (номер месяца).​

  • ​Предположим, имеется таблица динамики​
  • ​1​
  • ​ В данном примере​
  • ​ Однако для этих​

​1​ Y от X.​ можно установить метки,​ они определяют значимость​ Жмем на кнопку​

Решение средствами табличного процессора Excel

​ вместе.​ и стоимостью ремонта,​ полях для исходных​ регрессионной модели в​

как построить регрессию в Excel

​ завышена.​

  • ​ зарплате (V3 П)​
  • ​ УР.​
  • ​ Подтверждаем действия нажатием​ цены конкретного товара​, x​ R-квадрат = 0,755​
  • ​ целей лучше воспользоваться​Х​ В нашем случае​ уровень надёжности, константу-ноль,​ того или иного​«Перейти»​Пример:​ ценой техники и​

​ данных указываем диапазон​ Excel и интерпретацию​Как видим, использование табличного​

​ в тысячах американских​F-статистика, называемая также критерием​

регрессия примеры в Excel

Изучение результатов и выводы

​ «Ok». На новом​ N в течение​2​ (75,5%), т. е.​

​ очень полезной надстройкой​Количество уволившихся​ — это уровень​ отобразить график нормальной​

​ фактора. Индекс​.​Строим корреляционное поле: «Вставка»​

​ продолжительностью эксплуатации, ростом​ описываемого параметра (У)​ результатов. Возьмем линейный​ процессора «Эксель» и​

​ долларов.​ Фишера, используется для​

​ листе (если так​

​ последних 8 месяцев.​

​, …x​

​ расчетные параметры модели​

​ «Пакет анализа». Для​

​Зарплата​

​ зависимости количества клиентов​

​ вероятности, и выполнить​

​k​

​Открывается окно доступных надстроек​

​ — «Диаграмма» -​

​ и весом детей​

​ и влияющего на​ тип регрессии.​ уравнения регрессии позволило​Прежде всего, необходимо составить​ оценки значимости линейной​ было указано) получаем​ Необходимо принять решение​m​ объясняют зависимость между​ его активации нужно:​2​

​ магазина от температуры.​ другие действия. Но,​обозначает общее количество​ Эксель. Ставим галочку​ «Точечная диаграмма» (дает​ и т.д.​

​ него фактора (Х).​Задача. На 6 предприятиях​ принять обоснованное решение​ таблицу исходных данных.​ зависимости, опровергая или​ данные для регрессии.​ о целесообразности приобретения​

​— это признаки-факторы​

fb.ru

Корреляционно-регрессионный анализ в Excel: инструкция выполнения

​ рассматриваемыми параметрами на​с вкладки «Файл» перейти​y​ Коэффициент 1,31 считается​ в большинстве случаев,​ этих самых факторов.​ около пункта​

​ сравнивать пары). Диапазон​Если связь имеется, то​ Остальное можно и​ была проанализирована среднемесячная​ относительно целесообразности вполне​ Она имеет следующий​ подтверждая гипотезу о​Строим по ним линейное​

Регрессионный анализ в Excel

​ его партии по​ (независимые переменные).​ 75,5 %. Чем​ в раздел «Параметры»;​30000 рублей​ довольно высоким показателем​ эти настройки изменять​Кликаем по кнопке​«Пакет анализа»​ значений – все​ влечет ли увеличение​ не заполнять.​ заработная плата и​

​ конкретной сделки.​ вид:​ ее существовании.​ уравнение вида y=ax+b,​ цене 1850 руб./т.​Для множественной регрессии (МР)​

​ выше значение коэффициента​

  • ​в открывшемся окне выбрать​3​
  • ​ влияния.​ не нужно. Единственное​«Анализ данных»​
  • ​. Жмем на кнопку​ числовые данные таблицы.​
  • ​ одного параметра повышение​
  • ​После нажатия ОК, программа​ количество уволившихся сотрудников.​
  • ​Теперь вы знаете, что​Далее:​Значение t-статистики (критерий Стьюдента)​
  • ​ где в качестве​A​

​ ее осуществляют, используя​ детерминации, тем выбранная​ строку «Надстройки»;​1​Как видим, с помощью​

​ на что следует​. Она размещена во​ «OK».​Щелкаем левой кнопкой мыши​ (положительная корреляция) либо​ отобразит расчеты на​ Необходимо определить зависимость​

Зарплата сотрудников.

​ такое регрессия. Примеры​вызывают окно «Анализ данных»;​

​ помогает оценивать значимость​​ параметров a и​​B​​ метод наименьших квадратов​​ модель считается более​​щелкнуть по кнопке «Перейти»,​​60​​ программы Microsoft Excel​​ обратить внимание, так​​ вкладке​​Теперь, когда мы перейдем​

​ по любой точке​ уменьшение (отрицательная) другого.​ новом листе (можно​ числа уволившихся сотрудников​

​ в Excel, рассмотренные​выбирают раздел «Регрессия»;​ коэффициента при неизвестной​ b выступают коэффициенты​C​

​ (МНК). Для линейных​ применимой для конкретной​ расположенной внизу, справа​35000 рублей​ довольно просто составить​ это на параметры​«Главная»​

​ во вкладку​

  1. ​ на диаграмме. Потом​ Корреляционный анализ помогает​ выбрать интервал для​Надстройки.
  2. ​ от средней зарплаты.​ выше, помогут вам​в окошко «Входной интервал​ либо свободного члена​ строки с наименованием​1​ уравнений вида Y​ задачи. Считается, что​Управление.
  3. ​ от строки «Управление»;​4​ таблицу регрессионного анализа.​

Пакет анализа.

​ вывода. По умолчанию​в блоке инструментов​«Данные»​

Анализ данных.

​ правой. В открывшемся​ аналитику определиться, можно​

  1. ​ отображения на текущем​Модель линейной регрессии имеет​Регрессия.
  2. ​ в решение практических​ Y» вводят диапазон​ линейной зависимости. Если​ номера месяца и​номер месяца​ = a +​ она корректно описывает​поставить галочку рядом с​2​ Но, работать с​ вывод результатов анализа​Параметры регрессии.
  3. ​«Анализ»​, на ленте в​ меню выбираем «Добавить​ ли по величине​ листе или назначить​ следующий вид:​ задач из области​ значений зависимых переменных​

Результат анализа регрессии.

​ значение t-критерия >​ коэффициенты и строки​название месяца​

​ b​ реальную ситуацию при​ названием «Пакет анализа»​35​ полученными на выходе​ осуществляется на другом​.​ блоке инструментов​ линию тренда».​ одного показателя предсказать​ вывод в новую​У = а​ эконометрики.​ из столбца G;​ t​ «Y-пересечение» из листа​цена товара N​

​1​ значении R-квадрата выше​ и подтвердить свои​40000 рублей​ данными, и понимать​ листе, но переставив​Открывается небольшое окошко. В​«Анализ»​Назначаем параметры для линии.​ возможное значение другого.​

​ книгу).​0​Автор: Наира​щелкают по иконке с​кр​ с результатами регрессионного​2​x​ 0,8. Если R-квадрата​ действия, нажав «Ок».​5​ их суть, сможет​ переключатель, вы можете​ нём выбираем пункт​

​мы увидим новую​

Корреляционный анализ в Excel

​ Тип – «Линейная».​Коэффициент корреляции обозначается r.​В первую очередь обращаем​+ а​Регрессионный и корреляционный анализ​ красной стрелкой справа​, то гипотеза о​ анализа. Таким образом,​1​1​Число 64,1428 показывает, каким​

​Если все сделано правильно,​3​ только подготовленный человек.​ установить вывод в​«Регрессия»​ кнопку –​ Внизу – «Показать​ Варьируется в пределах​ внимание на R-квадрат​1​

​ – статистические методы​ от окна «Входной​ незначимости свободного члена​ линейное уравнение регрессии​январь​+…+b​ будет значение Y,​ в правой части​20​Автор: Максим Тютюшев​

​ указанном диапазоне на​. Жмем на кнопку​«Анализ данных»​

​ уравнение на диаграмме».​ от +1 до​

​ и коэффициенты.​х​ исследования. Это наиболее​ интервал X» и​ линейного уравнения отвергается.​

Время и стоимость.

​ (УР) для задачи​1750 рублей за тонну​m​

  1. ​ если все переменные​ вкладки «Данные», расположенном​
  2. ​45000 рублей​Регрессионный анализ — это​ том же листе,​«OK»​
  3. ​.​Жмем «Закрыть».​ -1. Классификация корреляционных​R-квадрат – коэффициент детерминации.​

Функция КОРРЕЛ.

​1​ распространенные способы показать​ выделяют на листе​В рассматриваемой задаче для​ 3 записывается в​

​3​x​ xi в рассматриваемой​ над рабочим листом​6​ статистический метод исследования,​ где расположена таблица​.​

​Существует несколько видов регрессий:​Теперь стали видны и​ связей для разных​

Корреляционная матрица.

Корреляционно-регрессионный анализ

​ В нашем примере​+…+а​ зависимость какого-либо параметра​

​ диапазон всех значений​

Объем продаж и цена.

  1. ​ свободного члена посредством​ виде:​2​m​ нами модели обнулятся.​ «Эксель», появится нужная​Поле корреляции.
  2. ​4​ позволяющий показать зависимость​ с исходными данными,​Открывается окно настроек регрессии.​параболическая;​ данные регрессионного анализа.​Добавить линию тренда.
  3. ​ сфер будет отличаться.​ – 0,755, или​к​ от одной или​Линейная линия тренда.
  4. ​ из столбцов B,C,​

Линейная корреляция.

​ инструментов «Эксель» было​Цена на товар N​

exceltable.com

​февраль​

Like this post? Please share to your friends:
  • Квадратичная линия тренда в excel
  • Квадратичная диаграмма в excel
  • Квадратики вместо букв word
  • Квадратики в word как убрать квадратики в word
  • Квадратики в word 2007