Нелинейное прогнозирование в excel


Nonlinear regression is a regression technique that is used when the relationship between a predictor variable and a response variable does not follow a linear pattern.

The following step-by-step example shows how to perform nonlinear regression in Excel.

Step 1: Create the Data

First, let’s create a dataset to work with:

Step 2: Create a Scatterplot

Next, let’s create a scatterplot to visualize the data.

First, highlight the cells in the range A1:B21. Next, click the Insert tab along the top ribbon, and then click the first plot option under Scatter:

The following scatterplot will appear:

Step 3: Add a Trendline

Next, click anywhere on the scatterplot. Then click the + sign in the top right corner. In the dropdown menu, click the arrow next to Trendline and then click More Options:

In the window that appears to the right, click the button next to Polynomial. Then check the boxes next to Display Equation on chart and Display R-squared value on chart.

This produces the following curve on the scatterplot:

Note that you may need to experiment with the value for the Order of the polynomial until you find the curve that best fits the data.

Step 4: Write the Regression Equation

From the plot we can see that the equation of the regression line is as follows:

y = -0.0048x4 + 0.2259x3 – 3.2132x2 + 15.613x – 6.2654

The R-squared tells us the percentage of the variation in the response variable that can be explained by the predictor variables.

The R-squared for this particular curve is 0.9651. This means that 96.51% of the variation in the response variable can be explained by the predictor variables in the model.

Additional Resources

How to Perform Simple Linear Regression in Excel
How to Perform Multiple Linear Regression in Excel
How to Perform Logarithmic Regression in Excel
How to Perform Exponential Regression in Excel

Простое
скользящее среднее является быстрым,
но довольно неточным способом выявления
общих тенденций временного ряда (вас
такие данные вряд ли удовлетворят!).
Если вы разобрались с примерами
составления прогнозов на основе
скользящего среднего, то, очевидно,
обратили внимание на то, что они не дают
прогноза, выходящего за пределы, в
которых данные уже известны. Передвинуть
границу оценки будущего по временной
оси можно с помощью одной из функций
регрессии Excel.Каждый из методов регрессии
оценивает взаимосвязь фактических
данных наблюдений и других параметров,
которые зачастую являются показателями
того, ко¬гда были сделаны эти наблюдения.
Это могут быть как числовые значения
каждого результата наблюдения во
временном ряду, так и дата наблюдения.

Составление
линейных прогнозов: функция ТЕНДЕНЦИЯ

Использование
функции рабочего листа ТЕНДЕНЦИЯ — это
самый простой способ вычисления
регрессионного анализа. Предположим,
результаты ваших наблюдений внесены в
ячейки А1:А10, а дни месяца расположены
в ячейках В1:В10, как нарис.
5
.
Выделите ячейки С1:С10 и введите следующую
формулу, используя формулу массива:

=ТЕНДЕНЦИЯ
(А1: А10; В1: В10)

Вы
получите результат, показанный на рис.
5
.

Рис.
5. Функция ТЕНДЕНЦИЯ прогнозирует базовую
линию результатов наблюдений на основе
некоторых переменных

Для
ввода формулы массива нажмите комбинацию
клавиш 
<Ctrl+Shift+Enter>.

Рассматривая
данный метод прогнозирования, следует
обратить особое внимание на следующие
моменты.

  • Каждый
    результат в ячейках С1:С10 получается
    на основе одной и той же формулы массива,
    внутри которой «спрятано» более
    сложное выражение. В данном случае
    формула имеет следующий вид:      

ячейка
С1: = 9,13 + 0,61*1; 

ячейка
С2: — 9,13 + 0,61*2;  

ячейка
СЗ: = 9,13 + 0,61*3.

Значение
9,13 представляет собой длину отрезка,
отсекаемого на оси ординат линией
прогноза, т.е. значение прогноза в
начальный момент. Значение 0,61 равно
угловому коэффициенту линии прогноза,
другими словами, значения прогноза
изменяются в результате изменений дат
проведения наблюдений.

  • Поскольку
    все значения прогноза составляются на
    основе одних и тех же показателей
    отрезка, отсекаемого на оси ординат, и
    углового коэффициента, прогноз не
    отражает происходящих изменений во
    временном ряду. Например, данные ряда
    резко изменяются между восьмым (10) и
    девятым результатами наблюдений (16).
    Это изменение влияет на все значения
    прогноза, даже значение прогноза
    временного отрезка (2), хотя и располагается
    на шесть результатов наблюдений раньше,
    чем это изменение фактически произошло.

  • В
    данном примере функция ТЕНДЕНЦИЯ
    вычисляет прогноз, основанный на связи
    между фактическими результатами
    наблюдений и числами 1-10, которые могут
    отражать либо первых десять дней месяца,
    либо первых десять месяцев года. Excel
    выражает первый аргумент как аргумент
    известные-значения-у функции ТЕНДЕНЦИЯ,
    а второй — как аргумент функции
    известные-значения-х.

Если
вы предлагаете функции тенденция только
первый аргумент—известные-значения-у,
то Excel считает, что второй
аргумент—известные-значения-х —
представляет собой ряд, начинающийся
с 1 и заканчивающийся числовым значением
известные-значения-у, указанным вами.
Если принять, что числа 1-20 расположены
в ячейках В1:В20, то две нижеприведенные
формулы будут эквивалентны:

=ТЕНДЕНЦИЯ
(А1:А20)

=ТЕНДЕНЦИЯ
(А1:А20;
Bl:B20)

Уже
упоминалось, что регрессивный анализ
позволяет производить перспективную
оценку более удаленного будущего. Однако
регрессивный прогноз, пример которого
приведен на рис.
6
,
распространяется за пределы данных
самого последнего фактического
наблюдения. Но на практике желательно
составить прогноз хотя бы на первый,
следующий за этим период временного
ряда (т.е. на тот, для которого еще нет
результатов наблюдения). Дальше
описывается, как это можно сделать с
помощью функции ТЕНДЕНЦИЯ.

Применяя
данные рабочего листа, представленные
на рис.
6
,
введите в ячейку В11 число 11, а в ячейку
С11 — следующее:

=ТЕНДЕНЦИЯ
(А1:А10;В1:
B10;B11)

В
примерах функции тенденция, приведенных
выше, используются формулы массива.
Имеется несколько причин для ввода
формул массива. Одна из причин состоит
в том, что формулы, результатом которых
является массив значений, должны
вводиться как формулы массива. Предыдущие
примеры возвращали массив результатов.
Данный пример возвращает только одно
значение, поэтому формула может вводиться,
как обычно.

На рис.
6.
 продемонстрированы
описанные выше действия. Первый аргумент
— А1:А10 — определяет данные наблюдений
базовой линии (известные–значения-y),
второй аргумент — В1:В10 — определяет
временные моменты, в которые эти данные
были получены (известные-значения-х).
Значение 11 в ячейке В11 является
новым–значением-x и определяет время,
которое связывается с перспективной
оценкой.

Рис
6. С помощью функции ТЕНДЕНЦИЯ можно.
Прогнозировать значения периода, 
выходящего
за пределы конца базовой линии

Формула
фактически говорит о следующем: «Если
известно, каким образом у-значения в
диапазоне А1:А10 соотносятся с x-значениями
в диапазоне В1:В10, то какой результат
y-значения мы получим, зная новое
х-значение временного момента, равное
11?» Полученное значение 15,87 является
прогнозом на основе фактических данных
на пока еще не наступивший одиннадцатый
временной отсчет.

Введя
в ячейку В11 большее значение, вы сможете
прогнозировать данные, болев позднего
временного момента, чем непосредственно
следующего за текущим. Предположим, что
результаты наблюдений в ячейках А1:А10
отражают ежемесячные объемы продаж с
января по октябрь 2001 года. В этом случае
число 24, введенное в ячейку В11, будет
определять двадцать четвертый месяц,
т.е. декабрь 2002 года. Выполняя вычисления
с помощью функции ТЕНДЕНЦИЯ, получаем
результат 23,8, который и будет отражать
прогнозируемый объем продаж в декабре
2002 года, полученный на основе фактических
результатов наблюдений за период с
января по октябрь 2001 года.

Кроме
того, существует возможность одновременного
прогнозирования данных для нескольких
новых временных моментов. Например,
введите числа 11-24 в ячейки В11:В24, а затем
выделите ячейки С11:С24 и введите с помощью
формулы массива следующее:

=ТЕНДЕНЦИЯ(А1:А10;В1;В10;В11:В24).

Excel
вернет в ячейки С11:С24 прогноз на временные
моменты с 11 по 24. Данный прогноз будет
базироваться на связи между данными
наблюдений базовой линии диапазона
А1:А10 и временными моментами базовой
линии с 1 по 10, указанными в ячейках
В1:В10.

Составление
нелинейного прогноза: функция РОСТ

Функция
ТЕНДЕНЦИЯ вычисляет прогнозы, основанные
на линейной связи между результатом
наблюдения и временем, когда это
наблюдение было зафиксировано.
Предположим, что вы составляете линейный
график данных, на вертикальной оси
которого отмечаете результаты наблюдений,
а на горизонтальной фиксируете временные
моменты их получения. Если эта взаимосвязь
носит линейный характер, то линия на
графике будет либо прямой, либо слегка
наклоненной в одну или другую сторону,
либо горизонтальной. Это и будет лучшей
подсказкой о том, что взаимосвязь
является линейной, и потому в данном
случае функция ТЕНДЕНЦИЯ — самый удобный
способ регрессивного анализа.

Однако
если линия резко изгибается в одном из
направлений, то это означает, что
взаимосвязь показателей носит нелинейный
характер. Существует большое количество
типов данных, которые изменяются во
времени нелинейным способом. Некоторыми
примерами таких данных являются объем
продаж новой продукции, прирост населения,
выплаты по основному кредиту и коэффициент
удельной прибыли. В случае нелинейной
взаимосвязи функция Excel РОСТ поможет
вам получить более точную картину
направления развития вашего бизнеса,
чем функция ТЕНДЕНЦИЯ.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #

Excel для Microsoft 365 Excel для Интернета Excel 2021 Excel 2019 Excel 2016 Excel 2013 Excel 2010 Excel 2007 Еще…Меньше

Если вам нужно спрогнозировать расходы на следующий год или проецировать ожидаемые результаты для ряда в научном эксперименте, вы можете использовать Microsoft Office Excel для автоматического создания будущих значений, основанных на существующих данных, или для автоматического получения экстраполированных значений, основанных на вычислениях линейного тренда или тренда роста.

Вы можете заполнить ряд значений, которые соответствуют простому линейному или экспоненциальному тренду роста, с помощью маркер заполнения или последовательности. Для расширения сложных и нелинейных данных можно использовать функции или регрессионный анализ в надстройке «Надстройка «Надстройка анализа».

В линейном ряду шаг или разница между первым и следующим значением добавляется к начальному значению, а затем добавляется к каждому последующему значению.

Начальное значение

Расширенный линейный ряд

1, 2

3, 4, 5

1, 3

5, 7, 9

100, 95

90, 85

Чтобы заполнить ряд для линейного тренда, сделайте следующее:

  1. Выделите не менее двух ячеек, содержащих начальные значения для тренда.

    Чтобы повысить точность ряда трендов, выберите дополнительные начальные значения.

  2. Перетащите его в нужном направлении.

    Например, если в ячейках C1:E1 выбраны начальные значения 3, 5 и 8, перетащите его вправо, чтобы заполнить значениями тенденций, или перетащите его влево, чтобы заполнить значениями убывания.

Совет: Чтобы вручную управлять тем, как создается ряд, или заполнить ряд с помощью клавиатуры, выберите команду Ряд(вкладкаГлавная, группа Редактирование, кнопка Заполнить).

В рядах роста начальное значение умножается на шаг, чтобы получить следующее значение в ряду. Результат и каждый последующий результат умножаются на шаг.

Начальное значение

Расширенный ряд роста

1, 2

4, 8, 16

1, 3

9, 27, 81

2, 3

4.5, 6.75, 10.125

Чтобы заполнить ряд для тенденции роста, сделайте следующее:

  1. Выделите не менее двух ячеек, содержащих начальные значения для тренда.

    Чтобы повысить точность ряда трендов, выберите дополнительные начальные значения.

  2. Удерживая нажатой правую кнопку мыши, перетащите указатель заполнения в нужном направлении, отпустите кнопку мыши, а затем на ленте нажмите кнопку контекстное меню.

Например, если в ячейках C1:E1 выбраны начальные значения 3, 5 и 8, перетащите его вправо, чтобы заполнить значениями тенденций, или перетащите его влево, чтобы заполнить значениями убывания.

Совет: Чтобы вручную управлять тем, как создается ряд, или заполнить ряд с помощью клавиатуры, выберите команду Ряд(вкладкаГлавная, группа Редактирование, кнопка Заполнить).

При нажатии кнопки Ряд можно вручную управлять тем, как создается линейный тренд или тенденция роста, а затем заполнять значения с помощью клавиатуры.

  • В линейном ряду начальные значения применяются к алгоритму наименьших квадратов (y=mx+b), который создает ряд.

  • В рядах роста начальные значения применяются к алгоритму экспоненциальной кривой (y=b*m^x), который создает ряд.

В обоих случаях шаг игнорируется. Созданный ряд эквивалентен значениям, возвращенным функцией ТЕНДЕНЦИЯ или функцией РОСТ.

Чтобы заполнить значения вручную, сделайте следующее:

  1. Вы выберите ячейку, в которой нужно начать ряд. Ячейка должна содержать первое значение ряда.

    При выборе команды Ряд итоговые ряды заменяют исходные выбранные значения. Если вы хотите сохранить исходные значения, скопируйте их в другую строку или столбец, а затем создайте ряд, выбирая скопированные значения.

  2. На вкладке Главная в группе Редактирование нажмите кнопку Заполнить и выберите пункт Прогрессия.

  3. Выполните одно из указанных ниже действий.

    • Чтобы заполнить ряд вниз по worksheet, щелкните Столбцы.

    • Чтобы заполнить ряд по всему ряду, щелкните Строки.

  4. В поле Шаг введите значение, на которое вы хотите увеличить ряд.

Тип ряда

Результат шага

Линейная

Значение шага добавляется к первому начальному значению, а затем к каждому последующему значению.

Геометрическая

Первое начальное значение умножается на шаг. Результат и каждый последующий результат умножаются на шаг.

  1. В области Типвыберите линейный или Рост.

  2. В поле Остановить значение введите значение, на которое нужно остановить ряд.

Примечание: Если ряд имеет несколько начальных значений и Excel создать тенденцию, выберите значение Тренд.

Если у вас есть данные, для которых вы хотите спрогнозировать тенденцию, можно создать линия тренда на диаграмме. Например, если в Excel есть диаграмма с данными о продажах за первые несколько месяцев года, вы можете добавить на нее линию тренда, которая отображает общий тренд продаж (увеличение или уменьшение или снижение), а также прогнозируемый тренд на месяцы вперед.

Предполагается, что вы уже создали диаграмму, основанную на существующих данных. Если это не так, см. раздел Создание диаграммы.

  1. Щелкните диаграмму.

  2. Щелкните ряд данных, в который вы хотите добавить линия тренда или скользящее среднее.

  3. На вкладке Макет в группе Анализ нажмите кнопку Линия тренда ивыберите нужный тип линии тренда или скользящего среднего.

  4. Чтобы настроить параметры и отформатирование линии тренда или скользящего среднего, щелкните линию тренда правой кнопкой мыши и выберите в меню пункт Формат линии тренда.

  5. Выберите нужные параметры линии тренда, линии и эффекты.

    • При выборе параметра Полиномиальная, введите в поле Порядок наивысшую мощность для независимой переменной.

    • Если выбрано значение Скользящегосреднего , введите в поле Период количество периодов, используемых для расчета лино-среднего.

Примечания: 

  • В поле На основе ряда перечислены все ряды данных на диаграмме, которые поддерживают линии тренда. Чтобы добавить линию тренда к другому ряду, щелкните имя в поле и выберите нужные параметры.

  • При добавлении скользящего среднего на точечная диаграмма скользящие средние значения основаны на порядке, за исключением значений X, относящегося к диаграмме. Чтобы получить нужный результат, перед добавлением скользящего среднего может потребоваться отсортировать значения x.

Важно: Начиная с Excel 2005 г., Excel способ вычисления значенияR2 для линейных линий тренда на диаграммах, где для перехваченной линии тренда установлено значение нуля (0). Эта корректировка исправит вычисления, которые дают неправильные значения R2,и выровняет вычислениеR2 с функцией LINEST. В результате на диаграммах, созданных в предыдущих версиях Excel, могут отображаться разные значения R2. Дополнительные сведения см. в таблице Изменения внутренних вычислений линейных линий тренда на диаграмме. 

Если вам нужно выполнить более сложный регрессионный анализ, в том числе вычислить и отсчитывать остаточные данные, используйте средство регрессионного анализа в надстройке «Надстройка «Надстройка анализа». Дополнительные сведения см. в окне Загрузка средства анализа.

В Excel в Интернете, вы можете проецировать значения в ряду с помощью функций или щелкнуть и перетащить его, чтобы создать линейный тренд чисел. Однако создать тенденцию роста с помощью ручки заполнения нельзя.

Вот как можно использовать его для создания линейного тренда чисел в Excel в Интернете:

  1. Выделите не менее двух ячеек, содержащих начальные значения для тренда.

    Чтобы повысить точность ряда трендов, выберите дополнительные начальные значения.

  2. Перетащите его в нужном направлении.

    Заполнение арифметической прогрессии

Использование функции ПРОГНОЗ    Функция ПРЕДСПРОС вычисляет или предсказывает будущее значение с использованием существующих значений. Предсказываемое значение — это значение y, соответствующее заданному значению x. Значения x и y известны; новое значение предсказывается с использованием линейной регрессии. Эта функция используется для предсказания будущих продаж, требований к запасам и потребительских тенденций.

Использование функции ТЕНДЕНЦИЯ или ФУНКЦИИ РОСТ    Функции ТЕНДЕНЦИЯ и РОСТ могут выполнять экстраполяцию будущих значений y,которые расширяют прямую или экспоненциальный кривую, наилучшим образом описывающую существующие данные. Они также могут возвращать только значения yна основе известных значений x-длянаиболее подходящих строк или кривой. Для отстройки линии или кривой, описывающую существующие данные, используйте существующие значения x-value и y-value,возвращаемые функцией ТЕНДЕНЦИЯ или РОСТ.

Использование функции ЛИНИИСТОЛ или ФУНКЦИИ ЛОГЕСТ    Функцию ЛИННЕФ или LOGEST можно использовать для вычисления прямой или экспоненциальной кривой из существующих данных. Функции LINEST и LOGEST возвращают различные статистические данные о регрессии, включая наклон и отступ линии, которая лучше всего подходит.

В следующей таблице содержатся ссылки на дополнительные сведения об этих функциях.

Функция

Описание

Прогноз

Project значения

Тенденция

Project значения, которые соответствуют прямой линии тренда

Роста

Project, которые соответствуют экспоненциальной кривой

Линейн

Расчет прямой линии из существующих данных

LOGEST

Расчет экспоненциальной кривой из существующих данных

Дополнительные сведения

Вы всегда можете задать вопрос специалисту Excel Tech Community или попросить помощи в сообществе Answers community.

Нужна дополнительная помощь?

Содержание

  • Подключение пакета анализа
  • Виды регрессионного анализа
  • Линейная регрессия в программе Excel
  • Разбор результатов анализа
  • Вопросы и ответы

Регрессивный анализ в Microsoft Excel

Регрессионный анализ является одним из самых востребованных методов статистического исследования. С его помощью можно установить степень влияния независимых величин на зависимую переменную. В функционале Microsoft Excel имеются инструменты, предназначенные для проведения подобного вида анализа. Давайте разберем, что они собой представляют и как ими пользоваться.

Подключение пакета анализа

Но, для того, чтобы использовать функцию, позволяющую провести регрессионный анализ, прежде всего, нужно активировать Пакет анализа. Только тогда необходимые для этой процедуры инструменты появятся на ленте Эксель.

  1. Перемещаемся во вкладку «Файл».
  2. Переход во вкладку Файл в Microsoft Excel

  3. Переходим в раздел «Параметры».
  4. Переход в параметры в программе Microsoft Excel

  5. Открывается окно параметров Excel. Переходим в подраздел «Надстройки».
  6. Переход в надстройки в программе Microsoft Excel

  7. В самой нижней части открывшегося окна переставляем переключатель в блоке «Управление» в позицию «Надстройки Excel», если он находится в другом положении. Жмем на кнопку «Перейти».
  8. Перемещение в надстройки в программе Microsoft Excel

  9. Открывается окно доступных надстроек Эксель. Ставим галочку около пункта «Пакет анализа». Жмем на кнопку «OK».

Активация пакета анализа в программе Microsoft Excel

Теперь, когда мы перейдем во вкладку «Данные», на ленте в блоке инструментов «Анализ» мы увидим новую кнопку – «Анализ данных».

Блок настроек Анализ в программе Microsoft Excel

Виды регрессионного анализа

Существует несколько видов регрессий:

  • параболическая;
  • степенная;
  • логарифмическая;
  • экспоненциальная;
  • показательная;
  • гиперболическая;
  • линейная регрессия.

О выполнении последнего вида регрессионного анализа в Экселе мы подробнее поговорим далее.

Внизу, в качестве примера, представлена таблица, в которой указана среднесуточная температура воздуха на улице, и количество покупателей магазина за соответствующий рабочий день. Давайте выясним при помощи регрессионного анализа, как именно погодные условия в виде температуры воздуха могут повлиять на посещаемость торгового заведения.

Общее уравнение регрессии линейного вида выглядит следующим образом: У = а0 + а1х1 +…+акхк. В этой формуле Y означает переменную, влияние факторов на которую мы пытаемся изучить. В нашем случае, это количество покупателей. Значение x – это различные факторы, влияющие на переменную. Параметры a являются коэффициентами регрессии. То есть, именно они определяют значимость того или иного фактора. Индекс k обозначает общее количество этих самых факторов.

  1. Кликаем по кнопке «Анализ данных». Она размещена во вкладке «Главная» в блоке инструментов «Анализ».
  2. Переход в анализ данных в программе Microsoft Excel

    Lumpics.ru

  3. Открывается небольшое окошко. В нём выбираем пункт «Регрессия». Жмем на кнопку «OK».
  4. Запуск регрессии в программе Microsoft Excel

  5. Открывается окно настроек регрессии. В нём обязательными для заполнения полями являются «Входной интервал Y» и «Входной интервал X». Все остальные настройки можно оставить по умолчанию.

    В поле «Входной интервал Y» указываем адрес диапазона ячеек, где расположены переменные данные, влияние факторов на которые мы пытаемся установить. В нашем случае это будут ячейки столбца «Количество покупателей». Адрес можно вписать вручную с клавиатуры, а можно, просто выделить требуемый столбец. Последний вариант намного проще и удобнее.

    В поле «Входной интервал X» вводим адрес диапазона ячеек, где находятся данные того фактора, влияние которого на переменную мы хотим установить. Как говорилось выше, нам нужно установить влияние температуры на количество покупателей магазина, а поэтому вводим адрес ячеек в столбце «Температура». Это можно сделать теми же способами, что и в поле «Количество покупателей».

    Ввод интервала в настройках регрессии в программе Microsoft Excel

    С помощью других настроек можно установить метки, уровень надёжности, константу-ноль, отобразить график нормальной вероятности, и выполнить другие действия. Но, в большинстве случаев, эти настройки изменять не нужно. Единственное на что следует обратить внимание, так это на параметры вывода. По умолчанию вывод результатов анализа осуществляется на другом листе, но переставив переключатель, вы можете установить вывод в указанном диапазоне на том же листе, где расположена таблица с исходными данными, или в отдельной книге, то есть в новом файле.

    Параметры вывода в настройках регрессии в программе Microsoft Excel

    После того, как все настройки установлены, жмем на кнопку «OK».

Запуск регрессивного анализа в программе Microsoft Excel

Разбор результатов анализа

Результаты регрессионного анализа выводятся в виде таблицы в том месте, которое указано в настройках.

Результат анализа регрессии в программе Microsoft Excel

Одним из основных показателей является R-квадрат. В нем указывается качество модели. В нашем случае данный коэффициент равен 0,705 или около 70,5%. Это приемлемый уровень качества. Зависимость менее 0,5 является плохой.

Ещё один важный показатель расположен в ячейке на пересечении строки «Y-пересечение» и столбца «Коэффициенты». Тут указывается какое значение будет у Y, а в нашем случае, это количество покупателей, при всех остальных факторах равных нулю. В этой таблице данное значение равно 58,04.

Значение на пересечении граф «Переменная X1» и «Коэффициенты» показывает уровень зависимости Y от X. В нашем случае — это уровень зависимости количества клиентов магазина от температуры. Коэффициент 1,31 считается довольно высоким показателем влияния.

Как видим, с помощью программы Microsoft Excel довольно просто составить таблицу регрессионного анализа. Но, работать с полученными на выходе данными, и понимать их суть, сможет только подготовленный человек.

Пакет MS Excel позволяет при построении уравнения линейной регрессии большую часть работы сделать очень быстро. Важно понять, как интерпретировать полученные результаты.

Для работы необходима надстройка Пакет анализа
, которую необходимо включить в пункте меню СервисНадстройки

В Excel 2007 для включения пакета анализа надо нажать перейти в блок Параметры Excel
, нажав кнопку в левом верхнем углу, а затем кнопку «Параметры Excel
» внизу окна:



Для построения модели регрессии необходимо выбрать пункт СервисАнализ данныхРегрессия
. (В Excel 2007 этот режим находится в блоке Данные/Анализ данных/ Регрессия
). Появится диалоговое окно, которое нужно заполнить:

1) Входной интервал Y
¾ содержит ссылку на ячейки, которые содержат значения результативного признака y
. Значения должны быть расположены в столбце;

2) Входной интервал X
¾ содержит ссылку на ячейки, которые содержат значения факторов . Значения должны быть расположены в столбцах;

3) Признак Метки
ставится, если первые ячейки содержат пояснительный текст (подписи данных);

4) Уровень надежности
¾ это доверительная вероятность, которая по умолчанию считается равной 95%. Если это значение не устраивает, то нужно включить этот признак и ввести требуемое значение;

5) Признак Константа-ноль
включается, если необходимо построить уравнение, в котором свободная переменная ;

6) Параметры вывода
определяют, куда должны быть помещены результаты. По умолчанию строит режим Новый рабочий лист
;

7) Блок Остатки
позволяет включать вывод остатков и построение их графиков.

В результате выводится информация, содержащая все необходимые сведения и сгруппированная в три блока: Регрессионная статистика
, Дисперсионный анализ
, Вывод остатка
. Рассмотрим их подробнее.

1. Регрессионная статистика
:

множественный R
определяется формулой (коэффициент корреляции Пирсона
);

R
(коэффициент детерминации
);

Нормированный R
-квадрат вычисляется по формуле (используется для множественной регрессии);

Стандартная ошибка S
вычисляется по формуле ;

Наблюдения ¾ это количество данных n
.

2. Дисперсионный анализ
, строка Регрессия
:

Параметр df
равен m
(количество наборов факторов x
);

Параметр SS
определяется формулой ;

Параметр MS
определяется формулой ;

Статистика F
определяется формулой ;

Значимость F
. Если полученное число превышает , то принимается гипотеза (нет линейной взаимосвязи), иначе принимается гипотеза (есть линейная взаимосвязь).

3. Дисперсионный анализ
, строка Остаток
:

Параметр df
равен ;

Параметр SS
определяется формулой ;

Параметр MS
определяется формулой .

4. Дисперсионный анализ
, строка Итого
содержит сумму первых двух столбцов.

5. Дисперсионный анализ
, строка Y-пересечение
содержит значение коэффициента , стандартной ошибки и t
-статистики .

P
-значение ¾ это значение уровней значимости, соответствующее вычисленным t
-статистикам. Определяется функцией СТЬЮДРАСП(t
-статистика; ). Если P
-значение превышает , то соответствующая переменная статистически незначима и ее можно исключить из модели.

Нижние 95%
и Верхние 95%
¾ это нижние и верхние границы 95-процентных доверительных интервалов для коэффициентов теоретического уравнения линейной регрессии. Если в блоке ввода данных значение доверительной вероятности было оставлено по умолчанию, то последние два столбца будут дублировать предыдущие. Если пользователь ввел свое значение доверительной вероятности, то последние два столбца содержат значения нижней и верхней границы для указанной доверительной вероятности.

6. Дисперсионный анализ
, строки содержат значения коэффициентов, стандартных ошибок, t
-статистик, P
-значений и доверительных интервалов для соответствующих .

7. Блок Вывод остатка
содержит значения предсказанного y
(в наших обозначениях это ) и остатки .

28 Окт



Добрый день, уважаемые читатели блога! Сегодня мы поговорим о нелинейных регрессиях. Решение линейных регрессий можно посмотреть по ССЫЛКЕ .

Данный способ применяется, в основном, в экономическом моделировании и прогнозировании. Его цель – пронаблюдать и выявить зависимости между двумя показателями.

Основными типами нелинейных регрессий являются:

  • полиномиальные (квадратичная, кубическая);
  • гиперболическая;
  • степенная;
  • показательная;
  • логарифмическая.

Также могут применяться различные комбинации. Например, для аналитики временных рядов в банковской сфере, страховании, демографических исследованиях используют кривую Гомпцера, которая является разновидностью логарифмической регрессии.

В прогнозировании с помощью нелинейных регрессий главное выяснить коэффициент корреляции, который покажет нам есть ли тесная взаимосвязь меду двумя параметрами или нет. Как правило, если коэффициент корреляции близок к 1, значит связь есть, и прогноз будет довольно точен. Ещё одним важным элементом нелинейных регрессий является средняя относительная ошибка (А

), если она находится в промежутке <8…10%, значит модель достаточно точна.

На этом, пожалуй, теоретический блок мы закончим и перейдём к практическим вычислениям.

У нас имеется таблица продаж автомобилей за промежуток 15 лет (обозначим его X), количество шагов измерений будет аргумент n, также имеется выручка за эти периоды (обозначим её Y), нам нужно спрогнозировать какова будет выручка в дальнейшем. Построим следующую таблицу:

Для исследования нам потребуется решить уравнение (зависимости Y от X): y=ax 2 +bx+c+e. Это парная квадратичная регрессия. Применим в этом случае метод наименьших квадратов, для выяснения неизвестных аргументов — a, b, c. Он приведёт к системе алгебраических уравнений вида:

Для решения этой системы воспользуемся, к примеру, методом Крамера. Видим, что входящие в систему суммы являются коэффициентами при неизвестных. Для их вычисления добавим в таблицу несколько столбцов (D,E,F,G,H) и подпишем соответственно смыслу вычислений — в столбце D возведём x в квадрат, в E в куб, в F в 4 степень, в G перемножим показатели x и y, в H возведём x в квадрат и перемножим с y.

Получится заполненная нужными для решения уравнения таблица вида.

Сформируем матрицу A

системы, состоящую из коэффициентов при неизвестных в левых частях уравнений. Поместим её в ячейку А22 и назовём «А=
«. Следуем той системе уравнений, которую мы избрали для решения регрессии.

То есть, в ячейку B21 мы должны поместить сумму столбца, где возводили показатель X в четвёртую степень — F17. Просто сошлёмся на ячейку — «=F17». Далее нам необходима сумма столбца где возводили X в куб — E17, далее идём строго по системе. Таким образом, нам необходимо будет заполнить всю матрицу.

В соответствии с алгоритмом Крамера наберём матрицу А1, подобную А, в которой вместо элементов первого столбца должны размещаться элементы правых частей уравнений системы. То есть сумма столбца X в квадрате умноженная на Y, сумма столбца XY и сумма столбца Y.

Также нам понадобятся ещё две матрицы — назовём их А2 и А3 в которых второй и третий столбцы будут состоять из коэффициентов правых частей уравнений. Картина будет такова.

Следуя избранному алгоритму, нам нужно будет вычислить значения определителей (детерминантов, D) полученных матриц. Воспользуемся формулой МОПРЕД. Результаты разместим в ячейках J21:K24.

Расчёт коэффициентов уравнения по Крамеру будем производить в ячейках напротив соответствующих детерминантов по формуле: a
(в ячейке M22) — «=K22/K21»; b
(в ячейке M23) — «=K23/K21»; с
(в ячейке M24) — «=K24/K21».

Получим наше искомое уравнение парной квадратичной регрессии:

y=-0,074x 2 +2,151x+6,523

Оценим тесноту линейной связи индексом корреляции.

Для вычисления добавим в таблицу дополнительный столбец J (назовём его y*). Расчёта будет следующей (согласно полученному нами уравнению регрессии) — «=$m$22*B2*B2+$M$23*B2+$M$24».
Поместим её в ячейку J2. Останется протянуть вниз маркер автозаполнения до ячейки J16.

Для вычисления сумм (Y-Y усредненное) 2 добавим в таблицу столбцы K и L с соответствующими формулами. Среднее по столбцу Y посчитаем с помощью функции СРЗНАЧ.

В ячейке K25 разместим формулу подсчёта индекса корреляции — «=КОРЕНЬ(1-(K17/L17))».

Видим, что значение 0,959 очень близко к 1, значит между продажами и годами есть тесная нелинейная связь.

Осталось оценить качество подгонки полученного квадратичного уравнения регрессии (индекс детерминации). Он рассчитывается по формуле квадрата индекса корреляции. То есть формула в ячейке K26 будет очень проста — «=K25*K25».

Коэффициент 0,920 близок к 1, что свидетельствует о высоком качестве подгонки.

Последним действием будет вычисление относительной ошибки. Добавим столбец и внесём туда формулу: «=ABS((C2-J2)/C2), ABS — модуль, абсолютное значение. Протянем маркером вниз и в ячейке M18 выведем среднее значение (СРЗНАЧ), назначим ячейкам процентный формат. Полученный результат — 7,79% находится в пределах допустимых значений ошибки <8…10%. Значит вычисления достаточно точны.

Если возникнет необходимость, по полученным значениям мы можем построить график.

Файл с примером прилагается — ССЫЛКА !



Категории:

/

/

от
28.10.2017

Пакет MS Excel
позволяет при построении уравнения линейной регрессии большую часть работы сделать очень быстро. Важно понять, как интерпретировать полученные результаты.
Для построения модели регрессии необходимо выбрать пункт СервисАнализ данныхРегрессия (в Excel 2007
этот режим находится в блоке Данные/Анализ данных/Регрессия). Затем полученные результаты скопировать в блок для анализа.

В Excel
имеется еще более быстрый и удобный способ построить график линейной регрессии (и даже основных видов нелинейных регрессий, о чем см. далее). Это можно сделать следующим образом:

1) выделить столбцы с данными X
и Y
(они должны располагаться именно в таком порядке!);

2) вызвать Мастер диаграмм
и выбрать в группе Тип
Точечная
и сразу нажать Готово
;

3) не сбрасывая выделения с диаграммы, выбрать появившейся пункт основного меню Диаграмма
, в котором следует выбрать пункт Добавить линию тренда
;

4) в появившемся диалоговом окне Линия тренда
во вкладке Тип
выбрать Линейная
;

5) во вкладке Параметры
можно активизировать переключатель Показывать уравнение на диаграмме
, что позволит увидеть уравнение линейной регрессии (4.4), в котором будут вычислены коэффициенты (4.5).

6) В этой же вкладке можно активизировать переключатель Поместить на диаграмму величину достоверности аппроксимации (R^2)
. Эта величина есть квадрат коэффициента корреляции (4.3) и она показывает, насколько хорошо рассчитанное уравнение описывает экспериментальную зависимость. Если R
2 близок к единице, то теоретическое уравнение регрессии хорошо описывает экспериментальную зависимость (теория хорошо согласуется с экспериментом), а если R
2 близок к нулю, то данное уравнение не пригодно для описания экспериментальной зависимости (теория не согласуется с экспериментом).

В результате выполнения описанных действий получится диаграмма с графиком регрессии и ее уравнением.

§4.3. Основные виды нелинейной регрессии

Параболическая и полиномиальная регрессии.

Параболической
зависимостью величины Y
от величины Х
называется зависимость, выраженная квадратичной функцией (параболой 2-ого порядка):

Это уравнение называется уравнением параболической регрессии Y
на Х
. Параметры а
, b
, с
называются коэффициентами параболической регрессии
. Вычисление коэффициентов параболической регрессии всегда громоздко, поэтому для расчетов рекомендуется использовать компьютер.

Уравнение (4.8) параболической регрессии является частным случаем более общей регрессии, называемой полиномиальной. Полиномиальной
зависимостью величины Y
от величины Х
называется зависимость, выраженная полиномом n
-ого порядка:

где числа а i
(i
=0,1,…, n
) называются коэффициентами полиномиальной регрессии
.

Степенная регрессия.

Степенной
зависимостью величины Y
от величины Х
называется зависимость вида:

Это уравнение называется уравнением степенной регрессии Y
на Х
. Параметры а
и b
называются коэффициентами степенной регрессии
.

ln =lna
+
lnx
. (4.11)

Это уравнение описывает прямую на плоскости с логарифмическими координатными осями lnx
и ln . Поэтому критерием применимости степенной регрессии служит требование того, чтобы точки логарифмов эмпирических данных lnx i
и lnу i
находились ближе всего к прямой (4.11).

Показательная регрессия.

Показательной
(или экспоненциальной
) зависимостью величины Y
от величины Х
называется зависимость вида:

(или ). (4.12)

Это уравнение называется уравнением показательной
(или экспоненциальной
) регрессии Y
на Х
. Параметры а
(или k
) и b
называются коэффициентами показательной
(или экспоненциальной
) регрессии
.

Если прологарифмировать обе части уравнения степенной регрессии, то получится уравнение

ln =
lna
+lnb
(или ln =k·x
+lnb
). (4.13)

Это уравнение описывает линейную зависимость логарифма одной величины ln от другой величины x
. Поэтому критерием применимости степенной регрессии служит требование того, чтобы точки эмпирических данных одной величины x i
и логарифмы другой величины lnу i
находились ближе всего к прямой (4.13).

Логарифмическая регрессия.

Логарифмической
зависимостью величины Y
от величины Х
называется зависимость вида:

=a
+
lnx
. (4.14)

Это уравнение называется уравнением логарифмической регрессии Y
на Х
. Параметры а
и b
называются коэффициентами логарифмической регрессии
.

Гиперболическая регрессия.

Гиперболической
зависимостью величины Y
от величины Х
называется зависимость вида:

Это уравнение называется уравнением гиперболической регрессии Y
на Х
. Параметры а
и b
называются коэффициентами гиперболической регрессии
и определяются методом наименьших квадратов. Применение этого метода приводит к формулам:

В формулах (4.16-4.17) суммирование проводится по индексу i
от единицы до количества наблюдений n
.

К сожалению, в Excel
нет функции, вычисляющих коэффициенты гиперболической регрессии. В тех случаях, когда заведомо не известно, что измеряемые величины связаны обратной пропорциональностью, рекомендуется вместо уравнения гиперболической регрессии искать уравнение степенной регрессии, так в Excel
имеется процедура ее нахождения. Если же между измеряемыми величинами предполагается гиперболическая зависимость, то коэффициенты ее регрессии придется вычислять с помощью вспомогательных расчетных таблиц и операций суммирования по формулам (4.16-4.17).

Статистическая обработка данных может также проводиться с помощью надстройки ПАКЕТ АНАЛИЗА
(рис. 62).

Из предложенных пунктов выбирает пункт «РЕГРЕССИЯ
» и щелкаем на нем левой кнопкой мыши. Далее нажимаем ОК.

Появится окно, показанное на рис. 63.

Инструмент анализа «РЕГРЕССИЯ
» применяется для подбора графика для набора наблюдений с помощью метода наименьших квадратов. Регрессия используется для анализа воздействия на отдельную зависимую переменную значений одной или нескольких независимых переменных. Например, на спортивные качества атлета влияют несколько факторов, включая возраст, рост и вес. Можно вычислить степень влияния каждого из этих трех факторов по результатам выступления спортсмена, а затем использовать полученные данные для предсказания выступления другого спортсмена.

Инструмент «Регрессия» использует функцию ЛИНЕЙН
.

Диалоговое окно «РЕГРЕССИЯ»

Метки Установите флажок, если первая строка или первый столбец входного диапазона содержит заголовки. Снимите этот флажок, если заголовки отсутствуют. В этом случае подходящие заголовки для данных выходной таблицы будут созданы автоматически.

Уровень надежности Установите флажок, чтобы включить в выходную таблицу итогов дополнительный уровень. В соответствующее поле введите уровень надежности, который следует применить, дополнительно к уровню 95%, применяемому по умолчанию.

Константа — ноль Установите флажок, чтобы линия регрессии прошла через начало координат.

Выходной интервал Введите ссылку на левую верхнюю ячейку выходного диапазона. Отведите как минимум семь столбцов для выходной таблицы итогов, которая будет включать в себя: результаты дисперсионного анализа, коэффициенты, стандартную погрешность вычисления Y, среднеквадратичные отклонения, число наблюдений, стандартные погрешности для коэффициентов.

Новый рабочий лист Установите переключатель в это положение, чтобы открыть новый лист в книге и вставить результаты анализа, начиная с ячейки A1. При необходимости введите имя для нового листа в поле, расположенном напротив соответствующего положения переключателя.

Новая рабочая книга Установите переключатель в это положение для создания новой книги, в которой результаты будут добавлены в новый лист.

Остатки Установите флажок для включения остатков в выходную таблицу.

Стандартизированные остатки Установите флажок для включения стандартизированных остатков в выходную таблицу.

График остатков Установите флажок для построения графика остатков для каждой независимой переменной.

График подбора Установите флажок для построения графика зависимости предсказанных значений от наблюдаемых.

График нормальной вероятности
Установите флажок, для построения графика нормальной вероятности.

Функция ЛИНЕЙН

Для проведения расчетов выделяем курсором ячейку, в которой хотим отобразить среднее значение и нажимаем на клавиатуре клавишу =. Далее в поле Имя указываем нужную функцию, например СРЗНАЧ
(рис. 22).

Функция ЛИНЕЙН
рассчитывает статистику для ряда с применением метода наименьших квадратов, чтобы вычислить прямую линию, которая наилучшим образом аппроксимирует имеющиеся данные и затем возвращает массив, который описывает полученную прямую. Можно также объединять функцию ЛИНЕЙН
с другими функциями для вычисления других видов моделей, являющихся линейными в неизвестных параметрах (неизвестные параметры которых являются линейными), включая полиномиальные, логарифмические, экспоненциальные и степенные ряды. Поскольку возвращается массив значений, функция должна задаваться в виде формулы массива.

Уравнение для прямой линии имеет следующий вид:

y=m 1 x 1 +m 2 x 2 +…+b (в случае нескольких диапазонов значений x),

где зависимое значение y — функция независимого значения x, значения m — коэффициенты, соответствующие каждой независимой переменной x, а b — постоянная. Обратите внимание, что y, x и m могут быть векторами. Функция ЛИНЕЙН
возвращает массив{mn;mn-1;…;m 1 ;b}. ЛИНЕЙН
может также возвращать дополнительную регрессионную статистику.

ЛИНЕЙН
(известные_значения_y; известные_значения_x; конст; статистика)

Известные_значения_y — множество значений y, которые уже известны для соотношения y=mx+b.

Если массив известные_значения_y имеет один столбец, то каждый столбец массива известные_значения_x интерпретируется как отдельная переменная.

Если массив известные_значения_y имеет одну строку, то каждая строка массива известные_значения_x интерпретируется как отдельная переменная.

Известные_значения_x — необязательное множество значений x, которые уже известны для соотношения y=mx+b.

Массив известные_значения_x может содержать одно или несколько множеств переменных. Если используется только одна переменная, то массивы_известные_значения_y и известные_значения_x могут иметь любую форму — при условии, что они имеют одинаковую размерность. Если используется более одной переменной, то известные_значения_y должны быть вектором (т. е. интервалом высотой в одну строку или шириной в один столбец).

Если массив_известные_значения_x опущен, то предполагается, что этот массив {1;2;3;…} имеет такой же размер, как и массив_известные_значения_y.

Конст — логическое значение, которое указывает, требуется ли, чтобы константа b была равна 0.

Если аргумент «конст» имеет значение ИСТИНА или опущен, то константа b вычисляется обычным образом.

Если аргумент «конст» имеет значение ЛОЖЬ, то значение b полагается равным 0 и значения m подбираются таким образом, чтобы выполнялось соотношение y=mx.

Статистика — логическое значение, которое указывает, требуется ли вернуть дополнительную статистику по регрессии.

Если аргумент «статистика» имеет значение ИСТИНА, функция ЛИНЕЙН возвращает дополнительную регрессионную статистику. Возвращаемый массив будет иметь следующий вид: {mn;mn-1;…;m1;b:sen;sen-1;…;se1;seb:r2;sey:F;df:ssreg;ssresid}.

Если аргумент «статистика» имеет значение ЛОЖЬ или опущен, функция ЛИНЕЙН возвращает только коэффициенты m и постоянную b.

Дополнительная регрессионная статистика.(табл.17)

Величина Описание
se1,se2,…,sen Стандартные значения ошибок для коэффициентов m1,m2,…,mn.
seb Стандартное значение ошибки для постоянной b (seb = #Н/Д, если аргумент «конст» имеет значение ЛОЖЬ).
r2 Коэффициент детерминированности. Сравниваются фактические значения y и значения, получаемые из уравнения прямой; по результатам сравнения вычисляется коэффициент детерминированности, нормированный от 0 до 1. Если он равен 1, то имеет место полная корреляция с моделью, т. е. различия между фактическим и оценочным значениями y не существует. В противоположном случае, если коэффициент детерминированности равен 0, использовать уравнение регрессии для предсказания значений y не имеет смысла. Для получения дополнительных сведений о способах вычисления r2, см. «Замечания» в конце данного раздела.
sey Стандартная ошибка для оценки y.
F F-статистика или F-наблюдаемое значение. F-статистика используется для определения того, является ли случайной наблюдаемая взаимосвязь между зависимой и независимой переменными.
df Степени свободы. Степени свободы полезны для нахождения F-критических значений в статистической таблице. Для определения уровня надежности модели необходимо сравнить значения в таблице с F-статистикой, возвращаемой функцией ЛИНЕЙН. Для получения дополнительных сведений о вычислении величины df см. «Замечания» в конце данного раздела. Далее в примере 4 показано использование величин F и df.
ssreg Регрессионная сумма квадратов.
ssresid Остаточная сумма квадратов. Для получения дополнительных сведений о расчете величин ssreg и ssresid см. «Замечания» в конце данного раздела.

На приведенном ниже рисунке показано, в каком порядке возвращается дополнительная регрессионная статистика (рис. 64).

Замечания:

Любую прямую можно описать ее наклоном и пересечением с осью y:

Наклон (m): чтобы определить наклон прямой, обычно обозначаемый через m, нужно взять две точки прямой (x 1 ,y 1) и(x 2 ,y 2); наклон будет равен (y 2 -y 1)/(x 2 -x 1).

Y-пересечение (b): Y-пересечением прямой, обычно обозначаемым через b, является значение y для точки, в которой прямая пересекает ось y.

Уравнение прямой имеет вид y=mx+b. Если известны значения m и b, то можно вычислить любую точку на прямой, подставляя значения y или x в уравнение. Можно также воспользоваться функцией ТЕНДЕНЦИЯ.

Если имеется только одна независимая переменная x, можно получить наклон и y-пересечение непосредственно, воспользовавшись следующими формулами:

Наклон: ИНДЕКС (ЛИНЕЙН(известные_значения_y; известные_значения_x); 1)

Y-пересечение: ИНДЕКС (ЛИНЕЙН (известные_значения_y; известные_значения_x); 2)

Точность аппроксимации с помощью прямой, вычисленной функцией ЛИНЕЙН, зависит от степени разброса данных. Чем ближе данные к прямой, тем более точной является модель, используемая функцией ЛИНЕЙН. Функция ЛИНЕЙН использует метод наименьших квадратов для определения наилучшей аппроксимации данных. Когда имеется только одна независимая переменная x, m и b вычисляются по следующим формулам:

где x и y – выборочные средние значения, например x = СРЗНАЧ (известные_значения_x), а y = СРЗНАЧ (известные_значения_y).

Функции аппроксимации ЛИНЕЙН и ЛГРФПРИБЛ могут вычислить прямую или экспоненциальную кривую, наилучшим образом описывающую данные. Однако они не дают ответа на вопрос, какой из двух результатов больше подходит для решения поставленной задачи. Можно также вычислить функцию ТЕНДЕНЦИЯ (известные_значения_y; известные_значения_x) для прямой или функцию РОСТ(известные_значения_y; известные_значения_x) для экспоненциальной кривой. Эти функции, если не задавать аргумент новые_значения_x, возвращают массив вычисленных значений y для фактических значений x в соответствии с прямой или кривой. После этого можно сравнить вычисленные значения с фактическими значениями. Можно также построить диаграммы для визуального сравнения.

Проводя регрессионный анализ, Microsoft Excel вычисляет для каждой точки квадрат разности между прогнозируемым значением y и фактическим значением y. Сумма этих квадратов разностей называется остаточной суммой квадратов (ssresid). Затем Microsoft Excel подсчитывает общую сумму квадратов (sstotal). Если конст = ИСТИНА или значение этого аргумента не указано, общая сумма квадратов будет равна сумме квадратов разностей действительных значений y и средних значений y. При конст = ЛОЖЬ общая сумма квадратов будет равна сумме квадратов действительных значений y (без вычитания среднего значения y из частного значения y). После этого регрессионную сумму квадратов можно вычислить следующим образом: ssreg = sstotal — ssresid. Чем меньше остаточная сумма квадратов, тем больше значение коэффициента детерминированности r2, который показывает, насколько хорошо уравнение, полученное с помощью регрессионного анализа, объясняет взаимосвязи между переменными. Коэффициент r2 равен ssreg/sstotal.

В некоторых случаях один или более столбцов X (пусть значения Y и X находятся в столбцах) не имеет дополнительного предикативного значения в других столбцах X. Другими словами, удаление одного или более столбцов X может привести к значениям Y, вычисленным с одинаковой точностью. В этом случае избыточные столбцы X будут исключены из модели регрессии. Этот феномен называется «коллинеарностью», поскольку избыточные столбцы X могут быть представлены в виде суммы нескольких неизбыточных столбцов. Функция ЛИНЕЙН проверяет на коллинеарность и удаляет из модели регрессии все избыточные столбцы X, если обнаруживает их. Удаленные столбцы X можно определить в выходных данных ЛИНЕЙН по коэффициенту, равному 0, и по значению se, равному 0. Удаление одного или более столбцов как избыточных изменяет величину df, поскольку она зависит от количества столбцов X, в действительности используемых для предикативных целей. Подробнее о вычислении величины df см. ниже в примере 4. При изменении df вследствие удаления избыточных столбцов значения sey и F также изменяются. Часто использовать коллинеарность не рекомендуется. Однако ее следует применять, если некоторые столбцы X содержат 0 или 1 в качестве индикатора указывающего, входит ли предмет эксперимента в отдельную группу. Если конст = ИСТИНА или значение этого аргумента не указано, функция ЛИНЕЙН вставляет дополнительный столбец X для моделирования точки пересечения. Если имеется столбец со значениями 1 для указания мужчин и 0 — для женщин, а также имеется столбец со значениями 1 для указания женщин и 0 — для мужчин, то последний столбец удаляется, поскольку его значения можно получить из столбца с «индикатором мужского пола».

Вычисление df для случаев, когда столбцы X не удаляются из модели вследствие коллинеарности происходит следующим образом: если существует k столбцов известных_значений_x и значение конст = ИСТИНА или не указано, то df = n – k – 1. Если конст = ЛОЖЬ, то df = n — k. В обоих случаях удаление столбцов X вследствие коллинеарности увеличивает значение df на 1.

Формулы, которые возвращают массивы, должны быть введены как формулы массива.

При вводе массива констант в качестве, например, аргумента известные_значения_x следует использовать точку с запятой для разделения значений в одной строке и двоеточие для разделения строк. Знаки-разделители могут быть различными в зависимости от параметров, заданных в окне «Язык и стандарты» на панели управления.

Следует отметить, что значения y, предсказанные с помощью уравнения регрессии, возможно, не будут правильными, если они располагаются вне интервала значений y, которые использовались для определения уравнения.

Основной алгоритм, используемый в функции ЛИНЕЙН
, отличается от основного алгоритма функций НАКЛОН
и ОТРЕЗОК
. Разница между алгоритмами может привести к различным результатам при неопределенных и коллинеарных данных. Например, если точки данных аргумента известные_значения_y равны 0, а точки данных аргумента известные_значения_x равны 1, то:

Функция ЛИНЕЙН
возвращает значение, равное 0. Алгоритм функции ЛИНЕЙН
используется для возвращения подходящих значений для коллинеарных данных, и в данном случае может быть найден по меньшей мере один ответ.

Функции НАКЛОН и ОТРЕЗОК возвращают ошибку #ДЕЛ/0!. Алгоритм функций НАКЛОН и ОТРЕЗОК используется для поиска только одного ответа, а в данном случае их может быть несколько.

Помимо вычисления статистики для других типов регрессии функцию ЛИНЕЙН можно использовать при вычислении диапазонов для других типов регрессии, вводя функции переменных x и y как ряды переменных х и у для ЛИНЕЙН. Например, следующая формула:

ЛИНЕЙН(значения_y, значения_x^СТОЛБЕЦ($A:$C))

работает при наличии одного столбца значений Y и одного столбца значений Х для вычисления аппроксимации куба (многочлен 3-й степени) следующей формы:

y=m 1 x+m 2 x 2 +m 3 x 3 +b

Формула может быть изменена для расчетов других типов регрессии, но в отдельных случаях требуется корректировка выходных значений и других статистических данных.

Понравилась статья? Поделить с друзьями:
  • Нелинейная таблица в excel
  • Нелинейная регрессия в excel это
  • Нелинейная парная регрессия в excel
  • Нелинейная множественная регрессия excel
  • Нелинейная корреляция в excel