Аппроксимация excel по методу наименьших квадратов


Метод наименьших квадратов (МНК) основан на минимизации суммы квадратов отклонений выбранной функции от исследуемых данных. В этой статье аппроксимируем имеющиеся данные с помощью линейной функции

y

=

a

x

+

b

.


Метод наименьших квадратов

(англ.

Ordinary

Least

Squares

,

OLS

) является одним из базовых методов регрессионного анализа в части оценки неизвестных параметров

регрессионных моделей

по выборочным данным.

Рассмотрим приближение функциями, зависящими только от одной переменной:

  • Линейная: y=ax+b (эта статья)
  • Логарифмическая

    : y=a*Ln(x)+b

  • Степенная

    : y=a*x

    m

  • Экспоненциальная

    : y=a*EXP(b*x)+с

  • Квадратичная

    : y=ax

    2

    +bx+c


Примечание

: Случаи приближения полиномом с 3-й до 6-й степени рассмотрены в этой статье. Приближение тригонометрическим полиномом рассмотрено здесь.

Линейная зависимость

Нас интересует связь 2-х переменных

х

и

y

. Имеется предположение, что

y

зависит от

х

по линейному закону

y

=

ax

+

b

. Чтобы определить параметры этой взаимосвязи исследователь провел наблюдения: для каждого значения х

i

произведено измерение y

i

(см.

файл примера

). Соответственно, пусть имеется 20 пар значений (х

i

; y

i

).

Для наглядности рекомендуется построить диаграмму рассеяния.


Примечание:

Если шаг изменения по

х

постоянен, то для построения

диаграммы рассеяния

можно использовать

тип График

, если нет, то необходимо использовать тип диаграммы

Точечная

.

Из диаграммы очевидно, что связь между переменными близка к линейной. Чтобы понять какая из множества прямых линий наиболее «правильно» описывает зависимость между переменными, необходимо определить критерий, по которому будут сравниваться линии.

В качестве такого критерия используем выражение:

где

ŷ

i

=

a

*

x

i

+

b

;

n – число пар значений (в нашем случае n=20)

Вышеуказанное выражение представляет собой сумму квадратов расстояний между наблюденными значениями y

i

и ŷ

i

и часто обозначается как SSE (

Sum

of

Squared

Errors

(

Residuals

), сумма квадратов ошибок (остатков)

)

.


Метод наименьших квадратов

заключается в подборе такой линии

ŷ

=

ax

+

b

, для которой вышеуказанное выражение принимает минимальное значение.


Примечание:

Любая линия в двухмерном пространстве однозначно определяется значениями 2-х параметров:

a

(наклон) и

b

(сдвиг).

Считается, что чем меньше сумма квадратов расстояний, тем соответствующая линия лучше аппроксимирует имеющиеся данные и может быть в дальнейшем использована для прогнозирования значений y от переменной х. Понятно, что даже если в действительности никакой взаимосвязи между переменными нет или связь нелинейная, то МНК все равно подберет «наилучшую» линию. Таким образом, МНК ничего не говорит о наличии реальной взаимосвязи переменных, метод просто позволяет подобрать такие параметры функции

a

и

b

, для которых вышеуказанное выражение минимально.

Проделав не очень сложные математические операции (подробнее см.

статью про квадратичную зависимость

), можно вычислить параметры

a

и

b

:

Как видно из формулы, параметр

a

представляет собой отношение ковариации и

дисперсии

, поэтому в MS EXCEL для вычисления параметра

а

можно использовать следующие формулы (см.

файл примера лист Линейная

):

=

КОВАР(B26:B45;C26:C45)/ ДИСП.Г(B26:B45)

или

=

КОВАРИАЦИЯ.В(B26:B45;C26:C45)/ДИСП.В(B26:B45)

Также для вычисления параметра

а

можно использовать формулу =

НАКЛОН(C26:C45;B26:B45)

. Для параметра

b

используйте формулу =

ОТРЕЗОК(C26:C45;B26:B45)

.

И наконец, функция

ЛИНЕЙН()

позволяет вычислить сразу оба параметра. Для ввода формулы

ЛИНЕЙН(C26:C45;B26:B45)

необходимо выделить в строке 2 ячейки и нажать

CTRL

+

SHIFT

+

ENTER

(см. статью про

формулы массива, возвращающими несколько значений

). В левой ячейке будет возвращено значение

а

, в правой –

b

.


Примечание

: Чтобы не связываться с вводом

формул массива

потребуется дополнительно использовать функцию

ИНДЕКС()

. Формула =

ИНДЕКС(ЛИНЕЙН(C26:C45;B26:B45);1)

или просто =

ЛИНЕЙН(C26:C45;B26:B45)

вернет параметр, отвечающий за наклон линии, т.е.

а

. Формула =

ИНДЕКС(ЛИНЕЙН(C26:C45;B26:B45);2)

вернет параметр, отвечающий за пересечение линии с осью Y, т.е.

b

.

Вычислив параметры, на

диаграмме рассеяния

можно построить соответствующую линию.

Инструмент диаграммы Линия тренда

Еще одним способом построения прямой линии по методу наименьших квадратов является инструмент диаграммы

Линия тренда

. Для этого выделите диаграмму, в меню выберите

вкладку Макет

, в

группе Анализ

нажмите

Линия тренда

, затем

Линейное приближение

.

Поставив в диалоговом окне галочку в поле «показывать уравнение на диаграмме» можно убедиться, что найденные выше параметры совпадают со значениями на диаграмме.


Примечание

: Для того, чтобы параметры совпадали необходимо, чтобы тип у диаграммы был

Точечная, а не График

. Дело в том, что при построении диаграммы

График

значения по оси Х не могут быть заданы пользователем (пользователь может указать только подписи, которые не влияют на расположение точек). Вместо значений Х используется последовательность 1; 2; 3; … (для нумерации категорий). Поэтому, если строить

линию тренда

на диаграмме типа

График

, то вместо фактических значений Х будут использованы значения этой последовательности, что приведет к неверному результату (если, конечно, фактические значения Х не совпадают с последовательностью 1; 2; 3; …).


СОВЕТ

: Подробнее о построении диаграмм см. статьи

Основы построения диаграмм

и

Основные типы диаграмм

.

  • Редакция Кодкампа

17 авг. 2022 г.
читать 2 мин


Метод наименьших квадратов — это метод, который мы можем использовать для поиска линии регрессии, которая лучше всего соответствует заданному набору данных.

В следующем видео представлено краткое объяснение этого метода:

Чтобы использовать метод наименьших квадратов для подбора линии регрессии в Excel, мы можем использовать функцию =ЛИНЕЙН() .

В следующем пошаговом примере показано, как использовать эту функцию на практике.

Шаг 1: Создайте набор данных

Во-первых, давайте создадим следующий набор данных в Excel:

Шаг 2: Используйте метод наименьших квадратов для подбора линии регрессии

Мы можем использовать функцию =LINEST(known_ys, known_xs) , чтобы использовать метод наименьших квадратов, чтобы подобрать линию регрессии к этому набору данных:

Как только мы нажмем ENTER , появятся коэффициенты регрессионной модели:

Шаг 3: интерпретируйте результаты

Используя коэффициенты из функции =LINEST() , мы можем написать следующую подобранную линию регрессии:

у = 11,55211 + 1,07949(х)

Мы можем использовать это уравнение для оценки значения y на основе значения x.

Например, если x = 10, то мы оценили бы, что y будет равно 22,347 :

у = 11,55211 + 1,07949(10) = 22,347

Шаг 4: Нанесите результаты на график

Наконец, мы можем использовать следующие шаги для построения набора данных вместе с подобранной линией регрессии:

  • Выделите ячейки A2:B16 .
  • Щелкните вкладку « Вставка » на верхней ленте. Затем щелкните первый параметр диаграммы под названием « Вставить точечную (X, Y)» или «Пузырьковую диаграмму » в группе «Диаграммы».
  • После того, как диаграмма появится, нажмите знак плюс «+» в правом верхнем углу. В раскрывающемся меню установите флажок рядом с линией тренда , чтобы добавить на график подобранную линию регрессии.

Дополнительные ресурсы

Как выполнить множественную линейную регрессию в Excel
Как выполнить квадратичную регрессию в Excel
Как выполнить полиномиальную регрессию в Excel
Подбор кривой в Excel (с примерами)

Содержание

  • Использование метода в Экселе
    • Включение надстройки «Поиск решения»
    • Условия задачи
    • Решение
  • Вопросы и ответы

Метод наименьших квадратов в Microsoft Excel

Метод наименьших квадратов представляет собой математическую процедуру построения линейного уравнения, которое бы наиболее точно соответствовало набору двух рядов чисел. Целью применения данного способа является минимизация общей квадратичной ошибки. В программе Excel имеются инструменты, с помощью которых можно применять данный метод при вычислениях. Давайте разберемся, как это делается.

Использование метода в Экселе

Метод наименьших квадратов (МНК) является математическим описанием зависимости одной переменной от второй. Его можно использовать при прогнозировании.

Включение надстройки «Поиск решения»

Для того, чтобы использовать МНК в Экселе, нужно включить надстройку «Поиск решения», которая по умолчанию отключена.

  1. Переходим во вкладку «Файл».
  2. Переход во вкладку Файл в Microsoft Excel

  3. Кликаем по наименованию раздела «Параметры».
  4. Переход в раздел параметры в Microsoft Excel

  5. В открывшемся окне останавливаем выбор на подразделе «Надстройки».
  6. Переход в подраздел надстройки в Microsoft Excel

  7. В блоке «Управление», который расположен в нижней части окна, устанавливаем переключатель в позицию «Надстройки Excel» (если в нём выставлено другое значение) и жмем на кнопку «Перейти…».
  8. Переход к надстройкам Excel в Microsoft Excel

  9. Открывается небольшое окошко. Ставим в нём галочку около параметра «Поиск решения». Жмем на кнопку «OK».

Включение поиска решения в Microsoft Excel

Теперь функция Поиск решения в Excel активирована, а её инструменты появились на ленте.

Урок: Поиск решения в Экселе

Условия задачи

Опишем применение МНК на конкретном примере. Имеем два ряда чисел x и y, последовательность которых представлена на изображении ниже.

Переменные числа в Microsoft Excel

Наиболее точно данную зависимость может описать функция:

y=a+nx

Lumpics.ru

При этом, известно что при x=0 y тоже равно 0. Поэтому данное уравнение можно описать зависимостью y=nx.

Нам предстоит найти минимальную сумму квадратов разности.

Решение

Перейдем к описанию непосредственного применения метода.

  1. Слева от первого значения x ставим цифру 1. Это будет приближенная величина первого значения коэффициента n.
  2. Значение  коэффициента n в Microsoft Excel

  3. Справа от столбца y добавляем ещё одну колонку – nx. В первую ячейку данного столбца записываем формулу умножения коэффициента n на ячейку первой переменной x. При этом, ссылку на поле с коэффициентом делаем абсолютной, так как это значение меняться не будет. Кликаем по кнопке Enter.
  4. Значение nx в Microsoft Excel

  5. Используя маркер заполнения, копируем данную формулу на весь диапазон таблицы в столбце ниже.
  6. Копирование формулы в Microsoft Excel

  7. В отдельной ячейке высчитываем сумму разностей квадратов значений y и nx. Для этого кликаем по кнопке «Вставить функцию».
  8. Переход в мастер функций в Microsoft Excel

  9. В открывшемся «Мастере функций» ищем запись «СУММКВРАЗН». Выбираем её и жмем на кнопку «OK».
  10. Мастер функций в Microsoft Excel

  11. Открывается окно аргументов. В поле «Массив_x» вводим диапазон ячеек столбца y. В поле «Массив_y» вводим диапазон ячеек столбца nx. Для того, чтобы ввести значения, просто устанавливаем курсор в поле и выделяем соответствующий диапазон на листе. После ввода жмем на кнопку «OK».
  12. Ввод аргументов функции в Microsoft Excel

  13. Переходим во вкладку «Данные». На ленте в блоке инструментов «Анализ» жмем на кнопку «Поиск решения».
  14. Переход в поиск решения в Microsoft Excel

  15. Открывается окно параметров данного инструмента. В поле «Оптимизировать целевую функцию» указываем адрес ячейки с формулой «СУММКВРАЗН». В параметре «До» обязательно выставляем переключатель в позицию «Минимум». В поле «Изменяя ячейки» указываем адрес со значением коэффициента n. Жмем на кнопку «Найти решение».
  16. Поиск решения методом наименьшего квадрата в Microsoft Excel

  17. Решение будет отображаться в ячейке коэффициента n. Именно это значение будет являться наименьшим квадратом функции. Если результат удовлетворяет пользователя, то следует нажать на кнопку «OK» в дополнительном окне.

Подтверждение результата в Microsoft Excel

Как видим, применение метода наименьших квадратов довольно сложная математическая процедура. Мы показали её в действии на простейшем примере, а существуют гораздо более сложные случаи. Впрочем, инструментарий Microsoft Excel призван максимально упростить производимые вычисления.

Еще статьи по данной теме:

Помогла ли Вам статья?

Программа Excel – мощный табличный редактор, позволяющий выполнять огромное количество различных операций и задач. В данной статье мы разберем, как можно применить метод наименьших квадратов (МНК), который используется для решения различных задач с минимизацией суммы квадратов отклонений некоторых функций от искомых переменных.

Содержание

  • Подготовительный этап: активируем надстройку “Поиск Решения”
  • Этап 1: исходные данные
  • Этап 2: решаем задачу с применением МНК
  • Заключение

Подготовительный этап: активируем надстройку “Поиск Решения”

Прежде, чем приступить к решению основной задачи, потребуется активировать надстройку “Поиск решения” в программе.

  1. Идем в меню “Файл”.Переход в меню Файл в Эксель
  2. В перечне слева выбираем пункт “Параметры”.Переход к параметрам Excel
  3. В правой части подраздела “Надстройки” выбираем для параметра “Управление” вариант “Надстройки Excel” и жмем “Перейти”.Переход к управлению надстройками в Эксель
  4. Появится окно для выбора нужных надстроек. Устанавливаем галочку напротив пункта “Поиск решения” и щелкаем OK.Включение надстройки Поиск решения в Excel

Этап 1: исходные данные

Давайте разберем применение метода наименьших квадратов, решив конкретный пример. Допустим, у нас есть два ряда числовых значений – X и Y.

Исходная таблица с рядами X и Y в Эксель

Данная зависимость может быть описана уравнением ниже:

Y=A+NX

Также, мы знаем, что если X=0, то и Y=0. А значит, данное уравнение можно записать так:

Y=NX

Приступим к выполнению нашей задачи, которая заключается в нахождении суммы квадратов разности.

Этап 2: решаем задачу с применением МНК

  1. Столбцу, находящемся слева от X, задаем имя N пишем число “1” (примерное значение первого коэф. N) напротив первого значения ряда X.Заполнение столбца в Эксель
  2. Столбцу с правой стороны от Y задаем название NX. Затем в самой верхней ячейке (напротив первых значений рядов X и Y) пишем формулу произведения коэф. N на соответствующее ему значение из столбца X. При этом адрес ячейки с коэффициентом нужно сделать абсолютным, чтобы он не менялся при копировании формулы. По готовности жмем Enter.Заполнение столбца в Excel
  3. Наводим указатель мыши на ячейку с полученным результатом. Как только появится черный плюсик (маркер заполнения), зажав левую кнопку мыши тянем его вниз до последней строки таблицы.Копирование формулы с помощью маркера заполнения в Эксель
  4. Получаем результаты расчетов в каждой ячейке столбца NX.Результат копирования формулы с помощью маркера заполнения в Excel
  5. Теперь нужно посчитать сумму разностей квадратов значений Y и NX. Встаем в самую верхнюю ячейку столбца справа от NX (не считая шапки таблицы) и щелкаем по значку “Вставить функцию” (fx).Вставка функции в ячейку таблицы Эксель
  6. В окне вставки функции выбираем категорию “Математические”, находим оператор “СУММКВРАЗН” и щелкаем OK.Выбор оператора СУММКВРАЗН для вставки в ячейку таблицы Excel
  7. Теперь нужно заполнить аргументы функции:
    • в поле “Массив_x”  указываем координаты диапазона ячеек столбца Y (без шапки). Адреса ячеек можно указать как вручную, напечатав их с клавиатуры, так и путем выделения с помощью зажатой левой кнопки мыши в самой таблице.
    • в поле “Массив_y” указываем диапазон ячеек столбца NX.
    • жмем Enter, когда все готово.Заполнение аргументов функции СУММКВРАЗН в Эксель
  8. Переключаемся во вкладку “Данные”. В группе “Анализ” щелкаем по функции “Поиск решения”.Активация функции Поиск решения в Эксель
  9. Нам предстоит заполнить параметры поиска решения:
    • в поле “Оптимизировать целевую функцию” следует указать ссылку на ячейку с функцией “СУММКВРАЗН”. Сделать это можно вручную или выбрав элемент в таблице.
    • для опции “До” выбираем вариант – “Минимум”.
    • в поле “Изменяя ячейки переменных” нужно указать координаты ячейки, в которой находится соответствующее значение коэф. N.
    • по готовности нажимаем “Найти решение”.Заполнение параметров Поиска решения в Excel
  10. После выполнения функции появится окно с результатами поиска решения и произойдет замена значения в столбце N. Найденная величина является наименьшим квадратом функции. Нажимаем OK, если полученный результат удовлетворителен.Результаты поиска решения в Эксель

Заключение

Итак, мы только что разобрали на практическом примере, каким образом можно применить метод наименьших квадратов в Эксель. На практике могут встречаться более сложные задачи, однако, в целом логика действий схожа с той, что мы описали.

В этой статье описаны синтаксис формулы и использование функции LINEST в Microsoft Excel. Ссылки на дополнительные сведения о диаграммах и выполнении регрессионного анализа можно найти в разделе См. также.

Описание

Функция ЛИНЕЙН рассчитывает статистику для ряда с применением метода наименьших квадратов, чтобы вычислить прямую линию, которая наилучшим образом аппроксимирует имеющиеся данные и затем возвращает массив, который описывает полученную прямую. Функцию ЛИНЕЙН также можно объединять с другими функциями для вычисления других видов моделей, являющихся линейными по неизвестным параметрам, включая полиномиальные, логарифмические, экспоненциальные и степенные ряды. Поскольку возвращается массив значений, функция должна задаваться в виде формулы массива. Инструкции приведены в данной статье после примеров.

Уравнение для прямой линии имеет следующий вид:

y = mx + b

или

y = m1x1 + m2x2 +… + b

если существует несколько диапазонов значений x, где зависимые значения y — функции независимых значений x. Значения m — коэффициенты, соответствующие каждому значению x, а b — постоянная. Обратите внимание, что y, x и m могут быть векторами. Функция ЛИНЕЙН возвращает массив {mn;mn-1;…;m1;b}. Функция ЛИНЕЙН может также возвращать дополнительную регрессионную статистику.

Синтаксис

ЛИНЕЙН(известные_значения_y; [известные_значения_x]; [конст]; [статистика])

Аргументы функции ЛИНЕЙН описаны ниже.

Синтаксис

  • Известные_значения_y.    Обязательный аргумент. Множество значений y, которые уже известны для соотношения y = mx + b.

    • Если массив известные_значения_y имеет один столбец, то каждый столбец массива известные_значения_x интерпретируется как отдельная переменная.

    • Если массив известные_значения_y имеет одну строку, то каждая строка массива известные_значения_x интерпретируется как отдельная переменная.

  • Известные_значения_x.    Необязательный аргумент. Множество значений x, которые уже известны для соотношения y = mx + b.

    • Массив известные_значения_x может содержать одно или несколько множеств переменных. Если используется только одна переменная, то массивы известные_значения_y и известные_значения_x могут иметь любую форму — при условии, что они имеют одинаковую размерность. Если используется более одной переменной, то известные_значения_y должны быть вектором (т. е. интервалом высотой в одну строку или шириной в один столбец).

    • Если массив известные_значения_x опущен, то предполагается, что это массив {1;2;3;…}, имеющий такой же размер, что и массив известные_значения_y.

  • Конст.    Необязательный аргумент. Логическое значение, которое указывает, требуется ли, чтобы константа b была равна 0.

    • Если аргумент конст имеет значение ИСТИНА или опущен, то константа b вычисляется обычным образом.

    • Если аргумент конст имеет значение ЛОЖЬ, то значение b полагается равным 0 и значения m подбираются таким образом, чтобы выполнялось соотношение y = mx.

  • Статистика.    Необязательный аргумент. Логическое значение, которое указывает, требуется ли вернуть дополнительную регрессионную статистику.

    • Если статистика имеет true, то LINEST возвращает дополнительную регрессию; в результате возвращается массив {mn;mn-1,…,m1;b;sen,sen-1,…,se1;seb;r2;sey; F,df;ssreg,ssresid}.

    • Если аргумент статистика имеет значение ЛОЖЬ или опущен, функция ЛИНЕЙН возвращает только коэффициенты m и постоянную b.

      Дополнительная регрессионная статистика.

Величина

Описание

se1,se2,…,sen

Стандартные значения ошибок для коэффициентов m1,m2,…,mn.

seb

Стандартное значение ошибки для постоянной b (seb = #Н/Д, если аргумент конст имеет значение ЛОЖЬ).

r2

Коэффициент определения. Сравнивает предполагаемые и фактические значения y и диапазоны значений от 0 до 1. Если значение 1, то в выборке будет отличная корреляция— разница между предполагаемым значением y и фактическим значением y не существует. С другой стороны, если коэффициент определения — 0, уравнение регрессии не помогает предсказать значение y. Сведения о том, каквычисляется 2, см. в разделе «Замечания» далее в этой теме.

sey

Стандартная ошибка для оценки y.

F

F-статистика или F-наблюдаемое значение. F-статистика используется для определения того, является ли случайной наблюдаемая взаимосвязь между зависимой и независимой переменными.

df

Степени свободы. Степени свободы используются для нахождения F-критических значений в статистической таблице. Для определения уровня надежности модели необходимо сравнить значения в таблице с F-статистикой, возвращаемой функцией ЛИНЕЙН. Дополнительные сведения о вычислении величины df см. ниже в разделе «Замечания». Далее в примере 4 показано использование величин F и df.

ssreg

Регрессионная сумма квадратов.

ssresid

Остаточная сумма квадратов. Дополнительные сведения о расчете величин ssreg и ssresid см. в подразделе «Замечания» в конце данного раздела.

На приведенном ниже рисунке показано, в каком порядке возвращается дополнительная регрессионная статистика.

Лист

Замечания

  • Любую прямую можно описать ее наклоном и пересечением с осью y:

    Наклон (m):
    Чтобы найти наклон линии, обычно записанной как m, возьмите две точки на строке (x1;y1) и (x2;y2); наклон равен (y2 — y1)/(x2 — x1).

    Y-перехват (b):
    Y-пересечение строки, обычно записанное как b, — это значение y в точке, в которой линия пересекает ось y.

    Уравнение прямой имеет вид y = mx + b. Если известны значения m и b, то можно вычислить любую точку на прямой, подставляя значения y или x в уравнение. Можно также воспользоваться функцией ТЕНДЕНЦИЯ.

  • Если имеется только одна независимая переменная x, можно получить наклон и y-пересечение непосредственно, воспользовавшись следующими формулами:

    Наклон:
    =ИНДЕКС( LINEST(known_y,known_x’s);1)

    Y-перехват:
    =ИНДЕКС( LINEST(known_y,known_x),2)

  • Точность аппроксимации с помощью прямой, вычисленной функцией ЛИНЕЙН, зависит от степени разброса данных. Чем ближе данные к прямой, тем более точной является модель ЛИНЕЙН. Функция ЛИНЕЙН использует для определения наилучшей аппроксимации данных метод наименьших квадратов. Когда имеется только одна независимая переменная x, значения m и b вычисляются по следующим формулам:

    Уравнение

    Уравнение

    где x и y — выборочные средние значения, например x = СРЗНАЧ(известные_значения_x), а y = СРЗНАЧ(известные_значения_y).

  • Функции ЛИННЕСТРОЙ и ЛОГЪЕСТ могут вычислять наилучшие прямые или экспоненциальное кривой, которые подходят для ваших данных. Однако необходимо решить, какой из двух результатов лучше всего подходит для ваших данных. Вы можетевычислить known_y(known_x) для прямой линии или РОСТ(known_y, known_x в) для экспоненциальной кривой. Эти функции без аргумента new_x возвращают массив значений y, спрогнозируемых вдоль этой линии или кривой в фактических точках данных. Затем можно сравнить спрогнозируемые значения с фактическими значениями. Для наглядного сравнения можно отобразить оба этих диаграммы.

  • Проводя регрессионный анализ, Microsoft Excel вычисляет для каждой точки квадрат разности между прогнозируемым значением y и фактическим значением y. Сумма этих квадратов разностей называется остаточной суммой квадратов (ssresid). Затем Microsoft Excel подсчитывает общую сумму квадратов (sstotal). Если конст = ИСТИНА или значение этого аргумента не указано, общая сумма квадратов будет равна сумме квадратов разностей действительных значений y и средних значений y. При конст = ЛОЖЬ общая сумма квадратов будет равна сумме квадратов действительных значений y (без вычитания среднего значения y из частного значения y). После этого регрессионную сумму квадратов можно вычислить следующим образом: ssreg = sstotal — ssresid. Чем меньше остаточная сумма квадратов по сравнению с общей суммой квадратов, тем больше значение коэффициента определения r2— индикатор того, насколько хорошо уравнение, выданное в результате регрессионного анализа, объясняет связь между переменными. Значение r2 равно ssreg/sstotal.

  • В некоторых случаях один или несколько столбцов X (предполагается, что значения Y и X — в столбцах) могут не иметь дополнительного прогнозируемого значения при наличии других столбцов X. Другими словами, удаление одного или более столбцов X может привести к одинаковой точности предсказания значений Y. В этом случае эти избыточные столбцы X следует не использовать в модели регрессии. Этот вариант называется «коллинеарность», так как любой избыточный X-столбец может быть выражен как сумма многих не избыточных X-столбцов. Функция ЛИНЕЙН проверяет коллинеарность и удаляет все избыточные X-столбцы из модели регрессии при их идентификации. Удалены столбцы X распознаются в результатах LINEST как имеющие коэффициенты 0 в дополнение к значениям 0 se. Если один или несколько столбцов будут удалены как избыточные, это влияет на df, поскольку df зависит от числа X столбцов, фактически используемых для прогнозирования. Подробные сведения о вычислении df см. в примере 4. Если значение df изменилось из-за удаления избыточных X-столбцов, это также влияет на значения Sey и F. Коллинеарность должна быть относительно редкой на практике. Однако чаще всего возникают ситуации, когда некоторые столбцы X содержат только значения 0 и 1 в качестве индикаторов того, является ли тема в эксперименте участником определенной группы или не является ее участником. Если конст = ИСТИНА или опущен, функция LYST фактически вставляет дополнительный столбец X из всех 1 значений для моделирования перехвата. Если у вас есть столбец с значением 1 для каждой темы, если мальчик, или 0, а также столбец с 1 для каждой темы, если она является женщиной, или 0, последний столбец является избыточным, так как записи в нем могут быть получены из вычитания записи в столбце «самец» из записи в дополнительном столбце всех 1 значений, добавленных функцией LINEST.

  • Вычисление значения df для случаев, когда столбцы X удаляются из модели вследствие коллинеарности происходит следующим образом: если существует k столбцов известных_значений_x и значение конст = ИСТИНА или не указано, то df = n – k – 1. Если конст = ЛОЖЬ, то df = n — k. В обоих случаях удаление столбцов X вследствие коллинеарности увеличивает значение df на 1.

  • При вводе константы массива (например, в качестве аргумента известные_значения_x) следует использовать точку с запятой для разделения значений в одной строке и двоеточие для разделения строк. Знаки-разделители могут быть другими в зависимости от региональных параметров.

  • Следует отметить, что значения y, предсказанные с помощью уравнения регрессии, возможно, не будут правильными, если они располагаются вне интервала значений y, которые использовались для определения уравнения.

  • Основной алгоритм, используемый в функции ЛИНЕЙН, отличается от основного алгоритма функций НАКЛОН и ОТРЕЗОК. Разница между алгоритмами может привести к различным результатам при неопределенных и коллинеарных данных. Например, если точки данных аргумента известные_значения_y равны 0, а точки данных аргумента известные_значения_x равны 1, то:

    • Функция ЛИНЕЙН возвращает значение, равное 0. Алгоритм функции ЛИНЕЙН используется для возвращения подходящих значений для коллинеарных данных, и в данном случае может быть найден по меньшей мере один ответ.

    • Наклон и ОТОКП возвращают #DIV/0! ошибка «#ЗНАЧ!». Алгоритм функций НАКЛОН и ОТОКП предназначен для поиска только одного ответа, и в этом случае может быть несколько ответов.

  • Помимо вычисления статистики для других типов регрессии с помощью функции ЛГРФПРИБЛ, для вычисления диапазонов некоторых других типов регрессий можно использовать функцию ЛИНЕЙН, вводя функции переменных x и y как ряды переменных х и у для ЛИНЕЙН. Например, следующая формула:

    =ЛИНЕЙН(значения_y, значения_x^СТОЛБЕЦ($A:$C))

    работает при наличии одного столбца значений Y и одного столбца значений Х для вычисления аппроксимации куба (многочлен 3-й степени) следующей формы:

    y = m1*x + m2*x^2 + m3*x^3 + b

    Формула может быть изменена для расчетов других типов регрессии, но в отдельных случаях требуется корректировка выходных значений и других статистических данных.

  • Значение F-теста, возвращаемое функцией ЛИНЕЙН, отличается от значения, возвращаемого функцией ФТЕСТ. Функция ЛИНЕЙН возвращает F-статистику, в то время как ФТЕСТ возвращает вероятность.

Примеры

Пример 1. Наклон и Y-пересечение

Скопируйте образец данных из следующей таблицы и вставьте их в ячейку A1 нового листа Excel. Чтобы отобразить результаты формул, выделите их и нажмите клавишу F2, а затем — клавишу ВВОД. При необходимости измените ширину столбцов, чтобы видеть все данные.

Известные значения y

Известные значения x

1

0

9

4

5

2

7

3

Результат (наклон)

Результат (y-пересечение)

2

1

Формула (формула массива в ячейках A7:B7)

=ЛИНЕЙН(A2:A5;B2:B5;;ЛОЖЬ)

Пример 2. Простая линейная регрессия

Скопируйте образец данных из следующей таблицы и вставьте их в ячейку A1 нового листа Excel. Чтобы отобразить результаты формул, выделите их и нажмите клавишу F2, а затем — клавишу ВВОД. При необходимости измените ширину столбцов, чтобы видеть все данные.

Месяц

Продажи

1

3 100 ₽

2

4 500 ₽

3

4 400 ₽

4

5 400 ₽

5

7 500 ₽

6

8 100 ₽

Формула

Результат

=СУММ(ЛИНЕЙН(B1:B6; A2:A7)*{9;1})

11 000 ₽

Вычисляет предполагаемый объем продаж в девятом месяце на основе данных о продажах за период с первого по шестой месяцы.

Пример 3. Множественная линейная регрессия

Скопируйте образец данных из следующей таблицы и вставьте их в ячейку A1 нового листа Excel. Чтобы отобразить результаты формул, выделите их и нажмите клавишу F2, а затем — клавишу ВВОД. При необходимости измените ширину столбцов, чтобы видеть все данные.

Общая площадь (x1)

Количество офисов (x2)

Количество входов (x3)

Время эксплуатации (x4)

Оценочная цена (y)

2310

2

2

20

142 000 ₽

2333

2

2

12

144 000 ₽

2356

3

1,5

33

151 000 ₽

2379

3

2

43

150 000 ₽

2402

2

3

53

139 000 ₽

2425

4

2

23

169 000 ₽

2448

2

1,5

99

126 000 ₽

2471

2

2

34

142 900 ₽

2494

3

3

23

163 000 ₽

2517

4

4

55

169 000 ₽

2540

2

3

22

149 000 ₽

-234,2371645

13,26801148

0,996747993

459,7536742

1732393319

Формула (формула динамического массива, введенная в A19)

=ЛИНЕЙН(E2:E12; A2:D12; ИСТИНА; ИСТИНА)

Пример 4. Использование статистики F и r2

В предыдущем примере коэффициент определения (r2)составляет 0,99675 (см. ячейку A17 в результатах для ЛИТН), что указывает на крепкая связь между независимыми переменными и ценой продажи. F-статистику можно использовать для определения случайности этих результатов с таким высоким значением r2.

Предположим, что на самом деле взаимосвязи между переменными не существует, просто статистический анализ вывел сильную взаимозависимость по взятой равномерной выборке 11 зданий. Величина «Альфа» используется для обозначения вероятности ошибочного вывода о существовании сильная взаимозависимости.

Значения F и df в результатах функции LINEST можно использовать для оценки вероятности возникновения более высокого F-значения. F можно сравнивать с критическими значениями в опубликованных F-таблицах или с помощью функции FРАСП в Excel для вычисления вероятности случайного возникновения большего F-значения. Соответствующее F-распределение имеет v1 и v2 степени свободы. Если n — количество точек данных и конст = ИСТИНА или опущен, то v1 = n – df – 1 и v2 = df. (Если конст = ЛОЖЬ, то v1 = n – df и v2 = df.) Функция FIST с синтаксисом FDIST(F;v1;v2) возвращает вероятность возникновения более высокого F-значения, случайного. В этом примере df = 6 (ячейка B18) и F = 459,753674 (ячейка A18).

Предположим, что альфа имеет значение 0,05, v1 = 11 – 6 – 1 = 4, а v2 = 6, критический уровень F составляет 4,53. Поскольку F = 459,753674 значительно больше 4,53, вероятность того, что F-значение этого высокой случайности превышает 4,53, крайне маловероятно. (Если значение «Альфа» = 0,05, гипотеза о том, что между known_y и known_x нет связи, отклоняется при превышении F критического уровня (4,53).) Функцию FDIST в Excel можно использовать для получения вероятности случайного возникновения F-значения. Например, FIST(459,753674, 4, 6) = 1,37E-7, очень небольшая вероятность. Можно сделать вывод о том, что формула регрессии полезна для предсказания оценочного значения офисных зданий в этой области, найдя критический уровень F в таблице или с помощью функции FDIST. Помните, что крайне важно использовать правильные значения 1 и 2, вычисленные в предыдущем абзаце.

Пример 5. Вычисление t-статистики

Другой тест позволяет определить, подходит ли каждый коэффициент наклона для оценки стоимости здания под офис в примере 3. Например, чтобы проверить, имеет ли срок эксплуатации здания статистическую значимость, разделим -234,24 (коэффициент наклона для срока эксплуатации здания) на 13,268 (оценка стандартной ошибки для коэффициента времени эксплуатации из ячейки A15). Ниже приводится наблюдаемое t-значение:

t = m4 ÷ se4 = –234,24 ÷ 13,268 = –17,7

Если абсолютное значение t достаточно велико, можно сделать вывод, что коэффициент наклона можно использовать для оценки стоимости здания под офис в примере 3. В таблице ниже приведены абсолютные значения четырех наблюдаемых t-значений.

Если обратиться к справочнику по математической статистике, то окажется, что t-критическое двустороннее с 6 степенями свободы равно 2,447 при Альфа = 0,05. Критическое значение также можно также найти с помощью функции Microsoft Excel СТЬЮДРАСПОБР. СТЬЮДРАСПОБР(0,05; 6) = 2,447. Поскольку абсолютная величина t, равная 17,7, больше, чем 2,447, срок эксплуатации — это важная переменная для оценки стоимости здания под офис. Аналогичным образом можно протестировать все другие переменные на статистическую значимость. Ниже приводятся наблюдаемые t-значения для каждой из независимых переменных.

Переменная

t-наблюдаемое значение

Общая площадь

5,1

Количество офисов

31,3

Количество входов

4,8

Возраст

17,7

Абсолютная величина всех этих значений больше, чем 2,447. Следовательно, все переменные, использованные в уравнении регрессии, полезны для предсказания оценочной стоимости здания под офис в данном районе.

На чтение 5 мин Опубликовано 27.12.2020

Табличный процессор Эксель способен реализовывать большое число математических операций. Из статьи вы узнаете, как используется метод наименьших квадратов, который применяется для осуществления решения разнообразных задач.

Содержание

  1. Первоначальные настройки: включение параметра «Поиск решения»
  2. Что такое метод наименьших квадратов
  3. Шаг первый: исходные данные решаемой задачи
  4. Шаг второй: решение задачки с использованием МНК
  5. Заключение

Первоначальные настройки: включение параметра «Поиск решения»

Изначально необходимо включить «Поиск решения», так как по умолчанию он находится в выключенном состоянии. Пошаговое руководство выглядит следующим образом:

  1. Переходим в раздел «Файл», который находится в левом верхнем углу интерфейса табличного процессора.

metod-naimenshih-kvadratov-v-excel

1
  1. На экране отобразилось новое окошко. Здесь, в левой колонке, необходимо кликнуть на элемент «Параметры».

metod-naimenshih-kvadratov-v-excel

2
  1. В появившемся окне выбираем раздел «Надстройки». В правой части окошка находим надпись «Управление:» и раскрываем список. В списке выбираем пункт «Надстройки Excel». Щёлкаем кнопку «ОК».

metod-naimenshih-kvadratov-v-excel

3
  1. Появилось еще одно окошко с названием «Надстройки». Около элемента «Поиск решения» ставим галочку. После проведения всех манипуляций кликаем «ОК».

metod-naimenshih-kvadratov-v-excel

4
  1. Готово! Параметр включился, и теперь мы можем приступить к разбору метода наименьших квадратов.

Что такое метод наименьших квадратов

Для начала вспомним, что метод наименьших квадратов — математический метод, используемый для решения задач, основанный на минимизации суммы квадратов отклонений некоторых функций от изначальных значений.

Он может применяться для «решения» переопределенных систем уравнений (когда число уравнений больше числа неизвестных), для поиска решения в случае стандартных (не переопределенных) нелинейных систем уравнений, для аппроксимации точечных значений некоторой функции.

Шаг первый: исходные данные решаемой задачи

На конкретном примере начнем разбор метода наименьших квадратов. К примеру, у нас есть 2 колонки – X и Y:

metod-naimenshih-kvadratov-v-excel

5

Эта зависимость описывается уравнением: Y=A+NX.

Мы прекрасно знаем, что если Х равен нулю, то и Y равен нулю. Следовательно, это уравнение можно привести к следующему виду: Y=NX. Начнём реализацию этой задачи. Нам нужно найти сумму квадратов разности.

Шаг второй: решение задачки с использованием МНК

Пошаговое руководство выглядит следующим образом:

  1. Столбику, который располагается левее показателя Х, даем название N и прописываем единицу рядом с 1-м показателем колонки Х. Единица – это примерное значение 1-го коэффициента N.

metod-naimenshih-kvadratov-v-excel

6
  1. Столбику, который располагается правее показателя Y, даем наименование NX.
  2. В ячейку D1, находящуюся около первых показателей X и Y, прописываем специальную формулу произведения коэффициента N на показатель из столбика Х. Сама формула выглядит следующим образом: =$А$2*В2. Стоит заметить, что адрес ячейки с коэффициентом необходимо привести к абсолютному типу. Абсолютный тип в табличном процессоре позволяет зафиксировать строчку или столбик (или все вместе одновременно). Иными словами, при копировании значений в другие ячейки абсолютные ссылки не будут меняться. После проведения всех манипуляций жмем клавишу «Enter».

metod-naimenshih-kvadratov-v-excel

7
  1. Перемещаем курсор мышки на сектор с выведенным результатом. Наведя указатель в правый верхний уголок, он превратится в маленький плюсик темного цвета, который называется маркером заполнения. Зажимаем ЛКМ и перетягиваем маркер в самый низ до крайней строчки табличных данных.

metod-naimenshih-kvadratov-v-excel

8
  1. После проведения этих манипуляций мы получили результаты вычислений во всех секторах колонки NX.

metod-naimenshih-kvadratov-v-excel

9
  1. Далее переходим к подсчету суммы разностей квадратов показателей Y и NX. Перемещаемся в ячейку E1, располагающуюся правее от показателя NX, нажимаем на элемент «Вставить функцию», который находится рядом со строкой для ввода формул, и имеет внешний вид «fx».

metod-naimenshih-kvadratov-v-excel

10
  1. Первым делом, находим надпись «Категории:» и раскрываем список, находящийся рядом. В обширном списке выбираем элемент «Математические». В блоке «Выберите функцию:» отыскиваем функцию «СУММКВРАЗН» и выбираем ее. После проведения всех манипуляций жмем на кнопку «ОК».

metod-naimenshih-kvadratov-v-excel

11
  1. Открылось небольшое окошко «Аргументы функции». Для дальнейшей работы необходимо заполнить все строки формы. В строчку «Массив_х» вводим адрес диапазона ячеек столбика Y. Координаты можно вписать самостоятельно ручным вводом, используя клавиатуру, или же путем их выбора в самих табличных данных.
  2. В строчку «Массив_у» вводим адрес диапазона ячеек столбика NX. После проведения всех манипуляций щёлкаем клавишу «Enter».

metod-naimenshih-kvadratov-v-excel

12
  1. Перемещаемся в раздел «Данные», который находится в верхней части интерфейса табличного процессора. Находим блок команд под названием «Анализ» и выбираем элемент «Поиск решения».

metod-naimenshih-kvadratov-v-excel

13
  1. На экране отобразилось окошко с огромным количеством настроек, которые необходимо заполнить. В строчку «Оптимизировать целевую функцию» вводим ссылку на ячейку с оператором «СУММКВРАЗН». Реализовать это действие можно самостоятельно ручным вводом, используя клавиатуру, или же выбрав сектор в самой табличке. Ставим отметку около надписи «Минимум», которая располагается в блоке «До:». В строчку «Изменяя ячейки переменных» вбиваем адрес сектора, в котором располагается показатель коэффициента N – $A$2. После проведения всех манипуляций щелкаем на «Найти решение».

metod-naimenshih-kvadratov-v-excel

14
  1. После того, как «Поиск решения» будет выполнен, на экране компьютера отобразится окошко с выведенными результатами поиска решения, а затем реализуется замена числовых значений в столбике N. Отображенный результат – это наименьший квадрат функции. Если выведенный результат удовлетворяет тому, что нужно было найти, то нажимаем «ОК».

metod-naimenshih-kvadratov-v-excel

15

Заключение

Таким образом, мы на конкретном примере рассмотрели способ использования метода наименьших квадратов в табличном процессоре Microsoft Excel и ознакомились со стандартным алгоритмом действий при решении похожих задач.

Оцените качество статьи. Нам важно ваше мнение:

history 11 ноября 2018 г.
    Группы статей

  • Статистический анализ

Метод наименьших квадратов (МНК) основан на минимизации суммы квадратов отклонений выбранной функции от исследуемых данных. В этой статье аппроксимируем имеющиеся данные с помощью линейной функции y = a x + b .

Метод наименьших квадратов (англ. Ordinary Least Squares , OLS ) является одним из базовых методов регрессионного анализа в части оценки неизвестных параметров регрессионных моделей по выборочным данным.

Рассмотрим приближение функциями, зависящими только от одной переменной:

  • Линейная: y=ax+b (эта статья)
  • Логарифмическая : y=a*Ln(x)+b
  • Степенная : y=a*x m
  • Экспоненциальная : y=a*EXP(b*x)+с
  • Квадратичная : y=ax 2 +bx+c

Примечание : Случаи приближения полиномом с 3-й до 6-й степени рассмотрены в этой статье. Приближение тригонометрическим полиномом рассмотрено здесь.

Линейная зависимость

Нас интересует связь 2-х переменных х и y . Имеется предположение, что y зависит от х по линейному закону y = ax + b . Чтобы определить параметры этой взаимосвязи исследователь провел наблюдения: для каждого значения х i произведено измерение y i (см. файл примера ). Соответственно, пусть имеется 20 пар значений (х i ; y i ).

Для наглядности рекомендуется построить диаграмму рассеяния.

Примечание: Если шаг изменения по х постоянен, то для построения диаграммы рассеяния можно использовать тип График , если нет, то необходимо использовать тип диаграммы Точечная .

Из диаграммы очевидно, что связь между переменными близка к линейной. Чтобы понять какая из множества прямых линий наиболее «правильно» описывает зависимость между переменными, необходимо определить критерий, по которому будут сравниваться линии.

В качестве такого критерия используем выражение:

где ŷ i = a * x i + b ; n – число пар значений (в нашем случае n=20)

Вышеуказанное выражение представляет собой сумму квадратов расстояний между наблюденными значениями y i и ŷ i и часто обозначается как SSE ( Sum of Squared Errors ( Residuals ), сумма квадратов ошибок (остатков) ) .

Метод наименьших квадратов заключается в подборе такой линии ŷ = ax + b , для которой вышеуказанное выражение принимает минимальное значение.

Примечание: Любая линия в двухмерном пространстве однозначно определяется значениями 2-х параметров: a (наклон) и b (сдвиг).

Считается, что чем меньше сумма квадратов расстояний, тем соответствующая линия лучше аппроксимирует имеющиеся данные и может быть в дальнейшем использована для прогнозирования значений y от переменной х. Понятно, что даже если в действительности никакой взаимосвязи между переменными нет или связь нелинейная, то МНК все равно подберет «наилучшую» линию. Таким образом, МНК ничего не говорит о наличии реальной взаимосвязи переменных, метод просто позволяет подобрать такие параметры функции a и b , для которых вышеуказанное выражение минимально.

Проделав не очень сложные математические операции (подробнее см. статью про квадратичную зависимость ), можно вычислить параметры a и b :

Как видно из формулы, параметр a представляет собой отношение ковариации и дисперсии , поэтому в MS EXCEL для вычисления параметра а можно использовать следующие формулы (см. файл примера лист Линейная ):

= КОВАР(B26:B45;C26:C45)/ ДИСП.Г(B26:B45) или

Также для вычисления параметра а можно использовать формулу = НАКЛОН(C26:C45;B26:B45) . Для параметра b используйте формулу = ОТРЕЗОК(C26:C45;B26:B45) .

И наконец, функция ЛИНЕЙН() позволяет вычислить сразу оба параметра. Для ввода формулы ЛИНЕЙН(C26:C45;B26:B45) необходимо выделить в строке 2 ячейки и нажать CTRL + SHIFT + ENTER (см. статью про формулы массива, возвращающими несколько значений ). В левой ячейке будет возвращено значение а , в правой – b .

Примечание : Чтобы не связываться с вводом формул массива потребуется дополнительно использовать функцию ИНДЕКС() . Формула = ИНДЕКС(ЛИНЕЙН(C26:C45;B26:B45);1) или просто = ЛИНЕЙН(C26:C45;B26:B45) вернет параметр, отвечающий за наклон линии, т.е. а . Формула = ИНДЕКС(ЛИНЕЙН(C26:C45;B26:B45);2) вернет параметр, отвечающий за пересечение линии с осью Y, т.е. b .

Вычислив параметры, на диаграмме рассеяния можно построить соответствующую линию.

Еще одним способом построения прямой линии по методу наименьших квадратов является инструмент диаграммы Линия тренда . Для этого выделите диаграмму, в меню выберите вкладку Макет , в группе Анализ нажмите Линия тренда , затем Линейное приближение .

Поставив в диалоговом окне галочку в поле «показывать уравнение на диаграмме» можно убедиться, что найденные выше параметры совпадают со значениями на диаграмме.

Примечание : Для того, чтобы параметры совпадали необходимо, чтобы тип у диаграммы был Точечная, а не График . Дело в том, что при построении диаграммы График значения по оси Х не могут быть заданы пользователем (пользователь может указать только подписи, которые не влияют на расположение точек). Вместо значений Х используется последовательность 1; 2; 3; … (для нумерации категорий). Поэтому, если строить линию тренда на диаграмме типа График , то вместо фактических значений Х будут использованы значения этой последовательности, что приведет к неверному результату (если, конечно, фактические значения Х не совпадают с последовательностью 1; 2; 3; …).

СОВЕТ : Подробнее о построении диаграмм см. статьи Основы построения диаграмм и Основные типы диаграмм .

Exceltip

Блог о программе Microsoft Excel: приемы, хитрости, секреты, трюки

Метод наименьших квадратов в Excel — использование функции ТЕНДЕНЦИЯ

Метод наименьших квадратов

Метод наименьших квадратов — это математическая процедура составления линейного уравнения, максимально соответствующего набору упорядоченных пар, путем нахождения значений для a и b, коэффициентов в уравнении прямой. Цель метода наименьших квадратов состоит в минимизации общей квадратичной ошибки между значениями y и ŷ. Если для каждой точки мы определяем ошибку ŷ, метод наименьших квадратов минимизирует:

метод наименьших квадратов excel

где n = число упорядоченных пар вокруг линии. максимально соответствующей данным.

Это понятие проиллюстрировано на рисунке

метод наименьших квадратов excel

Судя по рисунку, линия, максимально соответствующая данным, линия регрессии, минимизирует общую квадратичную ошибку четырех точек на графике. Я покажу вам, как определять это уравнение регрессии с помощью метода наименьших квадратов на следующем примере.

Представьте себе молодую пару, которые, с недавних пор, живут вместе и совместно делят столик для косметических принадлежностей в ванной. Молодой человек начал замечать, что половина его столика неумолимо сокращается, сдавая свои позиции муссам для волос и соевым комплексам. За последние несколько месяцев парень внимательно следил за тем, с какой скоростью увеличивается число предметов на ее части стола. В таблице ниже представлено число предметов девушки на столике в ванной, накопившихся за последние несколько месяцев.

метод наименьших квадратов excel

Поскольку своей целью мы определили задачу узнать, увеличивается ли со временем число предметов, «Месяц» будет независимой переменной, а «Число предметов» — зависимой.

С помощью метода наименьших квадратов определяем уравнение, максимально соответствующее данным, путем вычисления значений a, отрезка на оси y, и b, наклона линии:

метод наименьших квадратов excel

где xср — среднее значение x, независимой переменной, yср — среднее значение y, независимой переменной.

В таблице ниже суммированы необходимые для этих уравнений вычисления.

метод наименьших квадратов excel

метод наименьших квадратов excel

Кривая эффекта для нашего примера с ванной будет определяться следующим уравнением:

Поскольку наше уравнение имеет положительный наклон — 0.976, парень имеет доказательство того, что число предметов на столике со временем увеличивается со средней скоростью 1 предмет в месяц. На графике представлена кривая эффекта с упорядоченными парами.

метод наименьших квадратов excel

Ожидание в отношении числа предметов в течение следующего полугода (месяца 16) будет вычисляться так:

ŷ = 5.13 + 0.976x = 5.13 + 0.976(16)

20.7 = 21 предмет

Так что, пора нашему герою предпринимать какие-нибудь действия.

Функция ТЕНДЕНЦИЯ в Excel

Как вы уже, наверное, догадались в Excel имеется функция для расчета значения по методу наименьших квадратов. Это функция называется ТЕНДЕНЦИЯ. Синтаксис у нее следующий:

ТЕНДЕНЦИЯ (известные значения Y; известные значения X; новые значения X; конст)

известные значения Y – массив зависимых переменных, в нашем случае, количество предметов на столике

известные значения X – массив независимых переменных, в нашем случае это месяц

новые значения X – новые значения X (месяца) для которого функция ТЕНДЕНЦИЯ возвращает ожидаемое значение зависимых переменных (количество предметов)

конст — необязательный. Логическое значение, которое указывает, требуется ли, чтобы константа b была равна 0.

Например, на рисунке показана функция ТЕНДЕНЦИЯ, используемая для определения ожидаемого количества предметов на столике в ванной для 16-го месяца.

Применение метода наименьших квадратов в Excel

Метод наименьших квадратов в Microsoft Excel

Метод наименьших квадратов представляет собой математическую процедуру построения линейного уравнения, которое бы наиболее точно соответствовало набору двух рядов чисел. Целью применения данного способа является минимизация общей квадратичной ошибки. В программе Excel имеются инструменты, с помощью которых можно применять данный метод при вычислениях. Давайте разберемся, как это делается.

Использование метода в Экселе

Метод наименьших квадратов (МНК) является математическим описанием зависимости одной переменной от второй. Его можно использовать при прогнозировании.

Включение надстройки «Поиск решения»

Для того, чтобы использовать МНК в Экселе, нужно включить надстройку «Поиск решения», которая по умолчанию отключена.

  1. Переходим во вкладку «Файл».

Переход во вкладку Файл в Microsoft Excel

Кликаем по наименованию раздела «Параметры».

Переход в раздел параметры в Microsoft Excel

В открывшемся окне останавливаем выбор на подразделе «Надстройки».

Переход в подраздел надстройки в Microsoft Excel

Переход к надстройкам Excel в Microsoft Excel

  • Открывается небольшое окошко. Ставим в нём галочку около параметра «Поиск решения». Жмем на кнопку «OK».
  • Включение поиска решения в Microsoft Excel

    Теперь функция Поиск решения в Excel активирована, а её инструменты появились на ленте.

    Условия задачи

    Опишем применение МНК на конкретном примере. Имеем два ряда чисел x и y, последовательность которых представлена на изображении ниже.

    Переменные числа в Microsoft Excel

    Наиболее точно данную зависимость может описать функция:

    При этом, известно что при x=0 y тоже равно 0. Поэтому данное уравнение можно описать зависимостью y=nx.

    Нам предстоит найти минимальную сумму квадратов разности.

    Решение

    Перейдем к описанию непосредственного применения метода.

      Слева от первого значения x ставим цифру 1. Это будет приближенная величина первого значения коэффициента n.

    Значение коэффициента n в Microsoft Excel

    Справа от столбца y добавляем ещё одну колонку – nx. В первую ячейку данного столбца записываем формулу умножения коэффициента n на ячейку первой переменной x. При этом, ссылку на поле с коэффициентом делаем абсолютной, так как это значение меняться не будет. Кликаем по кнопке Enter.

    Значение nx в Microsoft Excel

    Используя маркер заполнения, копируем данную формулу на весь диапазон таблицы в столбце ниже.

    Копирование формулы в Microsoft Excel

    В отдельной ячейке высчитываем сумму разностей квадратов значений y и nx. Для этого кликаем по кнопке «Вставить функцию».

    Переход в мастер функций в Microsoft Excel

    В открывшемся «Мастере функций» ищем запись «СУММКВРАЗН». Выбираем её и жмем на кнопку «OK».

    Мастер функций в Microsoft Excel

    Открывается окно аргументов. В поле «Массив_x» вводим диапазон ячеек столбца y. В поле «Массив_y» вводим диапазон ячеек столбца nx. Для того, чтобы ввести значения, просто устанавливаем курсор в поле и выделяем соответствующий диапазон на листе. После ввода жмем на кнопку «OK».

    Ввод аргументов функции в Microsoft Excel

    Переходим во вкладку «Данные». На ленте в блоке инструментов «Анализ» жмем на кнопку «Поиск решения».

    Переход в поиск решения в Microsoft Excel

    Открывается окно параметров данного инструмента. В поле «Оптимизировать целевую функцию» указываем адрес ячейки с формулой «СУММКВРАЗН». В параметре «До» обязательно выставляем переключатель в позицию «Минимум». В поле «Изменяя ячейки» указываем адрес со значением коэффициента n. Жмем на кнопку «Найти решение».

    Поиск решения методом наименьшего квадрата в Microsoft Excel

  • Решение будет отображаться в ячейке коэффициента n. Именно это значение будет являться наименьшим квадратом функции. Если результат удовлетворяет пользователя, то следует нажать на кнопку «OK» в дополнительном окне.
  • Подтверждение результата в Microsoft Excel

    Как видим, применение метода наименьших квадратов довольно сложная математическая процедура. Мы показали её в действии на простейшем примере, а существуют гораздо более сложные случаи. Впрочем, инструментарий Microsoft Excel призван максимально упростить производимые вычисления.

    ЗакрытьМы рады, что смогли помочь Вам в решении проблемы.

    Добавьте сайт Lumpics.ru в закладки и мы еще пригодимся вам.
    Отблагодарите автора, поделитесь статьей в социальных сетях.

    ЗакрытьОпишите, что у вас не получилось. Наши специалисты постараются ответить максимально быстро.

    Метод наименьших квадратов в Excel

    Табличный процессор Эксель способен реализовывать большое число математических операций. Из статьи вы узнаете, как используется метод наименьших квадратов, который применяется для осуществления решения разнообразных задач.

    Первоначальные настройки: включение параметра «Поиск решения»

    Изначально необходимо включить «Поиск решения», так как по умолчанию он находится в выключенном состоянии. Пошаговое руководство выглядит следующим образом:

    1. Переходим в раздел «Файл», который находится в левом верхнем углу интерфейса табличного процессора.

    metod-naimenshih-kvadratov-v-excel1

    1. На экране отобразилось новое окошко. Здесь, в левой колонке, необходимо кликнуть на элемент «Параметры».

    metod-naimenshih-kvadratov-v-excel2

    1. В появившемся окне выбираем раздел «Надстройки». В правой части окошка находим надпись «Управление:» и раскрываем список. В списке выбираем пункт «Надстройки Excel». Щёлкаем кнопку «ОК».

    metod-naimenshih-kvadratov-v-excel3

    1. Появилось еще одно окошко с названием «Надстройки». Около элемента «Поиск решения» ставим галочку. После проведения всех манипуляций кликаем «ОК».

    metod-naimenshih-kvadratov-v-excel4

    1. Готово! Параметр включился, и теперь мы можем приступить к разбору метода наименьших квадратов.

    Что такое метод наименьших квадратов

    Для начала вспомним, что метод наименьших квадратов — математический метод, используемый для решения задач, основанный на минимизации суммы квадратов отклонений некоторых функций от изначальных значений.

    Он может применяться для «решения» переопределенных систем уравнений (когда число уравнений больше числа неизвестных), для поиска решения в случае стандартных (не переопределенных) нелинейных систем уравнений, для аппроксимации точечных значений некоторой функции.

    Шаг первый: исходные данные решаемой задачи

    На конкретном примере начнем разбор метода наименьших квадратов. К примеру, у нас есть 2 колонки – X и Y:

    metod-naimenshih-kvadratov-v-excel

    5

    Эта зависимость описывается уравнением: Y=A+NX.

    Мы прекрасно знаем, что если Х равен нулю, то и Y равен нулю. Следовательно, это уравнение можно привести к следующему виду: Y=NX. Начнём реализацию этой задачи. Нам нужно найти сумму квадратов разности.

    Шаг второй: решение задачки с использованием МНК

    Пошаговое руководство выглядит следующим образом:

    1. Столбику, который располагается левее показателя Х, даем название N и прописываем единицу рядом с 1-м показателем колонки Х. Единица – это примерное значение 1-го коэффициента N.

    metod-naimenshih-kvadratov-v-excel6

    1. Столбику, который располагается правее показателя Y, даем наименование NX.
    2. В ячейку D1, находящуюся около первых показателей X и Y, прописываем специальную формулу произведения коэффициента N на показатель из столбика Х. Сама формула выглядит следующим образом: =$А$2*В2. Стоит заметить, что адрес ячейки с коэффициентом необходимо привести к абсолютному типу. Абсолютный тип в табличном процессоре позволяет зафиксировать строчку или столбик (или все вместе одновременно). Иными словами, при копировании значений в другие ячейки абсолютные ссылки не будут меняться. После проведения всех манипуляций жмем клавишу «Enter».

    metod-naimenshih-kvadratov-v-excel7

    1. Перемещаем курсор мышки на сектор с выведенным результатом. Наведя указатель в правый верхний уголок, он превратится в маленький плюсик темного цвета, который называется маркером заполнения. Зажимаем ЛКМ и перетягиваем маркер в самый низ до крайней строчки табличных данных.

    metod-naimenshih-kvadratov-v-excel8

    1. После проведения этих манипуляций мы получили результаты вычислений во всех секторах колонки NX.

    metod-naimenshih-kvadratov-v-excel9

    1. Далее переходим к подсчету суммы разностей квадратов показателей Y и NX. Перемещаемся в ячейку E1, располагающуюся правее от показателя NX, нажимаем на элемент «Вставить функцию», который находится рядом со строкой для ввода формул, и имеет внешний вид «fx».

    metod-naimenshih-kvadratov-v-excel10

    1. Первым делом, находим надпись «Категории:» и раскрываем список, находящийся рядом. В обширном списке выбираем элемент «Математические». В блоке «Выберите функцию:» отыскиваем функцию «СУММКВРАЗН» и выбираем ее. После проведения всех манипуляций жмем на кнопку «ОК».

    metod-naimenshih-kvadratov-v-excel11

    1. Открылось небольшое окошко «Аргументы функции». Для дальнейшей работы необходимо заполнить все строки формы. В строчку «Массив_х» вводим адрес диапазона ячеек столбика Y. Координаты можно вписать самостоятельно ручным вводом, используя клавиатуру, или же путем их выбора в самих табличных данных.
    2. В строчку «Массив_у» вводим адрес диапазона ячеек столбика NX. После проведения всех манипуляций щёлкаем клавишу «Enter».

    metod-naimenshih-kvadratov-v-excel12

    1. Перемещаемся в раздел «Данные», который находится в верхней части интерфейса табличного процессора. Находим блок команд под названием «Анализ» и выбираем элемент «Поиск решения».

    metod-naimenshih-kvadratov-v-excel13

    1. На экране отобразилось окошко с огромным количеством настроек, которые необходимо заполнить. В строчку «Оптимизировать целевую функцию» вводим ссылку на ячейку с оператором «СУММКВРАЗН». Реализовать это действие можно самостоятельно ручным вводом, используя клавиатуру, или же выбрав сектор в самой табличке. Ставим отметку около надписи «Минимум», которая располагается в блоке «До:». В строчку «Изменяя ячейки переменных» вбиваем адрес сектора, в котором располагается показатель коэффициента N – $A$2. После проведения всех манипуляций щелкаем на «Найти решение».

    metod-naimenshih-kvadratov-v-excel14

    1. После того, как «Поиск решения» будет выполнен, на экране компьютера отобразится окошко с выведенными результатами поиска решения, а затем реализуется замена числовых значений в столбике N. Отображенный результат – это наименьший квадрат функции. Если выведенный результат удовлетворяет тому, что нужно было найти, то нажимаем «ОК».

    metod-naimenshih-kvadratov-v-excel15

    Заключение

    Таким образом, мы на конкретном примере рассмотрели способ использования метода наименьших квадратов в табличном процессоре Microsoft Excel и ознакомились со стандартным алгоритмом действий при решении похожих задач.

    Метод наименьших квадратов в Excel

    Программа Excel – мощный табличный редактор, позволяющий выполнять огромное количество различных операций и задач. В данной статье мы разберем, как можно применить метод наименьших квадратов (МНК), который используется для решения различных задач с минимизацией суммы квадратов отклонений некоторых функций от искомых переменных.

    Подготовительный этап: активируем надстройку “Поиск Решения”

    Прежде, чем приступить к решению основной задачи, потребуется активировать надстройку “Поиск решения” в программе.

    1. Идем в меню “Файл”.Переход в меню Файл в Эксель
    2. В перечне слева выбираем пункт “Параметры”.Переход к параметрам Excel
    3. В правой части подраздела “Надстройки” выбираем для параметра “Управление” вариант “Надстройки Excel” и жмем “Перейти”.Переход к управлению надстройками в Эксель

    Включение надстройки Поиск решения в Excel

    Появится окно для выбора нужных надстроек. Устанавливаем галочку напротив пункта “Поиск решения” и щелкаем OK.

    Этап 1: исходные данные

    Давайте разберем применение метода наименьших квадратов, решив конкретный пример. Допустим, у нас есть два ряда числовых значений – X и Y.

    Исходная таблица с рядами X и Y в Эксель

    Данная зависимость может быть описана уравнением ниже:

    Также, мы знаем, что если X=0, то и Y=0. А значит, данное уравнение можно записать так:

    Приступим к выполнению нашей задачи, которая заключается в нахождении суммы квадратов разности.

    Этап 2: решаем задачу с применением МНК

    Заполнение столбца в Эксель

    1. Столбцу, находящемся слева от X, задаем имя N пишем число “1” (примерное значение первого коэф. N) напротив первого значения ряда X.
  • Столбцу с правой стороны от Y задаем название NX. Затем в самой верхней ячейке (напротив первых значений рядов X и Y) пишем формулу произведения коэф. N на соответствующее ему значение из столбца X. При этом адрес ячейки с коэффициентом нужно сделать абсолютным, чтобы он не менялся при копировании формулы. По готовности жмем Enter.Заполнение столбца в Excel
  • Наводим указатель мыши на ячейку с полученным результатом. Как только появится черный плюсик (маркер заполнения), зажав левую кнопку мыши тянем его вниз до последней строки таблицы.Копирование формулы с помощью маркера заполнения в Эксель
  • Получаем результаты расчетов в каждой ячейке столбца NX.Результат копирования формулы с помощью маркера заполнения в Excel
  • Теперь нужно посчитать сумму разностей квадратов значений Y и NX. Встаем в самую верхнюю ячейку столбца справа от NX (не считая шапки таблицы) и щелкаем по значку “Вставить функцию” (fx).Вставка функции в ячейку таблицы Эксель
  • В окне вставки функции выбираем категорию “Математические”, находим оператор “СУММКВРАЗН” и щелкаем OK.Выбор оператора СУММКВРАЗН для вставки в ячейку таблицы Excel
  • Теперь нужно заполнить аргументы функции:
    • в поле “Массив_x” указываем координаты диапазона ячеек столбца Y (без шапки). Адреса ячеек можно указать как вручную, напечатав их с клавиатуры, так и путем выделения с помощью зажатой левой кнопки мыши в самой таблице.
    • в поле “Массив_y” указываем диапазон ячеек столбца NX.
    • жмем Enter, когда все готово.Заполнение аргументов функции СУММКВРАЗН в Эксель
  • Переключаемся во вкладку “Данные”. В группе “Анализ” щелкаем по функции “Поиск решения”.Активация функции Поиск решения в Эксель
  • Нам предстоит заполнить параметры поиска решения:
    • в поле “Оптимизировать целевую функцию” следует указать ссылку на ячейку с функцией “СУММКВРАЗН”. Сделать это можно вручную или выбрав элемент в таблице.
    • для опции “До” выбираем вариант – “Минимум”.
    • в поле “Изменяя ячейки переменных” нужно указать координаты ячейки, в которой находится соответствующее значение коэф. N.
    • по готовности нажимаем “Найти решение”.Заполнение параметров Поиска решения в Excel
  • После выполнения функции появится окно с результатами поиска решения и произойдет замена значения в столбце N. Найденная величина является наименьшим квадратом функции. Нажимаем OK, если полученный результат удовлетворителен.Результаты поиска решения в Эксель
  • Заключение

    Итак, мы только что разобрали на практическом примере, каким образом можно применить метод наименьших квадратов в Эксель. На практике могут встречаться более сложные задачи, однако, в целом логика действий схожа с той, что мы описали.

    Метод наименьших квадратов в Excel. Регрессионный анализ

    Метод наименьших квадратов (МНК) относится к сфере регрессионного анализа. Он имеет множество применений, так как позволяет осуществлять приближенное представление заданной функции другими более простыми. МНК может оказаться чрезвычайно полезным при обработке наблюдений, и его активно используют для оценки одних величин по результатам измерений других, содержащих случайные ошибки. Из этой статьи вы узнаете, как реализовать вычисления по методу наименьших квадратов в Excel.

    Постановка задачи на конкретном примере

    Предположим, имеются два показателя X и Y. Причем Y зависит от X. Так как МНК интересует нас с точки зрения регрессионного анализа (в Excel его методы реализуются с помощью встроенных функций), то стоит сразу же перейти к рассмотрению конкретной задачи.

    Итак, пусть X — торговая площадь продовольственного магазина, измеряемая в квадратных метрах, а Y — годовой товарооборот, определяемый в миллионах рублей.

    Требуется сделать прогноз, какой товарооборот (Y) будет у магазина, если у него та или иная торговая площадь. Очевидно, что функция Y = f (X) возрастающая, так как гипермаркет продает больше товаров, чем ларек.

    Несколько слов о корректности исходных данных, используемых для предсказания

    Допустим, у нас есть таблица, построенная по данным для n магазинов.

    Согласно математической статистике, результаты будут более-менее корректными, если исследуются данные по хотя бы 5-6 объектам. Кроме того, нельзя использовать «аномальные» результаты. В частности, элитный небольшой бутик может иметь товарооборот в разы больший, чем товарооборот больших торговых точек класса «масмаркет».

    Суть метода

    Данные таблицы можно изобразить на декартовой плоскости в виде точек M1 (x1, y1), … Mn (xn, yn). Теперь решение задачи сведется к подбору аппроксимирующей функции y = f (x), имеющей график, проходящий как можно ближе к точкам M1, M2, ..Mn.

    Конечно, можно использовать многочлен высокой степени, но такой вариант не только труднореализуем, но и просто некорректен, так как не будет отражать основную тенденцию, которую и нужно обнаружить. Самым разумным решением является поиск прямой у = ax + b, которая лучше всего приближает экспериментальные данные, a точнее, коэффициентов — a и b.

    регрессионная модель пример

    Оценка точности

    При любой аппроксимации особую важность приобретает оценка ее точности. Обозначим через ei разность (отклонение) между функциональными и экспериментальными значениями для точки xi, т. е. ei = yi — f (xi).

    Очевидно, что для оценки точности аппроксимации можно использовать сумму отклонений, т. е. при выборе прямой для приближенного представления зависимости X от Y нужно отдавать предпочтение той, у которой наименьшее значение суммы ei во всех рассматриваемых точках. Однако, не все так просто, так как наряду с положительными отклонениями практически будут присутствовать и отрицательные.

    Решить вопрос можно, используя модули отклонений или их квадраты. Последний метод получил наиболее широкое распространение. Он используется во многих областях, включая регрессионный анализ (в Excel его реализация осуществляется с помощью двух встроенных функций), и давно доказал свою эффективность.

    Метод наименьших квадратов

    В Excel, как известно, существует встроенная функция автосуммы, позволяющая вычислить значения всех значений, расположенных в выделенном диапазоне. Таким образом, ничто не помешает нам рассчитать значение выражения (e1 2 + e2 2 + e3 2 + . en 2 ).

    В математической записи это имеет вид:

    регрессионная модель пример

    Так как изначально было принято решение об аппроксимировании с помощью прямой, то имеем:

    формулы в Excel для чайников

    Таким образом, задача нахождения прямой, которая лучше всего описывает конкретную зависимость величин X и Y, сводится к вычислению минимума функции двух переменных:

    использование функций в Excel

    Для этого требуется приравнять к нулю частные производные по новым переменным a и b, и решить примитивную систему, состоящую из двух уравнений с 2-мя неизвестными вида:

    регрессионный анализ в Excel

    После нехитрых преобразований, включая деление на 2 и манипуляции с суммами, получим:

    МНК в Excel

    Решая ее, например, методом Крамера, получаем стационарную точку с некими коэффициентами a * и b * . Это и есть минимум, т. е. для предсказания, какой товарооборот будет у магазина при определенной площади, подойдет прямая y = a * x + b * , представляющая собой регрессионную модель для примера, о котором идет речь. Конечно, она не позволит найти точный результат, но поможет получить представление о том, окупится ли покупка в кредит магазина конкретной площади.

    Как реализоавать метод наименьших квадратов в Excel

    В «Эксель» имеется функция для расчета значения по МНК. Она имеет следующий вид: «ТЕНДЕНЦИЯ» (известн. значения Y; известн. значения X; новые значения X; конст.). Применим формулу расчета МНК в Excel к нашей таблице.

    Для этого в ячейку, в которой должен быть отображен результат расчета по методу наименьших квадратов в Excel, введем знак «=» и выберем функцию «ТЕНДЕНЦИЯ». В раскрывшемся окне заполним соответствующие поля, выделяя:

    • диапазон известных значений для Y (в данном случае данные для товарооборота);
    • диапазон x1, …xn, т. е. величины торговых площадей;
    • и известные, и неизвестные значения x, для которого нужно выяснить размер товарооборота (информацию об их расположении на рабочем листе см. далее).

    Кроме того, в формуле присутствует логическая переменная «Конст». Если ввести в соответствующее ей поле 1, то это будет означать, что следует осуществить вычисления, считая, что b = 0.

    Если нужно узнать прогноз для более чем одного значения x, то после ввода формулы следует нажать не на «Ввод», а нужно набрать на клавиатуре комбинацию «Shift» + «Control»+ «Enter» («Ввод»).

    Некоторые особенности

    Регрессионный анализ может быть доступен даже чайникам. Формула Excel для предсказания значения массива неизвестных переменных — «ТЕНДЕНЦИЯ» — может использоваться даже теми, кто никогда не слышал о методе наименьших квадратов. Достаточно просто знать некоторые особенности ее работы. В частности:

    • Если расположить диапазон известных значений переменной y в одной строке или столбце, то каждая строка (столбец) с известными значениями x будет восприниматься программой в качестве отдельной переменной.
    • Если в окне «ТЕНДЕНЦИЯ» не указан диапазон с известными x, то в случае использования функции в Excel программа будет рассматривать его как массив, состоящий из целых чисел, количество которых соответствует диапазону с заданными значениями переменной y.
    • Чтобы получить на выходе массив «предсказанных» значений, выражение для вычисления тенденции нужно вводить как формулу массива.
    • Если не указаны новые значения x, то функция «ТЕНДЕНЦИЯ» считает их равным известным. Если и они не заданы, то в качестве аргумента берется массив 1; 2; 3; 4;…, который соразмерен диапазону с уже заданными параметрами y.
    • Диапазон, содержащий новые значения x должен состоять из такого же или большего количества строк или столбцов, как диапазон с заданными значениями y. Иными словами он должен быть соразмерным независимым переменным.
    • В массиве с известными значениями x может содержаться несколько переменных. Однако если речь идет лишь об одной, то требуется, чтобы диапазоны с заданными значениями x и y были соразмерны. В случае нескольких переменных нужно, чтобы диапазон с заданными значениями y вмещался в одном столбце или в одной строке.

    фид окна функции

    Функция «ПРЕДСКАЗ»

    Регрессионный анализ в Excel реализуется с помощью нескольких функций. Одна из них называется «ПРЕДСКАЗ». Она аналогична «ТЕНДЕНЦИИ», т. е. выдает результат вычислений по методу наименьших квадратов. Однако только для одного X, для которого неизвестно значение Y.

    Теперь вы знаете формулы в Excel для чайников, позволяющие спрогнозировать величину будущего значения того или иного показателя согласно линейному тренду.

    4.1.
    Использование встроенных функций

    Вычисление
    коэффициентов
    регрессии

    осуществляется с помощью функции

    ЛИНЕЙН(Значения_y;
    Значения_x;
    Конст;
    статистика),

    где

    Значения_y
    — массив значений y,

    Значения_x
    необязательный массив значений x,
    если массив х
    опущен, то предполагается, что это массив
    {1;2;3;…} такого же размера, как и Значения_y,

    Конст
    логическое значение, которое указывает,
    требуется ли, чтобы константа b
    была равна 0. Если Конст
    имеет значение ИСТИНА
    или опущено, то b
    вычисляется обычным образом. Если
    аргумент Конст
    имеет значение ЛОЖЬ, то b
    полагается равным 0 и значения a
    подбираются так, чтобы выполнялось
    соотношение y=ax.

    Статистика
    логическое значение, которое указывает,
    требуется ли вернуть дополнительную
    статистику по регрессии. Если аргумент
    Статистика
    имеет значение ИСТИНА,
    то функция ЛИНЕЙН
    возвращает дополнительную регрессионную
    статистику. Если аргумент Статистика
    имеет значение ЛОЖЬ
    или опущен, то функция ЛИНЕЙН
    возвращает только коэффициент a
    и постоянную b.

    Необходимо
    помнить, что результатом функций ЛИНЕЙН()
    является
    множество значений – массив.

    Для
    расчета коэффициента
    корреляции

    используется функция

    КОРРЕЛ(Массив1;Массив2),

    возвращающая
    значения коэффициента корреляции, где
    Массив1
    — массив значений y,
    Массив2
    — массив значений x.
    Массив1
    и Массив2
    должны быть одной размерности.

    ПРИМЕР
    1
    . Зависимость
    y(x)
    представлена в таблице. Построить линию
    регрессии

    и вычислить коэффициент
    корреляции
    .

    y

    0

    0.5

    1

    1.5

    2

    2.5

    3

    3.5

    4

    x

    1

    2.39

    2.81

    3.25

    3.75

    4.11

    4.45

    4.85

    5.25

    Введем
    таблицу значений в лист MS
    Excel
    и построим точечный график. Рабочий
    лист примет вид изображенный на рис. 2.

    Рис. 2

    Для
    того чтобы рассчитать значения
    коэффициентов регрессии а
    и b
    выделим
    ячейки A7:B7,
    обратимся к мастеру функций и в категории
    Статистические
    выберем функцию ЛИНЕЙН.
    Заполним появившееся диалоговое окно
    так, как показано на рис. 3 и нажмем ОK.

    Рис. 3

    В
    результате вычисленное значение появится
    только в ячейке A6
    (рис.4). Для того чтобы значение появилось
    и в ячейке B6
    необходимо войти в режим редактирования
    (клавиша F2),
    а затем нажать комбинацию клавиш
    CTRL+SHIFT+ENTER.

    Для
    расчета значения коэффициента корреляции
    в ячейку С6
    была введена следующая формула:

    С7=КОРРЕЛ(B3:J3;B2:J2).

    Рис. 4

    Зная
    коэффициенты
    регрессии а
    и b
    вычислим значения функции y=ax+b
    для заданных x.
    Для этого
    введем формулу

    B5=$A$7*B2+$B$7

    и
    скопируем ее в диапазон С5:J5
    (рис. 5).

    Рис. 5

    Изобразим
    линию регрессии на диаграмме. Выделим
    экспериментальные точки на графике,
    щелкнем правой кнопкой мыши и выберем
    команду Исходные
    данные
    . В
    появившемся диалоговом окне (рис. 5)
    выберем вкладку Ряд
    и щелкнем по кнопке Добавить.
    Заполним поля ввода, так как показано
    на рис. 6 и нажмем кнопку ОК.
    К графику экспериментальных данных
    будет добавлена линия регрессии. По
    умолчанию ее график будет изображен в
    виде точек, не соединенных сглаживающими
    линиями.

    Рис.
    6

    Чтобы
    изменить вид линии регрессии, выполним
    следующие действия. Щелкнем правой
    кнопкой мыши по точкам, изображающим
    график линии, выберем команду Тип
    диаграммы
    и
    установим вид точечной диаграммы, так
    как показано на рис. 7.

    Рис.
    7

    Тип
    линии, ее цвет и толщину можно изменить
    следующим образом. Выделить линию на
    диаграмме, нажать правую кнопку мыши и
    в контекстном меню выбрать команду
    Формат рядов
    данных…

    Далее сделать установки, например, так
    как показано на рис. 8.

    Рис. 8

    В
    результате всех преобразований получим
    график экспериментальных данных и линию
    регрессии в одной графической области
    (рис. 9).

    Рис. 9

    4.2.
    Использование линии тренда.

    Построение
    различных аппроксимирующих зависимостей
    в MS
    Excel
    реализовано в виде свойства диаграммы
    линия
    тренда
    .

    ПРИМЕР
    2
    . В результате
    эксперимента была определена некоторая
    табличная зависимость.

    0.15

    0.16

    0.17

    0.18

    0.19

    0.20

    4.4817

    4.4930

    5.4739

    6.0496

    6.6859

    7.3891

    Выбрать
    и построить аппроксимирующую зависимость.
    Построить графики табличной и подобранной
    аналитической зависимости.

    Решение
    задачи можно разбить на следующие этапы:
    ввод исходных данных, построение
    точечного графика и добавление к этому
    графику линии тренда.

    Рассмотрим
    этот процесс подробно. Введем исходные
    данные в рабочий лист и построим график
    экспериментальных данных. Далее выделим
    экспериментальные точки на графике,
    щелкнем правой кнопкой мыши и воспользуемся
    командой Добавить
    линию
    тренда
    (рис.
    10).

    Рис. 10

    Появившееся
    диалоговое окно позволяет построить
    аппроксимирующую зависимость.

    На
    первой вкладке (рис. 11) этого окна
    указывается вид аппроксимирующей
    зависимости.

    На
    второй (рис. 12) определяются параметры
    построения:

    • название
      аппроксимирующей зависимости;

    • прогноз
      вперед (назад) на n
      единиц (этот параметр определяет, на
      какое количество единиц вперед (назад)
      необходимо продлить линию тренда);

    • показывать
      ли точку пересечения кривой с прямой
      y=const;

    • показывать
      аппроксимирующую функцию на диаграмме
      или нет (параметр показывать уравнение
      на диаграмме);

    • помещать
      ли на диаграмму величину среднеквадратичного
      отклонения или нет (параметр поместить
      на диаграмму величину достоверности
      аппроксимации).

    Рис. 11

    Рис. 12

    Выберем
    в качестве аппроксимирующей зависимости
    полином второй степени (рис. 11) и выведем
    уравнение, описывающее этот полином на
    график (рис. 12). Полученная диаграмма
    представлена на рис. 13.

    Рис.
    13

    Аналогично
    с помощью линии
    тренда
    можно
    подобрать параметры таких зависимостей
    как

    • линейная
      y=ax+b,

    • логарифмическая
      y=aln(x)+b,

    • экспоненциальная
      y=aeb,

    • степенная
      y=axb,

    • полиномиальная
      y=ax2+bx+c,
      y=ax3+bx2+cx+d
      и так далее, до полинома 6-й степени
      включительно,

    • линейная
      фильтрация.

    4.3.
    Использование решающего блока

    Значительный
    интерес представляет реализация в MS
    Excel
    подбора параметров методом наименьших
    квадратов с использованием решающего
    блока. Эта методика позволяет подобрать
    параметры функции любого вида. Рассмотрим
    эту возможность на примере следующей
    задачи.

    ПРИМЕР
    3
    . В результате
    эксперимента получена зависимость z(t)
    представленная в таблице

    0,66

    0,9

    1,17

    1,47

    1,7

    1,74

    2,08

    2,63

    3,12

    38,9

    68,8

    64,4

    66,5

    64,95

    59,36

    82,6

    90,63

    113,5

    Подобрать
    коэффициенты зависимости Z(t)=At4+Bt3+Ct2+Dt+K
    методом наименьших квадратов.

    Эта
    задача эквивалентна задаче нахождения
    минимума функции пяти переменных

    (10).

    Рассмотрим
    процесс решения задачи оптимизации
    (рис. 14).

    Рис. 14

    Пусть
    значения А,
    В,
    С,
    D
    и К
    хранятся в ячейках A7:E7.
    Рассчитаем теоретические значения
    функции Z(t)=At4+Bt3+Ct2+Dt+K
    для заданных t
    (B2:J2).
    Для этого в ячейку B4
    введем значение функции в первой точке
    (ячейка B2):

    B4=$A$7*B2^4+$B$7*B2^3+$C$7*B2^2+$D$7*B2+$E$7.

    Скопируем
    эту формулу в диапазон С4:J4
    и получим ожидаемое значение функции
    в точках, абсциссы которых хранится в
    ячейках B2:J2.

    В
    ячейку B5
    введем формулу, вычисляющую квадрат
    разности между экспериментальными и
    расчетными точками:

    B5=(B4-B3)^2,

    и
    скопируем ее в диапазон С5:J5.
    В ячейке F7
    будем хранить суммарную квадратичную
    ошибку (10). Для этого введем формулу:

    F7
    =
    СУММ(B5:J5).

    Воспользуемся
    командой СервисПоиск
    решения

    и решим задачу оптимизации без ограничений.
    Заполним соответствующим образом поля
    ввода в диалоговом окне, показанном на
    рис. 14 и нажмем кнопку Выполнить.
    Если решение будет найдено, то появится
    окно, изображенное на рис. 15.

    Результатом
    работы решающего блока будет вывод в
    ячейки A7:E7
    значений
    параметров

    функции Z(t)=At4+Bt3+Ct2+Dt+K.
    В ячейках B4:J4
    получим ожидаемые
    значение функции

    в исходных точках. В ячейке F7
    будет храниться суммарная
    квадратичная ошибка
    .

    Изобразить
    экспериментальные точки и подобранную
    линию в одной графической области можно,
    если выделить диапазон B2:J4,
    вызвать
    Мастер
    диаграмм
    ,
    а затем отформатировать внешний вид
    полученных графиков.

    Рис.
    17 отображает рабочий лист MS
    Excel
    после проведенных вычислений.

    Рис.
    15

    Рис. 16

    Рис. 17

    5.
    СПИСОК ЛИТЕРАТУРЫ

    1.
    Алексеев Е.Р., Чеснокова О.В., Решение
    задач вычислительной математики в
    пакетах Mathcad12,
    MATLAB7,
    Maple9.
    – НТ Пресс, 2006.–596с. :ил. –(Самоучитель)

    2.
    Алексеев Е.Р., Чеснокова О.В., Е.А. Рудченко,

    Scilab,
    решение инженерных и математических
    задач. –М., БИНОМ, 2008.–260с.

    3.
    Березин И.С., Жидков Н.П., Методы
    вычислений.–М.:Наука, 1966.–632с.

    4.
    Гарнаев А.Ю., Использование MS
    EXCEL
    и VBA
    в экономике и финансах. – СПб.: БХВ —
    Петербург, 1999.–332с.

    5.
    Демидович Б.П., Марон И А., Шувалова В.З.,
    Численные методы анализа.–М.:Наука,
    1967.–368с.

    6.
    Корн Г., Корн Т., Справочник по математике
    для научных работников и инженеров.–М.,
    1970, 720с.

    7.
    Алексеев
    Е.Р., Чеснокова О.В. Методические указания
    к выполнению лабораторных работ в MS
    EXCEL.
    Для студентов всех специальностей.
    Донецк,
    ДонНТУ, 2004. 112 с.

    25

    Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

    • #
    • #
    • #
    • #
    • #
    • #
    • #
    • #
    • #
    • #
    • #

    Метод наименьших квадратов

    Метод наименьших квадратов — это математическая процедура составления линейного уравнения, максимально соответствующего набору упорядоченных пар, путем нахождения значений для a и b, коэффициентов в уравнении прямой. Цель метода наименьших квадратов состоит в минимизации общей квадратичной ошибки между значениями y и ŷ. Если для каждой точки мы определяем ошибку ŷ, метод наименьших квадратов минимизирует:

    метод наименьших квадратов excel

    где n = число упорядоченных пар вокруг линии. максимально соответствующей данным.

    Это понятие проиллюстрировано на рисунке

    метод наименьших квадратов excel

    Судя по рисунку, линия, максимально соответствующая данным, линия регрессии, минимизирует общую квадратичную ошибку четырех точек на графике. Я покажу вам, как определять это уравнение регрессии с помощью метода наименьших квадратов на следующем примере.

    Представьте себе молодую пару, которые, с недавних пор, живут вместе и совместно делят столик для косметических принадлежностей в ванной. Молодой человек начал замечать, что половина его столика неумолимо сокращается, сдавая свои позиции муссам для волос и соевым комплексам. За последние несколько месяцев парень внимательно следил за тем, с какой скоростью увеличивается число предметов на ее части стола. В таблице ниже представлено число предметов девушки на столике в ванной, накопившихся за последние несколько месяцев.

    метод наименьших квадратов excel

    Поскольку своей целью мы определили задачу узнать, увеличивается ли со временем число предметов, «Месяц» будет независимой переменной, а «Число предметов» — зависимой.

    С помощью метода наименьших квадратов определяем уравнение, максимально соответствующее данным, путем вычисления значений a, отрезка на оси y, и b, наклона линии:

    метод наименьших квадратов excel

    a = yср — bxср

    где xср — среднее значение x, независимой переменной, yср — среднее значение y, независимой переменной.

    В таблице ниже суммированы необходимые для этих уравнений вычисления.

    метод наименьших квадратов excel

    метод наименьших квадратов excel

    Кривая эффекта для нашего примера с ванной будет определяться следующим уравнением:

    ŷ=5.13+0.976x

    Поскольку наше уравнение имеет положительный наклон — 0.976, парень имеет доказательство того, что число предметов на столике со временем увеличивается со средней скоростью 1 предмет в месяц. На графике представлена кривая эффекта с упорядоченными парами.

    метод наименьших квадратов excel

    Ожидание в отношении числа предметов в течение следующего полугода (месяца 16) будет вычисляться так:

    ŷ = 5.13 + 0.976x = 5.13 + 0.976(16) ~ 20.7 = 21 предмет

    Так что, пора нашему герою предпринимать какие-нибудь действия.

    Как вы уже, наверное, догадались в Excel имеется функция для расчета значения по методу наименьших квадратов. Это функция называется ТЕНДЕНЦИЯ. Синтаксис у нее следующий:

    ТЕНДЕНЦИЯ (известные значения Y; известные значения X; новые значения X; конст)

    где:

    известные значения Y – массив зависимых переменных, в нашем случае, количество предметов на столике

    известные значения X – массив независимых переменных, в нашем случае это месяц

    новые значения X – новые значения X (месяца) для которого функция ТЕНДЕНЦИЯ возвращает ожидаемое значение зависимых переменных (количество предметов)

    конст — необязательный. Логическое значение, которое указывает, требуется ли, чтобы константа b была равна 0.

    Например, на рисунке показана функция ТЕНДЕНЦИЯ, используемая для определения ожидаемого количества предметов на столике в ванной для 16-го месяца.

    метод наименьших квадратов excel тенденция

    Скачать файл с примером расчета значений по методу наименьших квадратов

    Содержание

    1. Постановка задачи на конкретном примере
    2. Наборы данных
    3. Графическая иллюстрация метода наименьших квадратов (мнк).
    4. Сглаживание ряда методом наименьших квадратов
    5. Суть метода
    6. Применение надстройки поиск решения
    7. Аппроксимация функции одной переменной методом наименьших квадратов с дополнительными условиями
    8. Оценка точности
    9. Вывод формул для нахождения коэффициентов.
    10. Как реализоавать метод наименьших квадратов в Excel
    11. Заключение

    Постановка задачи на конкретном примере

    Предположим, имеются два показателя X и Y. Причем Y зависит от X. Так как МНК интересует нас с точки зрения регрессионного анализа (в Excel его методы реализуются с помощью встроенных функций), то стоит сразу же перейти к рассмотрению конкретной задачи.

    Итак, пусть X — торговая площадь продовольственного магазина, измеряемая в квадратных метрах, а Y — годовой товарооборот, определяемый в миллионах рублей.

    Требуется сделать прогноз, какой товарооборот (Y) будет у магазина, если у него та или иная торговая площадь. Очевидно, что функция Y = f (X) возрастающая, так как гипермаркет продает больше товаров, чем ларек.

    Наборы данных

    Метод наименьших квадратов используется для обработки набора данных и прогнозирования будущих значений. Пусть у нас есть массивы данных X = {10, 12, 14, 16, 18, 20} и Y = {18, 22, 24, 26, 27, 28}, при этом значение Y зависит от X. Придадим этим массивам смысл. К примеру, массив X ​– это мощность паровой машины парохода, а Y — его ходовая скорость в узлах. Это означает, что при мощности энергетической установки в 10 тысяч лошадиных сил, пароход развивает скорость на уровне 18 морских миль в час, и так далее, так как каждое значение игрека соответствует своему иксу.

    Эти данные можно представить в виде точек на декартовой плоскости, например как V1(X1, Y1), V2(X2, Y2) и так далее. Если соединить эти точки, то мы получим некую кривую, которую можем описать соответствующим уравнением y = f(x). Данное уравнение должно быть достаточно простым, но при этом максимально близко описывать полученную зависимость.

    Получив кривую, мы можем продлить ее в любую сторону и узнать приблизительное значение игреков для любых иксов или наоборот. Например, аппроксимировав данные нашего примера, мы сможем узнать, какая мощность установки требуется для достижения скорости в 15 узлов. Или какую мы получим скорость, установив на борт установку мощностью в 22 тысячи лошадиных сил. Для того чтобы определить эту волшебную y = f(x), нам и необходим метод наименьших квадратов.

    Графическая иллюстрация метода наименьших квадратов (мнк).

    На графиках все прекрасно видно. Красная линия – это найденная прямая y = 0.165x+2.184, синяя линия – это , розовые точки – это исходные данные.

    Для чего это нужно, к чему все эти аппроксимации?

    Я лично использую для решения задач сглаживания данных, задач интерполяции и экстраполяции (в исходном примере могли бы попросить найти занчение наблюдаемой величины y при x=3 или при x=6 по методу МНК). Но подробнее поговорим об этом позже в другом разделе сайта.

    К началу страницы

    Доказательство.

    Чтобы при найденных а и b функция принимала наименьшее значение, необходимо чтобы в этой точке матрица квадратичной формы дифференциала второго порядка для функции была положительно определенной. Покажем это.

    Дифференциал второго порядка имеет вид:

    То есть

    Следовательно, матрица квадратичной формы имеет вид

    причем значения элементов не зависят от а и b .

    Покажем, что матрица положительно определенная. Для этого нужно, чтобы угловые миноры были положительными.

    Угловой минор первого порядка . Неравенство строгое, так как точки несовпадающие. В дальнейшем это будем подразумевать.

    Угловой минор второго порядка

    Докажем, что методом математической индукции.

    1. Проверим справедливость неравенства для любого значения n, например для n=2.

      Получили верное неравенство для любых несовпадающих значений и .

    2. Предполагаем, что неравенство верное для n.

      – верное.

    3. Докажем, что неравенство верное для n+1.

      То есть, нужно доказать, что исходя из предположения что – верное.

      Поехали.

      Выражение в фигурных скобках положительно по предположению пункта 2), а остальные слагаемые положительны, так как представляют собой квадраты чисел. Этим доказательство завершено.

    Вывод : найденные значения а и b соответствуют наименьшему значению функции , следовательно, являются искомыми параметрами для метода наименьших квадратов.

    Сглаживание ряда методом наименьших квадратов

    Задание.
    1. Постройте прогноз численности наличного населения города Б на 2010-2011 гг., используя методы: скользящей средней, экспоненциального сглаживания, наименьших квадратов.
    2. Постройте график фактического и расчетных показателей.
    3. Рассчитайте ошибки полученных прогнозов при использовании каждого метода.
    4. Сравните полученные результаты, сделайте вывод.

    Решение.
    1. Находим параметры уравнения методом наименьших квадратов. Линейное уравнение тренда имеет вид y = bt + a
    Система уравнений МНК:
    a0n + a1∑t = ∑y
    a0∑t + a1∑t2 = ∑y•t

    t y t2 y2 t•y
    1 58.8 1 3457.44 58.8
    2 58.7 4 3445.69 117.4
    3 59 9 3481 177
    4 59 16 3481 236
    5 58.8 25 3457.44 294
    6 58.3 36 3398.89 349.8
    7 57.9 49 3352.41 405.3
    8 57.5 64 3306.25 460
    9 56.9 81 3237.61 512.1
    45 524.9 285 30617.73 2610.4

    Для наших данных система уравнений имеет вид:
    9a0 + 45a1 = 524.9
    45a0 + 285a1 = 2610.4
    Из первого уравнения выражаем а0 и подставим во второе уравнение
    Получаем a0 = -0.24, a1 = 59.5
    Уравнение тренда:
    y = -0.24 t + 59.5
    Эмпирические коэффициенты тренда a и b являются лишь оценками теоретических коэффициентов βi, а само уравнение отражает лишь общую тенденцию в поведении рассматриваемых переменных.
    Коэффициент тренда b = -0.24 показывает среднее изменение результативного показателя (в единицах измерения у) с изменением периода времени t на единицу его измерения. В данном примере с увеличением t на 1 единицу, y изменится в среднем на -0.24.
    Ошибка аппроксимации.
    Оценим качество уравнения тренда с помощью ошибки абсолютной аппроксимации.

    Ошибка аппроксимации в пределах 5%-7% свидетельствует о хорошем подборе уравнения тренда к исходным данным.

    Поскольку ошибка меньше 7%, то данное уравнение можно использовать в качестве тренда.
    Однофакторный дисперсионный анализ.
    Средние значения



    Дисперсия


    Среднеквадратическое отклонение


    Коэффициент эластичности.
    Коэффициент эластичности представляет собой показатель силы связи фактора t с результатом у, показывающий, на сколько процентов изменится значение у при изменении значения фактора на 1%.


    Коэффициент эластичности меньше 1. Следовательно, при изменении t на 1%, Y изменится менее чем на 1%. Другими словами – влияние t на Y не существенно.
    Эмпирическое корреляционное отношение.
    Эмпирическое корреляционное отношение вычисляется для всех форм связи и служит для измерение тесноты зависимости. Изменяется в пределах [0;1].

    где (y-yt)² = 4.4-1.08 = 3.31
    В отличие от линейного коэффициента корреляции он характеризует тесноту нелинейной связи и не характеризует ее направление. Изменяется в пределах [0;1].
    Связи между признаками могут быть слабыми и сильными (тесными). Их критерии оцениваются по шкале Чеддока:
    0.1 0.3 0.5 0.7 0.9 Полученная величина свидетельствует о том, что изменение временного периода t существенно влияет на y.
    Коэффициент детерминации.


    т.е. в 75.39% случаев влияет на изменение данных. Другими словами – точность подбора уравнения тренда – высокая.

    t y y(t) (y-ycp)2 (y-y(t))2 (t-tp)2 (y-y(t)) : y
    1 58.8 59.26 0.23 0.21 16 0.00786
    2 58.7 59.03 0.14 0.11 9 0.00557
    3 59 58.79 0.46 0.0431 4 0.00352
    4 59 58.56 0.46 0.2 1 0.0075
    5 58.8 58.32 0.23 0.23 0 0.00813
    6 58.3 58.09 0.0004 0.0452 1 0.00365
    7 57.9 57.85 0.18 0.0022 4 0.000825
    8 57.5 57.62 0.68 0.0137 9 0.00204
    9 56.9 57.38 2.02 0.23 16 0.00847
    45 524.9 524.9 4.4 1.08 60 0.0476

    Интервальный прогноз.
    Определим среднеквадратическую ошибку прогнозируемого показателя.

    m = 1 – количество влияющих факторов в уравнении тренда.
    Uy=yn+L±K
    где
    L – период упреждения; уn+L – точечный прогноз по модели на (n + L)-й момент времени; n – количество наблюдений во временном ряду; Sy – стандартная ошибка прогнозируемого показателя; Tтабл – табличное значение критерия Стьюдента для уровня значимости α и для числа степеней свободы, равного n-2.
    По таблице Стьюдента находим Tтабл
    Tтабл (n-m-1;α/2) = (7;0.025) = 2.365
    Точечный прогноз, t = 10: y(10) = -0.24*10 + 59.5 = 57.15

    57.15 – 1.08 = 56.07 ; 57.15 + 1.08 = 58.23
    Интервальный прогноз:
    t = 10: (56.07;58.23)
    Точечный прогноз, t = 11: y(11) = -0.24*11 + 59.5 = 56.91

    56.91 – 1.14 = 55.77 ; 56.91 + 1.14 = 58.05
    Интервальный прогноз:
    t = 11: (55.77;58.05)

    2. Сглаживаем ряд методом скользящей средней. Одним из эмпирических методов является метод скользящей средней. Этот метод состоит в замене абсолютных уровней ряда динамики их средними арифметическими значениями за определенные интервалы. Выбираются эти интервалы способом скольжения: постепенно исключаются из интервала первые уровни и включаются последующие.

    t y ys Формула
    1 58.8 58.75 (58.8 + 58.7)/2
    2 58.7 58.85 (58.7 + 59)/2
    3 59 59 (59 + 59)/2
    4 59 58.9 (59 + 58.8)/2
    5 58.8 58.55 (58.8 + 58.3)/2
    6 58.3 58.1 (58.3 + 57.9)/2
    7 57.9 57.7 (57.9 + 57.5)/2
    8 57.5 57.2 (57.5 + 56.9)/2
    9 56.9

    Стандартная ошибка (погрешность) рассчитывается по формуле:

    где i = (t-m-1, t)

    3. Построим прогноз численности с использованием экспоненциального сглаживания. Важным методом стохастических прогнозов является метод экспоненциального сглаживания. Этот метод заключается в том, что ряд динамики сглаживается с помощью скользящей средней, в которой веса подчиняются экспоненциальному закону.
    Эту среднюю называют экспоненциальной средней и обозначают St.
    Она является характеристикой последних значений ряда динамики, которым присваивается наибольший вес.
    Экспоненциальная средняя вычисляется по рекуррентной формуле:
    St = α*Yt + (1- α)St-1
    где St – значение экспоненциальной средней в момент t;
    St-1 – значение экспоненциальной средней в момент (t = 1);
    Что касается начального параметра S0, то в задачах его берут или равным значению первого уровня ряда у1, или равным средней арифметической нескольких первых членов ряда.
    Yt – значение экспоненциального процесса в момент t;
    α – вес t-ого значения ряда динамики (или параметр сглаживания).
    Последовательное применение формулы дает возможность вычислить экспоненциальную среднюю через значения всех уровней данного ряда динамики.
    Наиболее важной характеристикой в этой модели является α, по величине которой практически и осуществляется прогноз. Чем значение этого параметра ближе к 1, тем больше при прогнозе учитывается влияние последних уровней ряда динамики.
    Если α близко к 0, то веса, по которым взвешиваются уровни ряда динамики убывают медленно, т.е. при прогнозе учитываются все прошлые уровни ряда.
    В специальной литературе отмечается, что обычно на практике значение α находится в пределах от 0,1 до 0,3. Значение 0,5 почти никогда не превышается.
    Экспоненциальное сглаживание применимо, прежде всего, при постоянном объеме потребления (α = 0,1 – 0,3). При более высоких значениях (0,3 – 0,5) метод подходит при изменении структуры потребления, например, с учетом сезонных колебаний.
    В качестве S0 берем первое значение ряда, S0 = y1 = 58.8

    t y St Формула
    1 58.8 58.8 (1 – 0.1)*58.8 + 0.1*58.8
    2 58.7 58.71 (1 – 0.1)*58.7 + 0.1*58.8
    3 59 58.97 (1 – 0.1)*59 + 0.1*58.71
    4 59 59 (1 – 0.1)*59 + 0.1*58.97
    5 58.8 58.82 (1 – 0.1)*58.8 + 0.1*59
    6 58.3 58.35 (1 – 0.1)*58.3 + 0.1*58.82
    7 57.9 57.95 (1 – 0.1)*57.9 + 0.1*58.35
    8 57.5 57.54 (1 – 0.1)*57.5 + 0.1*57.95
    9 56.9 56.96 (1 – 0.1)*56.9 + 0.1*57.54

    Прогнозирование данных с использованием экспоненциального сглаживания.
    Методы прогнозирования под названием “сглаживание” учитывают эффекты выброса функции намного лучше, чем способы, использующие регрессивный анализ.
    Базовое уравнение имеет следующий вид:
    F(t+1) = F(t)(1 – α) + αY(t)
    F(t) – это прогноз, сделанный в момент времени t; F(t+1) отражает прогноз во временной период, следующий непосредственно за моментом времени t
    Стандартная ошибка (погрешность) рассчитывается по формуле:

    где i = (t – 2, t)

    Пример. Методом наименьших квадратов найти функции вида y=ax+b, y=ax²+bx+c, аппроксимирующие экспериментальную функцию y=f(x). В обоих случаях найти суммы квадратов невязок ∑bi². В декартовой системе координат построить экспериментальные точки и графики найденных функций y=ax+b,y=ax^2+bx+c.
    Пример №5

    Пример №6

    Пример №3. Функция y=y(x) задана таблицей своих значений:
    x: -2 -1 0 1 2
    y: -0,8 -1,6 -1,3 0,4 3,2
    Применяя метод наименьших квадратов, приблизить функцию многочленами 1-ой и 2-ой степеней. Для каждого приближения определить величину среднеквадратичной погрешности. Построить точечный график функции и графики многочленов.

    Решение. Функция многочлена 2-ой степени имеет вид y = ax2+ bx + c.
    1. Находим параметры уравнения методом наименьших квадратов. Система уравнений МНК:
    a0n + a1∑x + a2∑x2= ∑y
    a0∑x + a1∑x2+ a2∑x3= ∑yx
    a0∑x2+ a1∑x3+ a2∑x4= ∑yx2

    x y x2 y2 x y x3 x4 x2y
    0 0 0 0 0 0 0 0
    -2 -0.8 4 0.64 1.6 -8 16 -3.2
    -1 -1.6 1 2.56 1.6 -1 1 -1.6
    0 -1.3 0 1.69 0 0 0 0
    1 0.4 1 0.16 0.4 1 1 0.4
    2 3.2 4 10.24 6.4 8 16 12.8
    0 -0.1 10 15.29 10 0 34 8.4

    Для наших данных система уравнений имеет вид
    6a0+ 0a1+ 10a2= -0.1
    0a0+ 10a1+ 0a2= 10
    10a0+ 0a1+ 34a2= 8.4
    Получаем a0= 0.494, a1= 1, a2= -0.84
    Уравнение: y = 0.494x2+x-0.84

    Суть метода

    Данные таблицы можно изобразить на декартовой плоскости в виде точек M1 (x1, y1), … Mn (xn, yn). Теперь решение задачи сведется к подбору аппроксимирующей функции y = f (x), имеющей график, проходящий как можно ближе к точкам M1, M2, ..Mn.

    Конечно, можно использовать многочлен высокой степени, но такой вариант не только труднореализуем, но и просто некорректен, так как не будет отражать основную тенденцию, которую и нужно обнаружить. Самым разумным решением является поиск прямой у = ax + b, которая лучше всего приближает экспериментальные данные, a точнее, коэффициентов – a и b.

    Применение надстройки поиск решения

    1. Если не включили надстройку «поиск решения», то возвращаемся к пункту Как включить надстройку «поискрешения» и включаем

    2. В ячейку А1 введем значение «1». Эта единица будет первым приближением к реальному значению коэффициента (k) нашей функциональной зависимости y=kx.

    3. В столбце B у нас расположились значения параметра X, в столбце C — значения параметра Y. В ячейках столбца D вводим формулу: «коэффициент k умножить на значение Х». Например, в ячейке D1 вводим «=A1*B1», в ячейке D2 вводим “=A1*B2” и т.д.

    4. Мы считаем, что коэффициент к равен единице и функция f (x)=у=1*х – это первое приближение к нашему решению. Можем рассчитать сумму квадратов разностей между измеренными значениями величины Y и рассчитанными по формуле y=1*х . Можем все это сделать вручную, вбивая в формулу соответствующие ссылки на ячейки: “=(D2-C2)^2+(D3-C3)^2+(D4-C4)^2… и т.д. В конце концов ошибаемся и понимаем, что потеряли кучу времени. В Excel для расчета суммы квадратов разностей есть специальная формула, «СУММКВРАЗН», которая все за нас и сделает. Введем ее в ячейку А2 и зададим исходные данные: диапазон измеренных значений Y (столбец C) и диапазон рассчитанных значений Y (столбец D).

    4. Сумму разностей квадратов рассчитали – теперь идем во вкладку «Данные» и выбираем «Поиск решения».

    5. В появившемся меню в качестве изменяемой ячейки выбираем ячейку A1 (та, что с коэффициентом k).

    6. В качестве целевой выбираем ячейку A2 и задаем условие «установить равной минимальному значению». Помним, что это ячейка, где у нас производится расчёт суммы квадратов разностей расчетного и измеренного значений, и сумма эта должна быть минимальной. Нажимаем «выполнить».

    7. Коэффициент k подобран. Теперь можно убедиться, что рассчитанные значения теперь очень близки к измеренным.

    Аппроксимация функции одной переменной методом наименьших квадратов с дополнительными условиями

    Данный калькулятор использует метод наименьших квадратов (МНК) для аппроксимации функции одной переменной, аналогично калькулятору Аппроксимация функции одной переменной. Но, в отличии от указанного калькулятора, данный калькулятор поддерживает аппроксимацию функции с использованием ограничений на ее значения. То есть, можно задать условия равенства аппроксимирующей функции определенным значениям в определенных точках. Формулы аппроксимации будут выведены с учетом этих условий.

    Используемый метод (метод множителей Лагранжа) накладывает ограничения на набор аппроксимирующих функций, так что этот калькулятор не поддерживает экспоненциальную аппроксимацию, аппроксимацию степенной функцией и показательную аппроксимацию. Одним словом поддерживается только линейная регрессия. Зато в него были добавлены аппроксимация полиномами 4-ой и 5-ой степени. Формулы и немного теории можно найти под калькулятором.

    Если не ввести значения x, калькулятор будет считать, что значение x меняется начиная с 0 с шагом 1.

    Оценка точности

    При любой аппроксимации особую важность приобретает оценка ее точности. Обозначим через ei разность (отклонение) между функциональными и экспериментальными значениями для точки xi, т. е. ei = yi – f (xi).

    Очевидно, что для оценки точности аппроксимации можно использовать сумму отклонений, т. е. при выборе прямой для приближенного представления зависимости X от Y нужно отдавать предпочтение той, у которой наименьшее значение суммы ei во всех рассматриваемых точках. Однако, не все так просто, так как наряду с положительными отклонениями практически будут присутствовать и отрицательные.

    Решить вопрос можно, используя модули отклонений или их квадраты. Последний метод получил наиболее широкое распространение. Он используется во многих областях, включая регрессионный анализ (в Excel его реализация осуществляется с помощью двух встроенных функций), и давно доказал свою эффективность.

    Вывод формул для нахождения коэффициентов.

    Составляется и решается система из двух уравнений с двумя неизвестными. Находим частные производные функции по переменным а и b, приравниваем эти производные к нулю.

    Решаем полученную систему уравнений любым методом (например методом подстановки или методом Крамера) и получаем формулы для нахождения коэффициентов по методу наименьших квадратов (МНК).

    При данных а и b функция принимает наименьшее значение. Доказательство этого факта приведено ниже по тексту в конце страницы .

    Вот и весь метод наименьших квадратов. Формула для нахождения параметра a содержит суммы , , , и параметр n – количество экспериментальных данных. Значения этих сумм рекомендуем вычислять отдельно. Коэффициент b находится после вычисления a.

    Пришло время вспомнить про исходый пример.

    Решение.

    В нашем примере n=5 . Заполняем таблицу для удобства вычисления сумм, которые входят в формулы искомых коэффициентов.

    Значения в четвертой строке таблицы получены умножением значений 2-ой строки на значения 3-ей строки для каждого номера i .

    Значения в пятой строке таблицы получены возведением в квадрат значений 2-ой строки для каждого номера i .

    Значения последнего столбца таблицы – это суммы значений по строкам.

    Используем формулы метода наименьших квадратов для нахождения коэффициентов а и b. Подставляем в них соответствующие значения из последнего столбца таблицы:

    Следовательно, y = 0.165x+2.184 – искомая аппроксимирующая прямая.

    Осталось выяснить какая из линий y = 0.165x+2.184 или лучше аппроксимирует исходные данные, то есть произвести оценку методом наименьших квадратов.

    Как реализоавать метод наименьших квадратов в Excel

    В “Эксель” имеется функция для расчета значения по МНК. Она имеет следующий вид: «ТЕНДЕНЦИЯ» (известн. значения Y; известн. значения X; новые значения X; конст.). Применим формулу расчета МНК в Excel к нашей таблице.

    Для этого в ячейку, в которой должен быть отображен результат расчета по методу наименьших квадратов в Excel, введем знак «=» и выберем функцию «ТЕНДЕНЦИЯ». В раскрывшемся окне заполним соответствующие поля, выделяя:

    • диапазон известных значений для Y (в данном случае данные для товарооборота);
    • диапазон x1, …xn, т. е. величины торговых площадей;
    • и известные, и неизвестные значения x, для которого нужно выяснить размер товарооборота (информацию об их расположении на рабочем листе см. далее).

    Кроме того, в формуле присутствует логическая переменная «Конст». Если ввести в соответствующее ей поле 1, то это будет означать, что следует осуществить вычисления, считая, что b = 0.

    Если нужно узнать прогноз для более чем одного значения x, то после ввода формулы следует нажать не на «Ввод», а нужно набрать на клавиатуре комбинацию «Shift» + «Control»+ «Enter» («Ввод»).

    Заключение

    Метод наименьших квадратов — удобный метод для представления данных в виде функции. Благодаря такому представлению вы можете определить любое значение функции, оперируя небольшим набором данных или измерений.

    Источники

    • https://FB.ru/article/342215/metod-naimenshih-kvadratov-v-excel-regressionnyiy-analiz
    • https://BBF.ru/calculators/69/
    • http://www.cleverstudents.ru/articles/mnk.html
    • https://math.semestr.ru/trend/least-square-method.php
    • http://metallovedeniye.ru/analiz-dannyx-v-excel/metod-naimenshix-kvadratov-i-poisk-resheniya-v-excel.html
    • https://planetcalc.ru/8735/?thanks=1

    Понравилась статья? Поделить с друзьями:
  • Аппаратное ускорение word 2016
  • Аппаратное ускорение excel что это
  • Аппаратное ускорение excel как выключить
  • Аппаратное ускорение excel 2019
  • Апостроф начале строки excel