17 авг. 2022 г.
читать 2 мин
Метод наименьших квадратов — это метод, который мы можем использовать для поиска линии регрессии, которая лучше всего соответствует заданному набору данных.
В следующем видео представлено краткое объяснение этого метода:
Чтобы использовать метод наименьших квадратов для подбора линии регрессии в Excel, мы можем использовать функцию =ЛИНЕЙН() .
В следующем пошаговом примере показано, как использовать эту функцию на практике.
Шаг 1: Создайте набор данных
Во-первых, давайте создадим следующий набор данных в Excel:
Шаг 2: Используйте метод наименьших квадратов для подбора линии регрессии
Мы можем использовать функцию =LINEST(known_ys, known_xs) , чтобы использовать метод наименьших квадратов, чтобы подобрать линию регрессии к этому набору данных:
Как только мы нажмем ENTER , появятся коэффициенты регрессионной модели:
Шаг 3: интерпретируйте результаты
Используя коэффициенты из функции =LINEST() , мы можем написать следующую подобранную линию регрессии:
у = 11,55211 + 1,07949(х)
Мы можем использовать это уравнение для оценки значения y на основе значения x.
Например, если x = 10, то мы оценили бы, что y будет равно 22,347 :
у = 11,55211 + 1,07949(10) = 22,347
Шаг 4: Нанесите результаты на график
Наконец, мы можем использовать следующие шаги для построения набора данных вместе с подобранной линией регрессии:
- Выделите ячейки A2:B16 .
- Щелкните вкладку « Вставка » на верхней ленте. Затем щелкните первый параметр диаграммы под названием « Вставить точечную (X, Y)» или «Пузырьковую диаграмму » в группе «Диаграммы».
- После того, как диаграмма появится, нажмите знак плюс «+» в правом верхнем углу. В раскрывающемся меню установите флажок рядом с линией тренда , чтобы добавить на график подобранную линию регрессии.
Дополнительные ресурсы
Как выполнить множественную линейную регрессию в Excel
Как выполнить квадратичную регрессию в Excel
Как выполнить полиномиальную регрессию в Excel
Подбор кривой в Excel (с примерами)
Содержание
- Использование метода в Экселе
- Включение надстройки «Поиск решения»
- Условия задачи
- Решение
- Вопросы и ответы
Метод наименьших квадратов представляет собой математическую процедуру построения линейного уравнения, которое бы наиболее точно соответствовало набору двух рядов чисел. Целью применения данного способа является минимизация общей квадратичной ошибки. В программе Excel имеются инструменты, с помощью которых можно применять данный метод при вычислениях. Давайте разберемся, как это делается.
Использование метода в Экселе
Метод наименьших квадратов (МНК) является математическим описанием зависимости одной переменной от второй. Его можно использовать при прогнозировании.
Включение надстройки «Поиск решения»
Для того, чтобы использовать МНК в Экселе, нужно включить надстройку «Поиск решения», которая по умолчанию отключена.
- Переходим во вкладку «Файл».
- Кликаем по наименованию раздела «Параметры».
- В открывшемся окне останавливаем выбор на подразделе «Надстройки».
- В блоке «Управление», который расположен в нижней части окна, устанавливаем переключатель в позицию «Надстройки Excel» (если в нём выставлено другое значение) и жмем на кнопку «Перейти…».
- Открывается небольшое окошко. Ставим в нём галочку около параметра «Поиск решения». Жмем на кнопку «OK».
Теперь функция Поиск решения в Excel активирована, а её инструменты появились на ленте.
Урок: Поиск решения в Экселе
Условия задачи
Опишем применение МНК на конкретном примере. Имеем два ряда чисел x и y, последовательность которых представлена на изображении ниже.
Наиболее точно данную зависимость может описать функция:
y=a+nx
При этом, известно что при x=0 y тоже равно 0. Поэтому данное уравнение можно описать зависимостью y=nx.
Нам предстоит найти минимальную сумму квадратов разности.
Решение
Перейдем к описанию непосредственного применения метода.
- Слева от первого значения x ставим цифру 1. Это будет приближенная величина первого значения коэффициента n.
- Справа от столбца y добавляем ещё одну колонку – nx. В первую ячейку данного столбца записываем формулу умножения коэффициента n на ячейку первой переменной x. При этом, ссылку на поле с коэффициентом делаем абсолютной, так как это значение меняться не будет. Кликаем по кнопке Enter.
- Используя маркер заполнения, копируем данную формулу на весь диапазон таблицы в столбце ниже.
- В отдельной ячейке высчитываем сумму разностей квадратов значений y и nx. Для этого кликаем по кнопке «Вставить функцию».
- В открывшемся «Мастере функций» ищем запись «СУММКВРАЗН». Выбираем её и жмем на кнопку «OK».
- Открывается окно аргументов. В поле «Массив_x» вводим диапазон ячеек столбца y. В поле «Массив_y» вводим диапазон ячеек столбца nx. Для того, чтобы ввести значения, просто устанавливаем курсор в поле и выделяем соответствующий диапазон на листе. После ввода жмем на кнопку «OK».
- Переходим во вкладку «Данные». На ленте в блоке инструментов «Анализ» жмем на кнопку «Поиск решения».
- Открывается окно параметров данного инструмента. В поле «Оптимизировать целевую функцию» указываем адрес ячейки с формулой «СУММКВРАЗН». В параметре «До» обязательно выставляем переключатель в позицию «Минимум». В поле «Изменяя ячейки» указываем адрес со значением коэффициента n. Жмем на кнопку «Найти решение».
- Решение будет отображаться в ячейке коэффициента n. Именно это значение будет являться наименьшим квадратом функции. Если результат удовлетворяет пользователя, то следует нажать на кнопку «OK» в дополнительном окне.
Как видим, применение метода наименьших квадратов довольно сложная математическая процедура. Мы показали её в действии на простейшем примере, а существуют гораздо более сложные случаи. Впрочем, инструментарий Microsoft Excel призван максимально упростить производимые вычисления.
Еще статьи по данной теме:
Помогла ли Вам статья?
Метод наименьших квадратов (МНК) основан на минимизации суммы квадратов отклонений выбранной функции от исследуемых данных. В этой статье аппроксимируем имеющиеся данные с помощью линейной функции
y
=
a
x
+
b
.
Метод наименьших квадратов
(англ.
Ordinary
Least
Squares
,
OLS
) является одним из базовых методов регрессионного анализа в части оценки неизвестных параметров
регрессионных моделей
по выборочным данным.
Рассмотрим приближение функциями, зависящими только от одной переменной:
- Линейная: y=ax+b (эта статья)
-
Логарифмическая
: y=a*Ln(x)+b
-
Степенная
: y=a*x
m
-
Экспоненциальная
: y=a*EXP(b*x)+с
-
Квадратичная
: y=ax
2
+bx+c
Примечание
: Случаи приближения полиномом с 3-й до 6-й степени рассмотрены в этой статье. Приближение тригонометрическим полиномом рассмотрено здесь.
Линейная зависимость
Нас интересует связь 2-х переменных
х
и
y
. Имеется предположение, что
y
зависит от
х
по линейному закону
y
=
ax
+
b
. Чтобы определить параметры этой взаимосвязи исследователь провел наблюдения: для каждого значения х
i
произведено измерение y
i
(см.
файл примера
). Соответственно, пусть имеется 20 пар значений (х
i
; y
i
).
Для наглядности рекомендуется построить диаграмму рассеяния.
Примечание:
Если шаг изменения по
х
постоянен, то для построения
диаграммы рассеяния
можно использовать
тип График
, если нет, то необходимо использовать тип диаграммы
Точечная
.
Из диаграммы очевидно, что связь между переменными близка к линейной. Чтобы понять какая из множества прямых линий наиболее «правильно» описывает зависимость между переменными, необходимо определить критерий, по которому будут сравниваться линии.
В качестве такого критерия используем выражение:
где
ŷ
i
=
a
*
x
i
+
b
;
n – число пар значений (в нашем случае n=20)
Вышеуказанное выражение представляет собой сумму квадратов расстояний между наблюденными значениями y
i
и ŷ
i
и часто обозначается как SSE (
Sum
of
Squared
Errors
(
Residuals
), сумма квадратов ошибок (остатков)
)
.
Метод наименьших квадратов
заключается в подборе такой линии
ŷ
=
ax
+
b
, для которой вышеуказанное выражение принимает минимальное значение.
Примечание:
Любая линия в двухмерном пространстве однозначно определяется значениями 2-х параметров:
a
(наклон) и
b
(сдвиг).
Считается, что чем меньше сумма квадратов расстояний, тем соответствующая линия лучше аппроксимирует имеющиеся данные и может быть в дальнейшем использована для прогнозирования значений y от переменной х. Понятно, что даже если в действительности никакой взаимосвязи между переменными нет или связь нелинейная, то МНК все равно подберет «наилучшую» линию. Таким образом, МНК ничего не говорит о наличии реальной взаимосвязи переменных, метод просто позволяет подобрать такие параметры функции
a
и
b
, для которых вышеуказанное выражение минимально.
Проделав не очень сложные математические операции (подробнее см.
статью про квадратичную зависимость
), можно вычислить параметры
a
и
b
:
Как видно из формулы, параметр
a
представляет собой отношение ковариации и
дисперсии
, поэтому в MS EXCEL для вычисления параметра
а
можно использовать следующие формулы (см.
файл примера лист Линейная
):
=
КОВАР(B26:B45;C26:C45)/ ДИСП.Г(B26:B45)
или
=
КОВАРИАЦИЯ.В(B26:B45;C26:C45)/ДИСП.В(B26:B45)
Также для вычисления параметра
а
можно использовать формулу =
НАКЛОН(C26:C45;B26:B45)
. Для параметра
b
используйте формулу =
ОТРЕЗОК(C26:C45;B26:B45)
.
И наконец, функция
ЛИНЕЙН()
позволяет вычислить сразу оба параметра. Для ввода формулы
ЛИНЕЙН(C26:C45;B26:B45)
необходимо выделить в строке 2 ячейки и нажать
CTRL
+
SHIFT
+
ENTER
(см. статью про
формулы массива, возвращающими несколько значений
). В левой ячейке будет возвращено значение
а
, в правой –
b
.
Примечание
: Чтобы не связываться с вводом
формул массива
потребуется дополнительно использовать функцию
ИНДЕКС()
. Формула =
ИНДЕКС(ЛИНЕЙН(C26:C45;B26:B45);1)
или просто =
ЛИНЕЙН(C26:C45;B26:B45)
вернет параметр, отвечающий за наклон линии, т.е.
а
. Формула =
ИНДЕКС(ЛИНЕЙН(C26:C45;B26:B45);2)
вернет параметр, отвечающий за пересечение линии с осью Y, т.е.
b
.
Вычислив параметры, на
диаграмме рассеяния
можно построить соответствующую линию.
Инструмент диаграммы Линия тренда
Еще одним способом построения прямой линии по методу наименьших квадратов является инструмент диаграммы
Линия тренда
. Для этого выделите диаграмму, в меню выберите
вкладку Макет
, в
группе Анализ
нажмите
Линия тренда
, затем
Линейное приближение
.
Поставив в диалоговом окне галочку в поле «показывать уравнение на диаграмме» можно убедиться, что найденные выше параметры совпадают со значениями на диаграмме.
Примечание
: Для того, чтобы параметры совпадали необходимо, чтобы тип у диаграммы был
Точечная, а не График
. Дело в том, что при построении диаграммы
График
значения по оси Х не могут быть заданы пользователем (пользователь может указать только подписи, которые не влияют на расположение точек). Вместо значений Х используется последовательность 1; 2; 3; … (для нумерации категорий). Поэтому, если строить
линию тренда
на диаграмме типа
График
, то вместо фактических значений Х будут использованы значения этой последовательности, что приведет к неверному результату (если, конечно, фактические значения Х не совпадают с последовательностью 1; 2; 3; …).
СОВЕТ
: Подробнее о построении диаграмм см. статьи
Основы построения диаграмм
и
Основные типы диаграмм
.
Программа Excel – мощный табличный редактор, позволяющий выполнять огромное количество различных операций и задач. В данной статье мы разберем, как можно применить метод наименьших квадратов (МНК), который используется для решения различных задач с минимизацией суммы квадратов отклонений некоторых функций от искомых переменных.
Содержание
- Подготовительный этап: активируем надстройку “Поиск Решения”
- Этап 1: исходные данные
- Этап 2: решаем задачу с применением МНК
- Заключение
Подготовительный этап: активируем надстройку “Поиск Решения”
Прежде, чем приступить к решению основной задачи, потребуется активировать надстройку “Поиск решения” в программе.
- Идем в меню “Файл”.
- В перечне слева выбираем пункт “Параметры”.
- В правой части подраздела “Надстройки” выбираем для параметра “Управление” вариант “Надстройки Excel” и жмем “Перейти”.
- Появится окно для выбора нужных надстроек. Устанавливаем галочку напротив пункта “Поиск решения” и щелкаем OK.
Этап 1: исходные данные
Давайте разберем применение метода наименьших квадратов, решив конкретный пример. Допустим, у нас есть два ряда числовых значений – X и Y.
Данная зависимость может быть описана уравнением ниже:
Y=A+NX
Также, мы знаем, что если X=0, то и Y=0. А значит, данное уравнение можно записать так:
Y=NX
Приступим к выполнению нашей задачи, которая заключается в нахождении суммы квадратов разности.
Этап 2: решаем задачу с применением МНК
- Столбцу, находящемся слева от X, задаем имя N пишем число “1” (примерное значение первого коэф. N) напротив первого значения ряда X.
- Столбцу с правой стороны от Y задаем название NX. Затем в самой верхней ячейке (напротив первых значений рядов X и Y) пишем формулу произведения коэф. N на соответствующее ему значение из столбца X. При этом адрес ячейки с коэффициентом нужно сделать абсолютным, чтобы он не менялся при копировании формулы. По готовности жмем Enter.
- Наводим указатель мыши на ячейку с полученным результатом. Как только появится черный плюсик (маркер заполнения), зажав левую кнопку мыши тянем его вниз до последней строки таблицы.
- Получаем результаты расчетов в каждой ячейке столбца NX.
- Теперь нужно посчитать сумму разностей квадратов значений Y и NX. Встаем в самую верхнюю ячейку столбца справа от NX (не считая шапки таблицы) и щелкаем по значку “Вставить функцию” (fx).
- В окне вставки функции выбираем категорию “Математические”, находим оператор “СУММКВРАЗН” и щелкаем OK.
- Теперь нужно заполнить аргументы функции:
- в поле “Массив_x” указываем координаты диапазона ячеек столбца Y (без шапки). Адреса ячеек можно указать как вручную, напечатав их с клавиатуры, так и путем выделения с помощью зажатой левой кнопки мыши в самой таблице.
- в поле “Массив_y” указываем диапазон ячеек столбца NX.
- жмем Enter, когда все готово.
- Переключаемся во вкладку “Данные”. В группе “Анализ” щелкаем по функции “Поиск решения”.
- Нам предстоит заполнить параметры поиска решения:
- в поле “Оптимизировать целевую функцию” следует указать ссылку на ячейку с функцией “СУММКВРАЗН”. Сделать это можно вручную или выбрав элемент в таблице.
- для опции “До” выбираем вариант – “Минимум”.
- в поле “Изменяя ячейки переменных” нужно указать координаты ячейки, в которой находится соответствующее значение коэф. N.
- по готовности нажимаем “Найти решение”.
- После выполнения функции появится окно с результатами поиска решения и произойдет замена значения в столбце N. Найденная величина является наименьшим квадратом функции. Нажимаем OK, если полученный результат удовлетворителен.
Заключение
Итак, мы только что разобрали на практическом примере, каким образом можно применить метод наименьших квадратов в Эксель. На практике могут встречаться более сложные задачи, однако, в целом логика действий схожа с той, что мы описали.
Метод наименьших квадратов — это математическая процедура составления линейного уравнения, максимально соответствующего набору упорядоченных пар, путем нахождения значений для a и b, коэффициентов в уравнении прямой. Цель метода наименьших квадратов состоит в минимизации общей квадратичной ошибки между значениями y и ŷ. Если для каждой точки мы определяем ошибку ŷ, метод наименьших квадратов минимизирует:
где n = число упорядоченных пар вокруг линии. максимально соответствующей данным.
Это понятие проиллюстрировано на рисунке
Судя по рисунку, линия, максимально соответствующая данным, линия регрессии, минимизирует общую квадратичную ошибку четырех точек на графике. Я покажу вам, как определять это уравнение регрессии с помощью метода наименьших квадратов на следующем примере.
Представьте себе молодую пару, которые, с недавних пор, живут вместе и совместно делят столик для косметических принадлежностей в ванной. Молодой человек начал замечать, что половина его столика неумолимо сокращается, сдавая свои позиции муссам для волос и соевым комплексам. За последние несколько месяцев парень внимательно следил за тем, с какой скоростью увеличивается число предметов на ее части стола. В таблице ниже представлено число предметов девушки на столике в ванной, накопившихся за последние несколько месяцев.
Поскольку своей целью мы определили задачу узнать, увеличивается ли со временем число предметов, «Месяц» будет независимой переменной, а «Число предметов» — зависимой.
С помощью метода наименьших квадратов определяем уравнение, максимально соответствующее данным, путем вычисления значений a, отрезка на оси y, и b, наклона линии:
a = yср — bxср
где xср — среднее значение x, независимой переменной, yср — среднее значение y, независимой переменной.
В таблице ниже суммированы необходимые для этих уравнений вычисления.
Кривая эффекта для нашего примера с ванной будет определяться следующим уравнением:
ŷ=5.13+0.976x
Поскольку наше уравнение имеет положительный наклон — 0.976, парень имеет доказательство того, что число предметов на столике со временем увеличивается со средней скоростью 1 предмет в месяц. На графике представлена кривая эффекта с упорядоченными парами.
Ожидание в отношении числа предметов в течение следующего полугода (месяца 16) будет вычисляться так:
ŷ = 5.13 + 0.976x = 5.13 + 0.976(16) ~ 20.7 = 21 предмет
Так что, пора нашему герою предпринимать какие-нибудь действия.
Как вы уже, наверное, догадались в Excel имеется функция для расчета значения по методу наименьших квадратов. Это функция называется ТЕНДЕНЦИЯ. Синтаксис у нее следующий:
ТЕНДЕНЦИЯ (известные значения Y; известные значения X; новые значения X; конст)
где:
известные значения Y – массив зависимых переменных, в нашем случае, количество предметов на столике
известные значения X – массив независимых переменных, в нашем случае это месяц
новые значения X – новые значения X (месяца) для которого функция ТЕНДЕНЦИЯ возвращает ожидаемое значение зависимых переменных (количество предметов)
конст — необязательный. Логическое значение, которое указывает, требуется ли, чтобы константа b была равна 0.
Например, на рисунке показана функция ТЕНДЕНЦИЯ, используемая для определения ожидаемого количества предметов на столике в ванной для 16-го месяца.
Скачать файл с примером расчета значений по методу наименьших квадратов