- Угловой коэффициент: {$ result.m|number $}
- Пересечение с осью Y: {$ result.y|number $}
- Уравнение: {$ result.func $}
Метод наименьших квадратов — инструмент регрессионного анализа, позволяющий представить практически любую функциональную зависимость в виде уравнения. Благодаря аппроксимации прошлых данных при помощи метода наименьших квадратов мы можем предсказывать приблизительные будущие значения.
Наборы данных
Метод наименьших квадратов используется для обработки набора данных и прогнозирования будущих значений. Пусть у нас есть массивы данных X = {10, 12, 14, 16, 18, 20} и Y = {18, 22, 24, 26, 27, 28}, при этом значение Y зависит от X. Придадим этим массивам смысл. К примеру, массив X – это мощность паровой машины парохода, а Y — его ходовая скорость в узлах. Это означает, что при мощности энергетической установки в 10 тысяч лошадиных сил, пароход развивает скорость на уровне 18 морских миль в час, и так далее, так как каждое значение игрека соответствует своему иксу.
Эти данные можно представить в виде точек на декартовой плоскости, например как V1(X1, Y1), V2(X2, Y2) и так далее. Если соединить эти точки, то мы получим некую кривую, которую можем описать соответствующим уравнением y = f(x). Данное уравнение должно быть достаточно простым, но при этом максимально близко описывать полученную зависимость.
Получив кривую, мы можем продлить ее в любую сторону и узнать приблизительное значение игреков для любых иксов или наоборот. Например, аппроксимировав данные нашего примера, мы сможем узнать, какая мощность установки требуется для достижения скорости в 15 узлов. Или какую мы получим скорость, установив на борт установку мощностью в 22 тысячи лошадиных сил. Для того чтобы определить эту волшебную y = f(x), нам и необходим метод наименьших квадратов.
Суть метода
Итак, у нас есть X = {10, 12, 14, 16, 18, 20} и Y = {18, 22, 24, 26, 27, 28}. Очевидно, что данная кривая лучше всего аппроксимируется прямой, которая имеет вид:
y = ax + b.
Очевидно и то, что прямая будет лишь приблизительно проходить через данные точки, и во многих случаях между реальными значениями и аппроксимирующей прямой будут расхождения или ошибки вида:
e = y − Vi.
Для оценки общей погрешности аппроксимации мы можем сложить все значения ошибок e для каждой точки и получить число, характеризующее точность приближения. Однако разность y − Vi может быть и отрицательной, поэтому в некоторых случаях возможно «самоуничтожение» ошибок с противоположными знаками.
Во избежание этого математики решили использовать модули e и суммировать положительные значения ошибок в виде:
e = |y − Vi|.
Задача же аппроксимации сводится к поиску таких коэффициентов a и b прямой y = ax + b, при которых сумма всех ошибок e будет минимальной. Данный способ приближения получил название метода наименьших модулей, однако на практике наиболее удобно оперировать не модулями значений, а их квадратами.
Метод наименьших квадратов
Суть данного метода состоит в том, чтобы найти кривую с такими коэффициентами, чтобы сумма квадратов ошибок была минимальной. В нашем примере это прямая, однако, разные зависимости могут быть аппроксимированы параболической, гиперболической, показательной, тригонометрической или логарифмической функциями. На практике чаще всего используются полиноминальные функции, дающие наилучшее приближение.
Давайте найдем аппроксмирующую прямую для наших данных. Важно учесть, что для построения прямой требуется минимум 5-6 значений, исключая аномальные результаты. Итак, у нас есть точки, ошибки и квадраты ошибок. Выглядит это следующим образом.
Точки:
- (10; 18)
- (12; 22)
- (14; 24)
- (16; 26)
- (18; 27)
- (20; 28)
Ошибки:
- a × 10 + b — 18
- a × 12 + b — 22
- a × 14 + b — 24
- a × 16 + b — 26
- a × 18 + b — 27
- a × 20 + b — 28
Квадраты ошибок:
- (a × 10 + b — 18)2
- (a × 12 + b — 22)2
- (a × 14 + b — 24)2
- (a × 16 + b — 26)2
- (a × 18 + b — 27)2
- (a × 20 + b — 28)2
Итак, у нас есть набор квадратов ошибок. Теперь нам нужно раскрыть скобки и представить сумму этих квадратов в виде масштабного полинома, после чего отыскать такие значения a и b, при которых эта сумма будет минимальна. Теория математического анализа гласит, что функция достигает экстремума в случае, когда ее частные производные равные нулю. Это означает, что нам потребуется взять производную по a и приравнять ее к нулю, а также производную по b и также приравнять ее к нулю. После чего составить систему уравнений и отыскать удовлетворяющие условию корни.
Мы опустим промежуточные выкладки и сразу выложим результат решения полученной системы уравнений: a = 0,95, b = 9,8. Таким образом, уравнение прямой линии регрессии выглядит как:
y = 0,95x + 9,8
Теперь мы можем определить промежуточные значения или продленные в обе стороны. Например, если мы хотим узнать, какую скорость имеет пароход с мощностью силовой установки в 15 тысяч лошадиных сил, мы просто подставим это значение вместо икса и вычислим игрек:
y = 0,95 × 17 + 9,8 ≈ 26
Стоит помнить, что аппроксимирующие графики дают нам только приблизительные значения переменных.
Наша программа представляет собой калькулятор, в котором вы можете выбрать произвольное количество точек и построить линию регрессии. Для этого вам понадобится только указать координаты и сделать один клик мышкой, после чего программа построит и точки, и аппроксимирующую прямую.
Заключение
Метод наименьших квадратов — удобный метод для представления данных в виде функции. Благодаря такому представлению вы можете определить любое значение функции, оперируя небольшим набором данных или измерений.