Простое объяснение (Суть метода)

Представьте, что у вас есть набор точек на графике, разбросанных как попало. Вы хотите провести через них одну прямую линию, которая будет наилучшим образом описывать общую тенденцию.

Метод наименьших квадратов — это математический способ найти именно ту прямую (или кривую), которая минимизирует сумму квадратов расстояний от всех этих точек до проводимой линии.

Эти “расстояния” называются ошибками или невязками.


Более формальное определение

Метод наименьших квадратов — это стандартный метод регрессионного анализа для приближения (аппроксимации) экспериментальных данных. Он используется для оценки параметров модели (например, параметров прямой ) таким образом, чтобы сумма квадратов отклонений (ошибок) между предсказанными моделью значениями и реальными наблюдаемыми значениями была минимальной.


Как это работает? (На примере прямой линии)

Допустим, у нас есть набор точек: . Мы хотим провести линию , которая наилучшим образом им соответствует.

  1. Определяем ошибку (невязку): Для каждой точки мы можем вычислить разницу между реальным значением и тем значением, которое предсказывает наша линия .

  2. Возводим ошибки в квадрат: Мы делаем это по двум причинам:

    • Чтобы избавиться от отрицательных знаков (иначе положительные и отрицательные ошибки могли бы компенсировать друг друга).
    • Чтобы большие ошибки “штрафовались” сильнее.

  3. Суммируем все квадраты ошибок: Мы получаем функцию, которую нужно минимизировать — сумму квадратов ошибок (SSE).

    (сумма по всем точкам i от 1 до n)

  4. Находим минимум: Нам нужно найти такие значения параметров (угловой коэффициент) и (сдвиг по вертикали), при которых эта сумма будет минимальной.

    С помощью математического аппарата (частных производных) находятся формулы для этих оптимальных и .


Зачем нужны именно квадраты?

  • Математическая удобство: Производная от квадратичной функции берется легко, что позволяет найти аналитическое решение.
  • “Штраф” за большие выбросы: Квадрат сильно увеличивает вес больших ошибок. Это значит, что метод будет стараться провести линию так, чтобы избежать очень больших отклонений, даже если придется немного “пожертвовать” малыми.
  • Устойчивость: Метод дает единственное и наилучшее в статистическом смысле решение для линейных моделей.

Области применения

МНК невероятно широко используется в науке и бизнесе:

  1. Экономика и финансы: Прогнозирование продаж, анализ трендов на бирже, оценка зависимости спроса от цены.
  2. Техника: Калибровка измерительных приборов, обработка результатов экспериментов.
  3. Машинное обучение: Линейная регрессия — это один из базовых алгоритмов, в основе которого лежит МНК.
  4. Статистика и Data Science: Построение регрессионных моделей для выявления взаимосвязей между переменными.
  5. Астрономия: Расчет орбит небесных тел по неточным наблюдениям (исторически первый пример использования МНК Гауссом).

Пример (Прямая линия)

Допустим, у нас есть три точки: (1, 1), (2, 2), (3, 2). Мы хотим найти линию .

xyЛиния: y = ax + bОшибка (e)
11a*1 + b1 - (a + b)(1 - a - b)²
22a*2 + b2 - (2a + b)(2 - 2a - b)²
32a*3 + b2 - (3a + b)(2 - 3a - b)²

SSE = (1 - a - b)² + (2 - 2a - b)² + (2 - 3a - b)²

Решив систему уравнений (приравняв частные производные к нулю), мы найдем оптимальные и . В данном случае они будут равны и .

Таким образом, наилучшая прямая — это .

Важные нюансы

  • Не только для прямой: МНК можно использовать для подбора не только прямой, но и параболы (), экспоненты, полинома любой степени и других функций.
  • Не “идеальное” совпадение: Линия МНК не обязательно должна проходить через все точки. Её цель — показать общий тренд.
  • Чувствительность к выбросам: Поскольку большие ошибки сильно штрафуются, один сильный выброс может значительно повлиять на положение линии.

Краткий итог

Метод наименьших квадратов — это математический алгоритм для нахождения линии (или кривой) наилучшего соответствия для набора данных путем минимизации суммы квадратов вертикальных расстояний от точек до этой линии. Это краеугольный камень регрессионного анализа и прогнозного моделирования.