Простое определение (в двух словах)

Линейная регрессия — это статистический метод, который позволяет смоделировать взаимосвязь между одной или несколькими независимыми переменными (признаками) и одной зависимой переменной (целевым значением), предполагая, что эта связь линейна.

Проще говоря, мы находим прямую линию (или плоскость в многомерном пространстве), которая лучше всего описывает или “предсказывает” целевую переменную на основе входных данных.


Ключевая идея и пример “из жизни”

Представьте себе, что вы хотите предсказать цену квартиры (зависимая переменная ) на основе её площади (независимая переменная ).

  • У вас есть данные по многим проданным квартирам: площадь и их цена.
  • Вы наносите эти точки на график (площадь по оси X, цена по оси Y).
  • Линейная регрессия находит такую прямую линию, которая проходит через это “облако” точек наилучшим образом.

Эта прямая линия будет иметь уравнение: , где:

  • — предсказанная цена (то, что мы хотим узнать).
  • — площадь (то, что мы знаем).
  • (коэффициент) — показывает, насколько сильно влияет площадь на цену. Например, если , то при увеличении площади на 1 м² цена в среднем растет на 1000 долларов.
  • (intercept, свободный член) — это “базовая цена”, которая не зависит от площади (например, стоимость участка или минимальная цена за квартиру в этом районе).

Как находится “наилучшая” прямая? (Метод наименьших квадратов - МНК)

Как понять, что прямая “лучшая”? Мы хотим, чтобы она была как можно ближе ко всем точкам данных.

Алгоритм выглядит так:

  1. Проводим какую-либо прямую.
  2. Для каждой известной нам квартиры вычисляем разницу (ошибку) между реальной ценой и ценой, которую предсказала наша прямая. Эта разница называется остатком.
  3. Возводим каждую такую ошибку в квадрат (чтобы избавиться от отрицательных значений и усилить влияние больших ошибок).
  4. Складываем все квадраты ошибок.

Прямая считается “наилучшей”, когда сумма квадратов этих ошибок — минимальна. Отсюда и название метода — Метод наименьших квадратов (МНК).


Общая математическая модель

В общем виде модель линейной регрессии записывается так:

Где:

  • — целевая (зависимая) переменная, которую мы предсказываем.
  • — признаки (независимые переменные), которые влияют на .
  • — свободный член (intercept). Это значение , когда все признаки равны нулю.
  • веса (коэффициенты) модели. Они показывают, насколько сильно каждый признак влияет на прогноз. Знак коэффициента показывает направление влияния (положительное или отрицательное).
  • — случайная ошибка (шум). Это часть зависимости, которую модель не смогла уловить.

Для чего она используется?

  1. Прогнозирование: Предсказание значений. Например, прогноз продаж, стоимости акций, спроса на товар.
  2. Установление взаимосвязей: Понимание того, как именно и насколько сильно различные факторы влияют на результат. Например, “насколько увеличение бюджета на рекламу повлияет на рост продаж?“.
  3. Выявление ключевых факторов: Анализируя величину коэффициентов (после стандартизации данных), можно определить, какие факторы наиболее важны для прогноза.

Оценка качества модели

Чтобы понять, насколько хороша наша модель, мы используем метрики. Основные из них:

  • R² (Коэффициент детерминации): Показывает, какая доля дисперсии целевой переменной объясняется нашими признаками. Значение от 0 до 1 (чем ближе к 1, тем лучше).
  • Среднеквадратичная ошибка (MSE): Среднее значение квадратов ошибок. Чем она меньше, тем точнее модель.
  • Средняя абсолютная ошибка (MAE): Среднее значение абсолютных величин ошибок. Более устойчива к выбросам, чем MSE.

Плюсы и минусы

Плюсы:

  • Простота и интерпретируемость: Легко понять и объяснить бизнесу.
  • Высокая скорость: Обучение и предсказание происходят очень быстро.
  • Надежность: Хорошо изученный и проверенный временем метод.

Минусы:

  • Чувствительность к выбросам: Несколько аномальных точек могут сильно исказить линию регрессии.
  • Предположение о линейности: Модель плохо работает, если реальная зависимость между переменными сложная и нелинейная.
  • Предположение о независимости признаков: Проблема мультиколлинеарности (когда признаки сильно коррелируют друг с другом) ухудшает устойчивость модели.

Резюме

Линейная регрессия — это фундаментальный и мощный инструмент для прогнозирования и анализа данных, когда есть основания полагать, что связь между переменными линейна. Это отличная отправная точка для любого проекта в области Data Science.