Простое объяснение (на примере)

Представьте, что вы риэлтор и хотите предсказать цену квартиры. Вы знаете, что цена зависит от многих факторов: площади, числа комнат, этажа, удаленности от метро и т.д.

Регрессия — это математическая модель, которая на основе уже известных данных (истории продаж) находит зависимость между этими факторами и ценой.

  • Входные данные (Признаки): Площадь, число комнат, этаж…
  • Выходные данные (Целевая переменная): Цена квартиры.

Модель регрессии “учится” на исторических данных и находит формулу. Например, она может вывести, что: Цена = 50 000 * (Площадь) + 1 000 000 * (Число комнат) - 50 000 * (Этаж) + ...

Теперь, когда вы вводите параметры новой квартиры, модель по этой формуле предсказывает ее стоимость.

Ключевая идея: Регрессия предсказывает численное значение (например, цену, температуру, спрос, вероятность).


Более формальное определение

Регрессия — это набор статистических методов и алгоритмов машинного обучения для:

прогнозирования непрерывной количественной переменной (зависимой переменной) на основе одной или нескольких других переменных (независимых переменных или признаков).


Основные задачи регрессии

  1. Прогнозирование: Предсказать будущие значения (курс акций, продажи, погоду).
  2. Установление взаимосвязей: Понять, как изменение одного фактора влияет на результат. Например, “Насколько увеличится цена при увеличении площади на 1 кв.м.?“.

Типы регрессионных моделей (с примерами)

Существует множество видов регрессии, вот самые популярные:

1. Линейная регрессия

  • Что это? Предполагает, что зависимость между признаками и целевой переменной — линейная (можно представить в виде прямой линии или гиперплоскости).
  • Формула (простая): y = k*x + b
  • Пример: Предсказание стоимости доставки на основе расстояния.

2. Полиномиальная регрессия

  • Что это? Использует не прямую линию, а кривую (полиномиальную функцию). Подходит для более сложных, нелинейных зависимостей.
  • Пример: Зависимость уровня счастья от уровня дохода (сначала растет быстро, потом замедляется).

3. Логистическая регрессия

  • Что это? Несмотря на название, это алгоритм для классификации, а не для регрессии! Он предсказывает вероятность принадлежности объекта к определенному классу (например, “спам” или “не спам”).
  • Пример: Оценка вероятности того, что клиент уйдет к конкуренту (отток).

4. Ридж, Лассо и ElasticNet регрессия

  • Что это? Усовершенствованные версии линейной регрессии, которые помогают бороться с переобучением и отбирать самые важные признаки, особенно когда их очень много.

Как работает процесс построения регрессии? (Общая схема)

  1. Сбор данных: Нужна таблица с примерами, где известны и признаки, и правильный ответ.
  2. Выбор модели: Решаем, какую регрессию использовать (линейную, полиномиальную и т.д.).
  3. Обучение модели: Алгоритм находит такие параметры модели (коэффициенты k, b в линейной регрессии), чтобы ошибка предсказания была минимальной. Чаще всего минимизируют сумму квадратов разниц между предсказанным и реальным значением.
  4. Оценка модели: Проверяем качество модели на новых данных, которые она не видела при обучении. Используются метрики типа Среднеквадратичной ошибки (MSE) или Коэффициента детерминации (R²).
  5. Прогнозирование: Применяем обученную модель для предсказания на совершенно новых данных.

Регрессия vs Классификация

Это два основных типа задач в машинном обучении. Важно их не путать:

ХарактеристикаРегрессияКлассификация
Что предсказываем?Число (количество, цена, время)Категорию/Класс (спам/не спам, кошка/собака, да/нет)
Выход моделиНепрерывное значениеДискретная метка (или вероятность)
ПримерыПредсказание цены акций, температуры, возраста человекаРаспознавание emails, диагноз болезни, определение объекта на фото