Регрессия

Простое объяснение (на примере)

Представьте, что вы риэлтор и хотите предсказать цену квартиры. Вы знаете, что цена зависит от многих факторов: площади, числа комнат, этажа, удаленности от метро и т.д.

Регрессия — это математическая модель, которая на основе уже известных данных (истории продаж) находит зависимость между этими факторами и ценой.

Входные данные (Признаки): Площадь, число комнат, этаж…
Выходные данные (Целевая переменная): Цена квартиры.

Модель регрессии “учится” на исторических данных и находит формулу. Например, она может вывести, что: Цена = 50 000 * (Площадь) + 1 000 000 * (Число комнат) - 50 000 * (Этаж) + ...

Теперь, когда вы вводите параметры новой квартиры, модель по этой формуле предсказывает ее стоимость.

Ключевая идея: Регрессия предсказывает численное значение (например, цену, температуру, спрос, вероятность).

Более формальное определение

Регрессия — это набор статистических методов и алгоритмов машинного обучения для:

прогнозирования непрерывной количественной переменной (зависимой переменной) на основе одной или нескольких других переменных (независимых переменных или признаков).

Основные задачи регрессии

Прогнозирование: Предсказать будущие значения (курс акций, продажи, погоду).
Установление взаимосвязей: Понять, как изменение одного фактора влияет на результат. Например, “Насколько увеличится цена при увеличении площади на 1 кв.м.?“.

Типы регрессионных моделей (с примерами)

Существует множество видов регрессии, вот самые популярные:

1. Линейная регрессия

Что это? Предполагает, что зависимость между признаками и целевой переменной — линейная (можно представить в виде прямой линии или гиперплоскости).
Формула (простая): y = k*x + b
Пример: Предсказание стоимости доставки на основе расстояния.

2. Полиномиальная регрессия

Что это? Использует не прямую линию, а кривую (полиномиальную функцию). Подходит для более сложных, нелинейных зависимостей.
Пример: Зависимость уровня счастья от уровня дохода (сначала растет быстро, потом замедляется).

3. Логистическая регрессия

Что это? Несмотря на название, это алгоритм для классификации, а не для регрессии! Он предсказывает вероятность принадлежности объекта к определенному классу (например, “спам” или “не спам”).
Пример: Оценка вероятности того, что клиент уйдет к конкуренту (отток).

4. Ридж, Лассо и ElasticNet регрессия

Что это? Усовершенствованные версии линейной регрессии, которые помогают бороться с переобучением и отбирать самые важные признаки, особенно когда их очень много.

Как работает процесс построения регрессии? (Общая схема)

Сбор данных: Нужна таблица с примерами, где известны и признаки, и правильный ответ.
Выбор модели: Решаем, какую регрессию использовать (линейную, полиномиальную и т.д.).
Обучение модели: Алгоритм находит такие параметры модели (коэффициенты k, b в линейной регрессии), чтобы ошибка предсказания была минимальной. Чаще всего минимизируют сумму квадратов разниц между предсказанным и реальным значением.
Оценка модели: Проверяем качество модели на новых данных, которые она не видела при обучении. Используются метрики типа Среднеквадратичной ошибки (MSE) или Коэффициента детерминации (R²).
Прогнозирование: Применяем обученную модель для предсказания на совершенно новых данных.