Простое объяснение (на примере)
Представьте, что вы риэлтор и хотите предсказать цену квартиры. Вы знаете, что цена зависит от многих факторов: площади, числа комнат, этажа, удаленности от метро и т.д.
Регрессия — это математическая модель, которая на основе уже известных данных (истории продаж) находит зависимость между этими факторами и ценой.
- Входные данные (Признаки): Площадь, число комнат, этаж…
- Выходные данные (Целевая переменная): Цена квартиры.
Модель регрессии “учится” на исторических данных и находит формулу. Например, она может вывести, что:
Цена = 50 000 * (Площадь) + 1 000 000 * (Число комнат) - 50 000 * (Этаж) + ...
Теперь, когда вы вводите параметры новой квартиры, модель по этой формуле предсказывает ее стоимость.
Ключевая идея: Регрессия предсказывает численное значение (например, цену, температуру, спрос, вероятность).
Более формальное определение
Регрессия — это набор статистических методов и алгоритмов машинного обучения для:
прогнозирования непрерывной количественной переменной (зависимой переменной) на основе одной или нескольких других переменных (независимых переменных или признаков).
Основные задачи регрессии
- Прогнозирование: Предсказать будущие значения (курс акций, продажи, погоду).
- Установление взаимосвязей: Понять, как изменение одного фактора влияет на результат. Например, “Насколько увеличится цена при увеличении площади на 1 кв.м.?“.
Типы регрессионных моделей (с примерами)
Существует множество видов регрессии, вот самые популярные:
1. Линейная регрессия
- Что это? Предполагает, что зависимость между признаками и целевой переменной — линейная (можно представить в виде прямой линии или гиперплоскости).
- Формула (простая):
y = k*x + b - Пример: Предсказание стоимости доставки на основе расстояния.
2. Полиномиальная регрессия
- Что это? Использует не прямую линию, а кривую (полиномиальную функцию). Подходит для более сложных, нелинейных зависимостей.
- Пример: Зависимость уровня счастья от уровня дохода (сначала растет быстро, потом замедляется).
3. Логистическая регрессия
- Что это? Несмотря на название, это алгоритм для классификации, а не для регрессии! Он предсказывает вероятность принадлежности объекта к определенному классу (например, “спам” или “не спам”).
- Пример: Оценка вероятности того, что клиент уйдет к конкуренту (отток).
4. Ридж, Лассо и ElasticNet регрессия
- Что это? Усовершенствованные версии линейной регрессии, которые помогают бороться с переобучением и отбирать самые важные признаки, особенно когда их очень много.
Как работает процесс построения регрессии? (Общая схема)
- Сбор данных: Нужна таблица с примерами, где известны и признаки, и правильный ответ.
- Выбор модели: Решаем, какую регрессию использовать (линейную, полиномиальную и т.д.).
- Обучение модели: Алгоритм находит такие параметры модели (коэффициенты
k,bв линейной регрессии), чтобы ошибка предсказания была минимальной. Чаще всего минимизируют сумму квадратов разниц между предсказанным и реальным значением. - Оценка модели: Проверяем качество модели на новых данных, которые она не видела при обучении. Используются метрики типа Среднеквадратичной ошибки (MSE) или Коэффициента детерминации (R²).
- Прогнозирование: Применяем обученную модель для предсказания на совершенно новых данных.
Регрессия vs Классификация
Это два основных типа задач в машинном обучении. Важно их не путать:
| Характеристика | Регрессия | Классификация |
|---|---|---|
| Что предсказываем? | Число (количество, цена, время) | Категорию/Класс (спам/не спам, кошка/собака, да/нет) |
| Выход модели | Непрерывное значение | Дискретная метка (или вероятность) |
| Примеры | Предсказание цены акций, температуры, возраста человека | Распознавание emails, диагноз болезни, определение объекта на фото |