Регрессионный анализ — это статистический метод исследования взаимосвязи между переменными, при котором одна или несколько переменных используются для прогнозирования или объяснения изменений другой переменной.
Основные понятия и компоненты
Зависимая и независимые переменные
- Зависимая переменная (Y) — переменная, которую мы хотим предсказать или объяснить
- Независимые переменные (X) — переменные, используемые для прогнозирования зависимой переменной
Виды регрессионного анализа
1. Простая линейная регрессия
Моделирует линейную зависимость между одной независимой и одной зависимой переменной:
где:
- — значение зависимой переменной для i-го наблюдения
- — значение независимой переменной для i-го наблюдения
- — свободный член (intercept)
- — коэффициент наклона (slope)
- — случайная ошибка
2. Множественная линейная регрессия
Моделирует зависимость между несколькими независимыми переменными и одной зависимой:
3. Нелинейная регрессия
Модели с нелинейными зависимостями:
- Полиномиальная:
- Экспоненциальная:
- Логарифмическая:
Метод наименьших квадратов (МНК)
Основной метод оценки параметров регрессионной модели. Цель — минимизировать сумму квадратов остатков:
где — предсказанное значение Y.
Оценки коэффициентов для простой линейной регрессии
Оценка качества модели
Коэффициент детерминации (R²)
Покажает долю дисперсии зависимой переменной, объясненную моделью:
где:
- — сумма квадратов остатков
- — общая сумма квадратов
Скорректированный R²
Учитывает количество предикторов в модели:
где k — количество независимых переменных.
Статистические тесты в регрессии
Проверка значимости модели (F-тест)
Проверка значимости отдельных коэффициентов (t-тест)
где — стандартная ошибка коэффициента.
Матричная форма регрессии
Для множественной регрессии удобно использовать матричную запись:
где:
- — вектор зависимой переменной ()
- — матрица регрессоров ()
- — вектор коэффициентов ()
- — вектор ошибок ()
Оценки МНК в матричной форме:
Специализированные виды регрессии
Логистическая регрессия
Для бинарных зависимых переменных:
где p — вероятность события.
Пуассоновская регрессия
Для счетных данных: где λ — интенсивность события.
Гребневая регрессия (Ridge)
Регуляризация для борьбы с мультиколлинеарностью:
Этапы регрессионного анализа
- Постановка задачи — определение целей и переменных
- Сбор и подготовка данных — проверка на выбросы, пропуски
- Построение модели — выбор вида регрессии, оценка параметров
- Диагностика модели — проверка предпосылок, анализ остатков
- Интерпретация результатов — анализ коэффициентов, прогнозирование
- Валидация модели — проверка на новых данных
Применение регрессионного анализа
- Экономика — прогнозирование ВВП, инфляции
- Медицина — определение факторов риска заболеваний
- Маркетинг — анализ влияния рекламы на продажи
- Социология — исследование социальных закономерностей
- Машинное обучение — как базовый алгоритм предсказания
Важность и ограничения
Сильные стороны:
- Простота интерпретации
- Широкая применимость
- Хорошая теоретическая база
Ограничения:
- Чувствительность к нарушениям предпосылок
- Не может доказать причинно-следственные связи
- Требует осторожности при экстраполяции
Регрессионный анализ остается одним из самых популярных и мощных инструментов статистического анализа, позволяющим количественно оценивать взаимосвязи между переменными и строить прогнозы.