LOWESS (Locally Weighted Scatterplot Smoothing) применительно к логистической регрессии — это диагностический и исследовательский инструмент, а не часть самой модели. Он используется для проверки ключевого предположения модели и визуального анализа взаимосвязи.
1. Основная цель: Проверка линейности
Самое важное предположение логистической регрессии заключается в том, что логарифм шансов (log-odds) линейно зависит от непрерывных предикторов.
- Логит (Logit) = , где — вероятность события.
- Модель предполагает: .
Проблема: Мы не можем напрямую увидеть эту линейность в исходных данных, так как зависимая переменная — это 0 или 1.
Решение LOWESS: Мы можем наложить сглаженную LOWESS-кривую на график рассеяния, где по оси X — значения непрерывного предиктора, а по оси Y — наблюдаемые логарифмы шансов (или сами бинарные исходы). Эта кривая локально “усредняет” данные, не навязывая заранее заданную форму (линейную, полиномиальную).
2. Как это выглядит на практике (шаги):
- Построение графика: Для каждого интересующего непрерывного предиктора () строят график:
- Ось X: Значения предиктора.
- Ось Y: Бинарная зависимая переменная (0/1) или, что лучше, сгруппированные/сглаженные оценки логарифма шансов. Часто бинарные данные “разбивают” на бины (например, по квантилям предиктора) и вычисляют эмпирический logit для каждой группы.
- Наложение LOWESS: На тот же график накладывают LOWESS-кривую. Она показывает непараметрическую (гибкую) оценку того, как в среднем меняется вероятность (в logit-шкале) в зависимости от .
- Наложение линейной линии: Для сравнения на тот же график добавляют линию, которую предсказывает ваша логистическая регрессия (линейную зависимость в logit-шкале).
3. Интерпретация (что мы ищем):
- Идеальный случай (предположение выполняется): LOWESS-кривая следует примерно вдоль прямой линии, совпадающей с линией логистической регрессии. Это означает, что линейная модель адекватно описывает связь.
- Проблемный случай (нарушение линейности): LOWESS-кривая заметно отклоняется от прямой линии. Например, она может иметь S-образную, кубическую или другую нелинейную форму.
- Пример: Кривая идет параллельно линейной тренду в начале, затем делает “скачок”, и снова идет параллельно. Это указывает, что влияние предиктора на log-odds не постоянно по всей его шкале.
4. Что делать, если LOWESS показывает нелинейность?
Если LOWESS выявил проблему, у вас есть несколько вариантов:
- Преобразование предиктора: Добавить в модель нелинейный член — квадрат (), куб () или сплайн-функции для переменной . Это самый частый подход.
- Дискретизация (категоризация): Разбить непрерывный предиктор на категории (например, квартили). Не самый эффективный метод с точки зрения информации, но иногда полезный для интерпретации.
- Использование обобщенной аддитивной модели (GAM): GAM логистическая регрессия позволяет автоматически подбирать нелинейные сглаживающие функции для предикторов, по сути, формализуя идею, стоящую за LOWESS.
5. Другое применение: Проверка калибровки модели
LOWESS также используется в графиках “калибровки” (calibration plot). Здесь по оси X откладывается предсказанная моделью вероятность, а по оси Y — фактическая доля событий. Наложенная LOWESS-кривая показывает, насколько хорошо предсказанные вероятности соответствуют наблюдаемым частотам. Идеальная калибровка — это кривая, лежащая на линии .
Итог
LOWESS в контексте логистической регрессии — это “глаз” исследователя. Это непараметрический метод визуализации, который помогает:
- Проверить критическое предположение о линейности связи в logit-шкале.
- Обнаружить характер нелинейности, если она есть.
- Направить на пути улучшения модели (например, подсказать, какое преобразование предиктора применить).
Это важный шаг в процессе построения robust и адекватной логистической регрессионной модели.