LOWESS (Locally Weighted Scatterplot Smoothing)

LOWESS (Locally Weighted Scatterplot Smoothing) применительно к логистической регрессии — это диагностический и исследовательский инструмент, а не часть самой модели. Он используется для проверки ключевого предположения модели и визуального анализа взаимосвязи.

1. Основная цель: Проверка линейности

Самое важное предположение логистической регрессии заключается в том, что логарифм шансов (log-odds) линейно зависит от непрерывных предикторов.

Логит (Logit) = $l n (p / (1 - p))$ , где $p$ — вероятность события.
Модель предполагает: $L o g i t (p) = β_{0} + β_{1} * X_{1} + ... + β_{n} * X_{n}$ .

Проблема: Мы не можем напрямую увидеть эту линейность в исходных данных, так как зависимая переменная — это 0 или 1.

Решение LOWESS: Мы можем наложить сглаженную LOWESS-кривую на график рассеяния, где по оси X — значения непрерывного предиктора, а по оси Y — наблюдаемые логарифмы шансов (или сами бинарные исходы). Эта кривая локально “усредняет” данные, не навязывая заранее заданную форму (линейную, полиномиальную).

2. Как это выглядит на практике (шаги):

Построение графика: Для каждого интересующего непрерывного предиктора ( $X$ ) строят график:
- Ось X: Значения предиктора.
- Ось Y: Бинарная зависимая переменная (0/1) или, что лучше, сгруппированные/сглаженные оценки логарифма шансов. Часто бинарные данные “разбивают” на бины (например, по квантилям предиктора) и вычисляют эмпирический logit для каждой группы.
Наложение LOWESS: На тот же график накладывают LOWESS-кривую. Она показывает непараметрическую (гибкую) оценку того, как в среднем меняется вероятность (в logit-шкале) в зависимости от $X$ .
Наложение линейной линии: Для сравнения на тот же график добавляют линию, которую предсказывает ваша логистическая регрессия (линейную зависимость в logit-шкале).

3. Интерпретация (что мы ищем):

Идеальный случай (предположение выполняется): LOWESS-кривая следует примерно вдоль прямой линии, совпадающей с линией логистической регрессии. Это означает, что линейная модель адекватно описывает связь.
Проблемный случай (нарушение линейности): LOWESS-кривая заметно отклоняется от прямой линии. Например, она может иметь S-образную, кубическую или другую нелинейную форму.
- Пример: Кривая идет параллельно линейной тренду в начале, затем делает “скачок”, и снова идет параллельно. Это указывает, что влияние предиктора на log-odds не постоянно по всей его шкале.

4. Что делать, если LOWESS показывает нелинейность?

Если LOWESS выявил проблему, у вас есть несколько вариантов:

Преобразование предиктора: Добавить в модель нелинейный член — квадрат ( $X^{2}$ ), куб ( $X^{3}$ ) или сплайн-функции для переменной $X$ . Это самый частый подход.
Дискретизация (категоризация): Разбить непрерывный предиктор на категории (например, квартили). Не самый эффективный метод с точки зрения информации, но иногда полезный для интерпретации.
Использование обобщенной аддитивной модели (GAM): GAM логистическая регрессия позволяет автоматически подбирать нелинейные сглаживающие функции для предикторов, по сути, формализуя идею, стоящую за LOWESS.

5. Другое применение: Проверка калибровки модели

LOWESS также используется в графиках “калибровки” (calibration plot). Здесь по оси X откладывается предсказанная моделью вероятность, а по оси Y — фактическая доля событий. Наложенная LOWESS-кривая показывает, насколько хорошо предсказанные вероятности соответствуют наблюдаемым частотам. Идеальная калибровка — это кривая, лежащая на линии $y = x$ .

Итог

LOWESS в контексте логистической регрессии — это “глаз” исследователя. Это непараметрический метод визуализации, который помогает:

Проверить критическое предположение о линейности связи в logit-шкале.
Обнаружить характер нелинейности, если она есть.
Направить на пути улучшения модели (например, подсказать, какое преобразование предиктора применить).

Это важный шаг в процессе построения robust и адекватной логистической регрессионной модели.

LDS