LOWESS (Locally Weighted Scatterplot Smoothing) применительно к логистической регрессии — это диагностический и исследовательский инструмент, а не часть самой модели. Он используется для проверки ключевого предположения модели и визуального анализа взаимосвязи.

1. Основная цель: Проверка линейности

Самое важное предположение логистической регрессии заключается в том, что логарифм шансов (log-odds) линейно зависит от непрерывных предикторов.

  • Логит (Logit) = , где — вероятность события.
  • Модель предполагает: .

Проблема: Мы не можем напрямую увидеть эту линейность в исходных данных, так как зависимая переменная — это 0 или 1.

Решение LOWESS: Мы можем наложить сглаженную LOWESS-кривую на график рассеяния, где по оси X — значения непрерывного предиктора, а по оси Y — наблюдаемые логарифмы шансов (или сами бинарные исходы). Эта кривая локально “усредняет” данные, не навязывая заранее заданную форму (линейную, полиномиальную).

2. Как это выглядит на практике (шаги):

  1. Построение графика: Для каждого интересующего непрерывного предиктора () строят график:
    • Ось X: Значения предиктора.
    • Ось Y: Бинарная зависимая переменная (0/1) или, что лучше, сгруппированные/сглаженные оценки логарифма шансов. Часто бинарные данные “разбивают” на бины (например, по квантилям предиктора) и вычисляют эмпирический logit для каждой группы.
  2. Наложение LOWESS: На тот же график накладывают LOWESS-кривую. Она показывает непараметрическую (гибкую) оценку того, как в среднем меняется вероятность (в logit-шкале) в зависимости от .
  3. Наложение линейной линии: Для сравнения на тот же график добавляют линию, которую предсказывает ваша логистическая регрессия (линейную зависимость в logit-шкале).

3. Интерпретация (что мы ищем):

  • Идеальный случай (предположение выполняется): LOWESS-кривая следует примерно вдоль прямой линии, совпадающей с линией логистической регрессии. Это означает, что линейная модель адекватно описывает связь.
  • Проблемный случай (нарушение линейности): LOWESS-кривая заметно отклоняется от прямой линии. Например, она может иметь S-образную, кубическую или другую нелинейную форму.
    • Пример: Кривая идет параллельно линейной тренду в начале, затем делает “скачок”, и снова идет параллельно. Это указывает, что влияние предиктора на log-odds не постоянно по всей его шкале.

4. Что делать, если LOWESS показывает нелинейность?

Если LOWESS выявил проблему, у вас есть несколько вариантов:

  1. Преобразование предиктора: Добавить в модель нелинейный член — квадрат (), куб () или сплайн-функции для переменной . Это самый частый подход.
  2. Дискретизация (категоризация): Разбить непрерывный предиктор на категории (например, квартили). Не самый эффективный метод с точки зрения информации, но иногда полезный для интерпретации.
  3. Использование обобщенной аддитивной модели (GAM): GAM логистическая регрессия позволяет автоматически подбирать нелинейные сглаживающие функции для предикторов, по сути, формализуя идею, стоящую за LOWESS.

5. Другое применение: Проверка калибровки модели

LOWESS также используется в графиках “калибровки” (calibration plot). Здесь по оси X откладывается предсказанная моделью вероятность, а по оси Y — фактическая доля событий. Наложенная LOWESS-кривая показывает, насколько хорошо предсказанные вероятности соответствуют наблюдаемым частотам. Идеальная калибровка — это кривая, лежащая на линии .

Итог

LOWESS в контексте логистической регрессии — это “глаз” исследователя. Это непараметрический метод визуализации, который помогает:

  1. Проверить критическое предположение о линейности связи в logit-шкале.
  2. Обнаружить характер нелинейности, если она есть.
  3. Направить на пути улучшения модели (например, подсказать, какое преобразование предиктора применить).

Это важный шаг в процессе построения robust и адекватной логистической регрессионной модели.