Предпосылки логистической регрессии

Логистическая регрессия имеет менее строгие предпосылки по сравнению с линейной регрессией, но все же требует выполнения определенных условий.

1. Бинарная зависимая переменная

Зависимая переменная ( Y ) должна быть бинарной (дихотомической), принимающей только два значения, обычно кодируемых как 0 и 1.

Для мультиномиальной логистической регрессии зависимая переменная может иметь более двух категорий, но это отдельная модель.

2. Независимость наблюдений

Наблюдения должны быть независимыми друг от друга. Это означает, что один случай не должен влиять на вероятность исхода другого случая.

Нарушение: если наблюдения кластеризованы или являются повторными измерениями, требуется использование моделей смешанных эффектов.

3. Линейность связи между логитом и предикторами

Логистическая регрессия предполагает линейную связь между непрерывными независимыми переменными и логитом (логарифмом шансов) зависимой переменной.

где — вероятность успеха при заданных предикторах.

4. Отсутствие мультиколлинеарности

Как и в линейной регрессии, между независимыми переменными не должно быть сильной корреляции.

Сильная мультиколлинеарность приводит к нестабильным оценкам коэффициентов и завышенным стандартным ошибкам.

5. Отсутствие сильно влияющих выбросов

Выбросы в пространстве независимых переменных могут существенно влиять на оценку коэффициентов и качество модели.

Важные отличия от линейной регрессии (чего НЕ требуется):

❌ Нет предположения о нормальности ошибок

Ошибки в логистической регрессии имеют биномиальное распределение, а не нормальное.

❌ Нет предположения о гомоскедастичности

Дисперсия в логистической регрессии определяется через вероятность:

что автоматически означает гетероскедастичность — дисперсия максимальна когда ( ) и минимальна когда ( ) близка к 0 или 1.

❌ Нет предположения о линейной связи между Y и X

Связь между ( Y ) и ( X ) нелинейна — она следует сигмоидной (логистической) кривой:

Проверка предпосылок на практике:

  1. Линейность логита: проверяется с помощью бокси-тидвелла теста (Box-Tidwell test) или путем добавления квадратичных членов.
  2. Мультиколлинеарность: проверяется через VIF (фактор инфляции дисперсии).
  3. Влиятельные наблюдения: проверяется через анализ остатков (Pearson residuals, deviance residuals) и статистики типа Cook’s distance.

Краткое резюме:

Логистическая регрессия требует:

  • Бинарную зависимую переменную
  • Независимые наблюдения
  • Линейную связь между непрерывными предикторами и логитом
  • Отсутствие сильной мультиколлинеарности
  • Отсутствие сильно влияющих выбросов

Но НЕ требует:

  • Нормального распределения ошибок
  • Гомоскедастичности
  • Линейной связи между Y и X