Adjusted R² (скорректированный коэффициент детерминации) — это улучшенная версия обычного R², которая решает одну из его главных проблем.

Что такое Adjusted R²?

Adjusted R² — это модификация обычного коэффициента детерминации, которая штрафует за добавление незначимых признаков в модель. В отличие от обычного R², который всегда увеличивается при добавлении любых переменных, Adjusted R² увеличивается только если новый признак действительно улучшает модель.

Основная идея:

Adjusted R² “наказывает” за избыточную сложность модели.


Формула Adjusted R²

Adjusted R² = 1 - [(1 - R²) × (n - 1) / (n - k - 1)]

Где:

  • — обычный коэффициент детерминации
  • n — количество наблюдений
  • k — количество независимых переменных (признаков)

Зачем нужен Adjusted R²? Проблема обычного R²

Проблема обычного R²:

R² всегда увеличивается (или не уменьшается) при добавлении любых признаков, даже совершенно бесполезных:

# Добавляем случайный шум как признак
R²(модель с 5 признаками) ≤ R²(модель с 6 признаками)

Это приводит к переобучению — модель становится слишком сложной и плохо обобщает на новые данные.

Решение через Adjusted R²:

Adjusted R² увеличивается только если новый признак вносит достаточный вклад, чтобы оправдать усложнение модели.


Пример: Сравнение R² и Adjusted R²

Рассмотрим развитие модели прогноза цен на дома:

МодельПризнаки (k)Adjusted R²
1Площадь0.650.64
2Площадь + Количество комнат0.720.71
3Площадь + Комнаты + Год постройки0.750.74
4Площадь + Комнаты + Год + Цвет стен0.760.74
5Площадь + Комнаты + Год + Цвет + Первая буква улицы0.770.73

Наблюдения:

  • Модели 1-3: Оба R² растут — новые признаки полезны
  • Модель 4: R² растет, но Adjusted R² не меняется — признак бесполезен
  • Модель 5: R² растет, но Adjusted R² падает — модель стала хуже из-за избыточности

Как интерпретировать Adjusted R²?

Правила интерпретации:

  1. Adjusted R² ≤ R² (всегда меньше или равен обычному R²)
  2. Чем выше — тем лучше (как и у обычного R²)
  3. Растет только при полезных признаках
  4. Может быть отрицательным (как и обычный R²)

Сравнение моделей:

  • Adjusted R² модели A > Adjusted R² модели B → Модель A лучше
  • Даже если обычный R² у модели B выше!

Подробный пример расчета

Допустим:

  • n = 100 наблюдений
  • k = 5 признаков
  • R² = 0.80

Расчет Adjusted R²: Adjusted R² = 1 - [(1 - 0.80) × (100 - 1) / (100 - 5 - 1)] = 1 - [0.20 × 99 / 94] = 1 - [19.8 / 94] = 1 - 0.2106 ≈ 0.7894

Теперь добавим 5 бесполезных признаков (k = 10), R² увеличился до 0.81: Adjusted R² = 1 - [(1 - 0.81) × (100 - 1) / (100 - 10 - 1)] = 1 - [0.19 × 99 / 89] = 1 - [18.81 / 89] = 1 - 0.2113 ≈ 0.7887

Вывод: Хотя обычный R² вырос с 0.80 до 0.81, Adjusted R² немного уменьшился, что говорит о нецелесообразности добавления этих признаков.


Преимущества Adjusted R²

  1. Борется с переобучением: Не позволяет бездумно добавлять признаки
  2. Более честная оценка: Учитывает сложность модели
  3. Универсальность: Подходит для сравнения моделей с разным количеством признаков
  4. Стандартизированность: Широко используется в статистике и эконометрике

Недостатки и ограничения

  1. Не идеален для выбора моделей: Есть более современные критерии (AIC, BIC)
  2. Все еще может переобучаться: Хотя и меньше, чем обычный R²
  3. Не учитывает корреляцию между признаками
  4. Сложнее для объяснения неспециалистам

Сравнение с другими критериями

КритерийСутьПреимуществаНедостатки
Adjusted R²Штрафует за количество признаковПростая интерпретация, широко используетсяМенее точен чем AIC/BIC
AIC (Akaike)Баланс между точностью и сложностьюХорош для прогнозированияМожет выбирать слишком сложные модели
BIC (Bayesian)Сильнее штрафует за сложностьЛучше для выявления истинной моделиМожет выбирать слишком простые модели

Когда использовать Adjusted R²?

Используйте Adjusted R² когда:

  • Сравниваете модели с разным количеством признаков
  • Выбираете переменные для множественной регрессии
  • Хотите избежать переобучения
  • Работаете в академической среде (где он очень популярен)

Дополняйте другими методами:

  • Кросс-валидация — золотой стандарт
  • AIC/BIC — более современные подходы
  • Тестирование на новых данных — окончательная проверка

Практические рекомендации

  1. Всегда смотрите на Adjusted R² вместе с обычным R²
  2. При выборе модели ориентируйтесь на Adjusted R², а не на обычный
  3. Используйте Adjusted R² как ориентир, но проверяйте модель на тестовых данных
  4. Помните, что разница в 0.01-0.02 обычно не существенна

Резюме

Adjusted R² — это важное улучшение обычного коэффициента детерминации, которое решает проблему автоматического роста при добавлении признаков. Он обеспечивает более честную оценку качества модели, учитывая ее сложность.

Ключевое правило: При сравнении моделей с разным количеством признаков всегда используйте Adjusted R², а не обычный R². Это поможет выбрать действительно лучшую модель, а не просто самую сложную.