Изотоническая регрессия

Изотоническая регрессия — это непараметрический метод построения монотонной (неубывающей или невозрастающей) функции, которая наилучшим образом аппроксимирует данные в смысле минимизации суммы квадратов ошибок.

Если говорить простыми словами: она находит “ступенчатую” монотонную кривую, которая максимально близко проходит к вашим данным, не нарушая заданного порядка.

Ключевая идея

Допустим, у вас есть точки $(x_{i}, y_{i})$ , где $x$ — это вход (например, предсказанная моделью вероятность), а $y$ — отклик (например, фактическая доля событий). Изотоническая регрессия ищет такую функцию $f (x)$ , которая:

Монотонно неубывает: если $x 1 < x 2$ , то $f (x 1) \leq f (x 2)$ .
Минимизирует сумму квадратов отклонений: $Σ (y_{i} - f (x_{i}))^{2}$ среди всех монотонных функций.

Результатом является кусочно-постоянная функция (ступеньки).

Как работает алгоритм (PAVA)

Самый известный алгоритм — PAVA (Pool Adjacent Violators Algorithm — Алгоритм объединения смежных нарушителей).

Его логика на примере:

Исходные данные: Допустим, у нас есть отсортированные по $x$ значения $y$ : $[0.1, 0.3, 0.2, 0.6, 0.55, 0.7]$ .
Поиск нарушений монотонности: Мы видим, что $0.3 > 0.2$ — это нарушение (после 0.3 должно быть число не меньше).
Объединение (пулинг): Нарушающий блок $[0.3, 0.2]$ объединяется в один блок, и ему присваивается среднее значение: $(0.3 + 0.2) /2 = 0.25$ . Теперь последовательность: $[0.1, 0.25, 0.25, 0.6, 0.55, 0.7]$ .
Проверка дальше: Теперь $0.6 > 0.55$ — новое нарушение. Объединяем $[0.6, 0.55]$ в один блок со средним $0.575$ . Последовательность: $[0.1, 0.25, 0.25, 0.575, 0.575, 0.7]$ .
Проверка глобально: Внезапно, после первого объединения у нас могло появиться новое нарушение: $0.25 > 0.25 ?$ Нет, равны. $0.25 \leq 0.575$ ? Да. $0.575 \leq 0.575$ ? Да. $0.575 \leq 0.7$ ? Да.
Результат: Получаем монотонную кусочно-постоянную функцию со значениями $[0.1, 0.25, 0.25, 0.575, 0.575, 0.7]$ .

Визуально: Если нарисовать исходные точки и изотоническую аппроксимацию, вы увидите “ступеньки”, которые идут снизу вверх, проходя как можно ближе к данным.

Главное применение в машинном обучении: Калибровка вероятностей

Это именно то, о чем вы спрашивали в контексте логистической регрессии и $c a l ib r a t i o n pl o t$ .

Проблема: Допустим, ваша модель предсказывает вероятность, но график калибровки показывает, что она завышает или занижает прогнозы нелинейным образом (например, занижает на малых вероятностях, но завышает на средних).

Решение (постобработка):

Берём откалибровочную выборку (не использованную при обучении).
Используем на ней модель, чтобы получить “сырые” предсказания ( $p re d$ ).
Отсортировываем пары $(p re d_{i}, y_{i})$ , где $y_{i}$ — истинная метка (0 или 1).
Применяем изотоническую регрессию, где:
- $X$ = отсортированные “сырые” предсказания ( $p re d$ ).
- $Y$ = соответствующие бинарные метки ( $y$ ).
Получаем монотонную калибровочную функцию $f (p re d)$ , которая преобразует исходные предсказания в откалиброванные вероятности.
Для любого нового предсказания $p$ ищем, в какую “ступеньку” оно попадает, и заменяем его на значение этой ступеньки.

Почему это работает для калибровки? По своей природе истинная вероятность события должна монотонно расти с ростом предсказания модели. Если модель говорит, что случай A имеет вероятность выше, чем случай B, то и фактическая доля событий в группе A должна быть не ниже, чем в группе B. Изотоническая регрессия принудительно обеспечивает эту монотонность, попутно усредняя фактические доли внутри каждого блока.

Сравнение с другими методами калибровки

Метод	Принцип	Гибкость	Склонность к переобучению
Platt Scaling	Пропускает логит модели через логистическую регрессию с 2 параметрами.	Низкая (только S-образная форма).	Низкая.
Изотоническая регрессия	Строит произвольную монотонную ступенчатую функцию.	Очень высокая (может исправить сложные нелинейности).	Высокая, требует достаточно большого откалибровочного набора (>1000 samples).

Вывод: Изотоническая регрессия — это более мощный, но и более требовательный к данным метод. Её стоит использовать, когда:

Калибровочная кривая имеет сложную нелинейную форму.
У вас есть достаточно большой откалибровочный набор данных.
Важна максимально точная калибровка.

Преимущества и недостатки

Плюсы:

Непараметрическая: Не накладывает заранее заданную форму (например, сигмоиду), что позволяет улавливать сложные искажения.
Монотонность: Гарантирует, что порядок предсказаний сохранится (если $p 1 > p 2$ , то и после калибровки $p 1^{'} \geq p 2^{'}$ ).
Интерпретируемость: Результат — это просто набор порогов и скорректированных значений.

Минусы:

Склонность к переобучению: На маленьких выборках может выучить шум.
Экстраполяция: Плохо обрабатывает значения вне диапазона откалибровочной выборки (обычно для них используют ближайшее граничное значение).
Кусочно-постоянный вид: На выходе получается дискретное множество вероятностей, а не непрерывный спектр.

Примеры применения вне калибровки

Восстановление монотонных зависимостей: Когда из физики/экономики известно, что зависимость должна монотонной (например, спрос от цены), а зашумленные данные нарушают монотонность.
Статистика и визуализация: Построение монотонных трендов.
Задачи ранжирования: Когда нужно преобразовать выходы алгоритма в значения, строго соответствующие порядку.

Изотоническая регрессия — это мощный инструмент для принудительного исправления монотонных искажений в данных или прогнозах модели. В контексте машинного обучения она является “тяжёлой артиллерией” среди методов калибровки, способной исправить даже сложные нелинейные перекосы в предсказанных вероятностях, но требующей для этого достаточно данных.

LDS