Преобразование Йео-Джонсона (Yeo-Johnson transformation) — это мощный метод преобразования данных, предназначенный для того, чтобы сделать их распределение более похожим на нормальное (гауссово). Оно является развитием и улучшением знаменитого преобразования Бокса-Кокса.

Ключевая идея

Основная цель — стабилизировать дисперсию данных, уменьшить асимметрию (скошенность) и устранить выбросы. Это важно, потому что многие статистические методы (линейная регрессия, ANOVA и др.) работают лучше, когда данные распределены нормально или по крайней мере симметрично.

Чем Йео-Джонсон лучше Бокса-Кокса?

Главное преимущество и отличие — преобразование Йео-Джонсона может работать с любыми вещественными числами, включая нулевые и отрицательные значения.

  • Бокс-Кокс: Работает только с положительными данными (). Формула: .
  • Йео-Джонсон: Работает с любыми данными (положительными, отрицательными, нулями). Для этого оно использует кусочно-заданную функцию, которая по-разному обрабатывает неотрицательные и отрицательные значения.

Формула преобразования

Преобразование зависит от параметра λ (лямбда) и от знака исходного значения :

\begin{cases} \frac{(x+1)^\lambda - 1}{\lambda}, & \text{если } x \geq 0, \lambda \neq 0 \\ \ln(x+1), & \text{если } x \geq 0, \lambda = 0 \\ -\frac{(-x+1)^{2-\lambda} - 1}{2-\lambda}, & \text{если } x < 0, \lambda \neq 2 \\ -\ln(-x+1), & \text{если } x < 0, \lambda = 2 \end{cases}$$ ### Как выбирается параметр λ? Значение λ подбирается автоматически на основе самих данных, обычно методом **максимального правдоподобия**. Алгоритм находит такое λ, при котором преобразованное распределение становится максимально близким к нормальному. ### Преимущества и недостатки **Плюсы:** 1. **Универсальность:** Работает с данными любого знака. 2. **Мощность:** Эффективно уменьшает асимметрию и делает данные более "правильными" для статистических тестов. 3. **Интерпретируемость:** Как и Бокс-Кокс, имеет логическую параметризацию (λ=1 ~ нет преобразования, λ=0 ~ логарифм и т.д.). **Минусы:** 1. **Потеря интерпретации:** После преобразования исходные единицы измерения теряются, что может затруднить объяснение коэффициентов моделей. 2. **Не панацея:** Не всегда может сделать сильно ненормальные данные идеально нормальными. 3. **Обратное преобразование:** Для возврата к исходной шкале нужно применять обратную функцию, что добавляет шаг в процессе. ### Где применяется? 1. **Подготовка данных для машинного обучения:** Многие алгоритмы (особенно линейные модели, чувствительные к выбросам) работают стабильнее на преобразованных данных. 2. **Статистический анализ:** Для удовлетворения предположения о нормальности остатков в регрессионном анализе. 3. **Обработка выбросов:** Преобразование может "прижать" экстремальные значения, снизив их влияние. **Итог:** Преобразование Йео-Джонсона — это гибкий и надежный инструмент для нормализации данных, который исправляет главный недостаток преобразования Бокса-Кокса — невозможность работы с неположительными числами. Оно является стандартным методом в наборе инструментов data scientist'а для предобработки числовых признаков.