1. Основные метрики на основе абсолютных и квадратичных ошибок
Это “рабочие лошадки” регрессии, близкие родственники MAE (Mean Absolute Error) и RMSE (Root Mean Square Error).
| Метрика | Формула | Суть | Плюсы | Минусы |
|---|---|---|---|---|
| MSE (Mean Squared Error) | Σ(yᵢ - ŷᵢ)² / n | Среднеквадратичная ошибка. Это просто квадрат RMSE. | Легко вычисляется, имеет отличные математические свойства для оптимизации. | Сильно зависит от выбросов. Не интерпретируется в исходных единицах. |
| RMSLE | √[ Σ(log(yᵢ +1) - log(ŷᵢ +1))² / n ] | RMSE от логарифмов. Считает ошибку в логарифмической шкале. | Нечувствительна к большим выбросам. Хороша, когда важна точность предсказания и малых, и больших значений (например, прогноз продаж). Штрафует за недооценку сильнее, чем за переоценку. | Сложнее для интерпретации. |
2. Относительные ошибки (в процентах)
Эти метрики универсальны и позволяют сравнивать модели на разных наборах данных с разными масштабами.
| Метрика | Формула | Суть | Плюсы | Минусы |
|---|---|---|---|---|
| MAPE | (Σ |(yᵢ - ŷᵢ)/yᵢ| / n) * 100% | Средняя абсолютная процентная ошибка. | Очень популярна и легко интерпретируется. “В среднем модель ошибается на X%“. Позволяет сравнивать модели для разных задач. | Не определена, если yᵢ = 0. Сильно штрафует за ошибки прогноза для малых значений. Асимметрична: ошибка превышения ограничена 100%, а ошибка занижения — нет. |
| sMAPE | (Σ 2 * |yᵢ - ŷᵢ| / (|yᵢ| + |ŷᵢ|) / n) * 100% | Симметричная MAPE. | Исправляет асимметрию MAPE, симметрична относительно занижения и завышения. | Может быть нестабильной, когда и yᵢ, и ŷᵢ близки к нулю. |
| MAPE | (Σ |(yᵢ - ŷᵢ)| / Σ |yᵢ| ) * 100% | Средняя абсолютная процентная ошибка от общего объема. | Решает проблему с нулевыми значениями и асимметрией обычной MAPE. Более устойчива. | Менее распространена, чем классическая MAPE. |
3. Масштабированные ошибки
Позволяют сравнивать прогнозы разных временных рядов, так как ошибка нормализуется.
| Метрика | Формула | Суть | Плюсы | Минусы |
|---|---|---|---|---|
| MASE (Mean Absolute Scaled Error) | MAE / (Σ |yᵢ - yᵢ₋₁| / (n-1)) | Средняя абсолютная масштабированная ошибка. | Одна из лучших и самых надежных метрик для временных рядов. Сравнивает ошибку вашей модели с ошибкой наивного прогноза (“завтра будет как сегодня”). MASE < 1: модель лучше наивного прогноза. MASE > 1: модель хуже наивного прогноза. | Менее интуитивна, чем MAPE, для не-статистиков. |
4. Метрики, связанные с дисперсией (для интерпретации модели)
Эти метрики показывают, насколько хорошо модель объясняет variance в данных.
| Метрика | Формула | Суть | Плюсы | Минусы |
|---|---|---|---|---|
| R² (R-squared, Коэффициент детерминации) | 1 - (Σ(yᵢ - ŷᵢ)² / Σ(yᵢ - ȳ)²) | Доля дисперсии целевой переменной, объясненная моделью. | Отличная интерпретируемость. Значение от 0 до 1 (может быть отрицательным для плохих моделей). “Модель объясняет X% дисперсии данных”. | Чувствителен к выбросам. Увеличивается при добавлении любых признаков, даже бесполезных. |
| Adjusted R² | 1 - [(1 - R²)(n - 1) / (n - k - 1)] | Скорректированный R², штрафующий за добавление незначимых признаков. | ”Честная” оценка качества модели, учитывающая число предикторов (k). Лучше для сравнения моделей с разным количеством признаков. | Сложнее для вычисления и интерпретации, чем обычный R². |
5. Другие полезные метрики
- Quantile Loss / Pinball Loss: Используется для прогнозирования квантилей (например, 90-й процентили), а не среднего значения. Полезно для оценки интервалов прогноза.
- Huber Loss: Гибрид MAE и MSE. Меньше чувствительна к выбросам, чем MSE, и более гладкая, чем MAE. Имеет параметр дельты, который определяет, когда переключаться с квадратичной на линейную функцию.
- LogCosh Loss: Аппроксимирует Huber Loss, но является гладкой функцией. Вычисляет логарифм гиперболического косинуса ошибки. Менее чувствительна к выбросам, чем MSE.
Сводная таблица по выбору метрики
| Ваша цель | Рекомендуемая метрика |
|---|---|
| Общий случай, простота | MAE |
| Большие ошибки недопустимы | RMSE или MSE |
| Сравнение моделей на разных данных | MAPE, sMAPE, MASE |
| Прогнозирование временных рядов | MASE (лучший выбор), MAPE |
| Оценка объясняющей способности модели | R² / Adjusted R² |
| Данные с большим разбросом (выбросами) | RMSLE, MAE |
| Оценка интервалов прогноза | Quantile Loss |
Главный вывод: Всегда используйте несколько метрик, чтобы получить полную картину. Например, смотрите на MAE для понимания средней ошибки, на RMSE для учета крупных промахов и на R² чтобы понять, насколько хорошо модель уловила закономерности в данных.