1. Основные метрики на основе абсолютных и квадратичных ошибок

Это “рабочие лошадки” регрессии, близкие родственники MAE (Mean Absolute Error) и RMSE (Root Mean Square Error).

МетрикаФормулаСутьПлюсыМинусы
MSE (Mean Squared Error)Σ(yᵢ - ŷᵢ)² / nСреднеквадратичная ошибка. Это просто квадрат RMSE.Легко вычисляется, имеет отличные математические свойства для оптимизации.Сильно зависит от выбросов. Не интерпретируется в исходных единицах.
RMSLE√[ Σ(log(yᵢ +1) - log(ŷᵢ +1))² / n ]RMSE от логарифмов. Считает ошибку в логарифмической шкале.Нечувствительна к большим выбросам. Хороша, когда важна точность предсказания и малых, и больших значений (например, прогноз продаж). Штрафует за недооценку сильнее, чем за переоценку.Сложнее для интерпретации.

2. Относительные ошибки (в процентах)

Эти метрики универсальны и позволяют сравнивать модели на разных наборах данных с разными масштабами.

МетрикаФормулаСутьПлюсыМинусы
MAPE(Σ |(yᵢ - ŷᵢ)/yᵢ| / n) * 100%Средняя абсолютная процентная ошибка.Очень популярна и легко интерпретируется. “В среднем модель ошибается на X%“. Позволяет сравнивать модели для разных задач.Не определена, если yᵢ = 0. Сильно штрафует за ошибки прогноза для малых значений. Асимметрична: ошибка превышения ограничена 100%, а ошибка занижения — нет.
sMAPE(Σ 2 * |yᵢ - ŷᵢ| / (|yᵢ| + |ŷᵢ|) / n) * 100%Симметричная MAPE.Исправляет асимметрию MAPE, симметрична относительно занижения и завышения.Может быть нестабильной, когда и yᵢ, и ŷᵢ близки к нулю.
MAPE(Σ |(yᵢ - ŷᵢ)| / Σ |yᵢ| ) * 100%Средняя абсолютная процентная ошибка от общего объема.Решает проблему с нулевыми значениями и асимметрией обычной MAPE. Более устойчива.Менее распространена, чем классическая MAPE.

3. Масштабированные ошибки

Позволяют сравнивать прогнозы разных временных рядов, так как ошибка нормализуется.

МетрикаФормулаСутьПлюсыМинусы
MASE (Mean Absolute Scaled Error)MAE / (Σ |yᵢ - yᵢ₋₁| / (n-1))Средняя абсолютная масштабированная ошибка.Одна из лучших и самых надежных метрик для временных рядов. Сравнивает ошибку вашей модели с ошибкой наивного прогноза (“завтра будет как сегодня”).
MASE < 1: модель лучше наивного прогноза.
MASE > 1: модель хуже наивного прогноза.
Менее интуитивна, чем MAPE, для не-статистиков.

4. Метрики, связанные с дисперсией (для интерпретации модели)

Эти метрики показывают, насколько хорошо модель объясняет variance в данных.

МетрикаФормулаСутьПлюсыМинусы
(R-squared, Коэффициент детерминации)1 - (Σ(yᵢ - ŷᵢ)² / Σ(yᵢ - ȳ)²)Доля дисперсии целевой переменной, объясненная моделью.Отличная интерпретируемость. Значение от 0 до 1 (может быть отрицательным для плохих моделей). “Модель объясняет X% дисперсии данных”.Чувствителен к выбросам. Увеличивается при добавлении любых признаков, даже бесполезных.
Adjusted R²1 - [(1 - R²)(n - 1) / (n - k - 1)]Скорректированный R², штрафующий за добавление незначимых признаков.”Честная” оценка качества модели, учитывающая число предикторов (k). Лучше для сравнения моделей с разным количеством признаков.Сложнее для вычисления и интерпретации, чем обычный R².

5. Другие полезные метрики

  • Quantile Loss / Pinball Loss: Используется для прогнозирования квантилей (например, 90-й процентили), а не среднего значения. Полезно для оценки интервалов прогноза.
  • Huber Loss: Гибрид MAE и MSE. Меньше чувствительна к выбросам, чем MSE, и более гладкая, чем MAE. Имеет параметр дельты, который определяет, когда переключаться с квадратичной на линейную функцию.
  • LogCosh Loss: Аппроксимирует Huber Loss, но является гладкой функцией. Вычисляет логарифм гиперболического косинуса ошибки. Менее чувствительна к выбросам, чем MSE.

Сводная таблица по выбору метрики

Ваша цельРекомендуемая метрика
Общий случай, простотаMAE
Большие ошибки недопустимыRMSE или MSE
Сравнение моделей на разных данныхMAPE, sMAPE, MASE
Прогнозирование временных рядовMASE (лучший выбор), MAPE
Оценка объясняющей способности модели / Adjusted R²
Данные с большим разбросом (выбросами)RMSLE, MAE
Оценка интервалов прогнозаQuantile Loss

Главный вывод: Всегда используйте несколько метрик, чтобы получить полную картину. Например, смотрите на MAE для понимания средней ошибки, на RMSE для учета крупных промахов и на чтобы понять, насколько хорошо модель уловила закономерности в данных.