Дрейф концепта (Concept Drift) — это явление, когда статистическая зависимость между входными данными (признаками) и целевой переменной (тем, что мы предсказываем) изменяется во времени.

Проще говоря, меняются сами “правила игры”, которые модель когда-то выучила.


Ключевая идея

Представьте, что вы учите ребенка различать “хорошо” и “плохо”:

  • В 1990 году: Курение в кинотеатре — это нормально (“хорошо”).
  • В 2024 году: Курение в кинотеатре — это запрещено и осуждается (“плохо”).

Сам признак “курение в кинотеатре” остался тем же, но его смысл и последствия изменились. Это и есть дрейф концепта.


Формальное определение

Если обозначить:

  • X — признаки (features)
  • Y — целевая переменная (target)
  • P(Y|X) — условная вероятность (распределение Y при заданных X)

То дрейф концепта происходит, когда P(Y|X) изменяется во времени.

В чем отличие от дрейфа данных?

Это критически важное различие:

АспектДрейф данных (Data Drift)Дрейф концепта (Concept Drift)
Что меняется?Распределение входных признаков (X)Связь между X и Y
АналогияИгроки на поле поменяли форму. Вам сложнее их узнать.Изменились правила игры. Даже те же игроки в той же форме теперь играют по-другому.
МатематическиP(X) изменяется`P(Y
ПримерКлиенты банка стали моложеКлиенты с тем же кредитным баллом стали чаще defaultsить из-за кризиса

Типы дрейфа концепта

1. Внезапный дрейф (Sudden/Abrupt)

  • Резкое, одномоментное изменение правил
  • Пример: Введение нового закона, который мгновенно изменил правила кредитования.

2. Постепенный дрейф (Gradual)

  • Медленное замещение старой концепции новой
  • Пример: Постепенное изменение потребительских предпочтений от классической музыки к электронной.

3. Инкрементальный дрейф (Incremental)

  • Концепция плавно трансформируется через промежуточные состояния
  • Пример: Постепенная адаптация спам-фильтров к новым тактикам спамеров.

4. Повторяющийся дрейф (Recurring/Seasonal)

  • Концепция периодически возвращается к предыдущим состояниям
  • Пример:
    • Зима: Покупка теплой одежды → “хорошая” покупка
    • Лето: Покупка теплой одежды → “странная” покупка
    • Следующая зима: Снова “хорошая” покупка

Практические примеры

Пример 1: Кредитный скоринг

  • 2019 год (обучение модели): Клиенты с доходом $5000/мес имели вероятность defaultsа 1%.
  • 2023 год (кризис): Те же клиенты с доходом $5000/мес имеют вероятность defaultsа 10%.
  • Что произошло: Связь между признаком “доход” и целевой переменной “дефолт” изменилась. Это дрейф концепта.

Пример 2: Медицинская диагностика

  • Прошлое: Определенный набор симптомов означал заболевание А.
  • Настоящее: Появился новый штамм вируса, и те же симптомы теперь означают заболевание Б.
  • Что произошло: Связь между симптомами (X) и диагнозом (Y) изменилась.

Пример 3: Рекомендательные системы

  • До пандемии: Пользователи чаще покупали офисную одежду.
  • Во время пандемии: Те же пользователи стали покупать домашнюю одежду.
  • Что произошло: Связь между профилем пользователя (X) и его предпочтениями (Y) изменилась.

Как обнаруживают дрейф концепта?

Обнаружить дрейф концепта сложнее, чем дрейф данных, потому что настоящие значения Y (целевой переменной) часто становятся доступны с задержкой.

Основные методы:

  1. Мониторинг метрик качества модели:

    • Резкое падение accuracy, precision, recall, F1-score
    • Рост ошибок предсказания
  2. Статистические тесты:

    • Тесты, сравнивающие распределение предсказаний модели
    • Тесты, сравнивающие распределение ошибок
  3. Специализированные алгоритмы:

    • DDM (Drift Detection Method) — отслеживает рост частоты ошибок
    • ADWIN (Adaptive Windowting) — автоматически подбирает размер окна данных
    • Page-Hinkley test — обнаруживает изменения в среднем значении

Что делать при обнаружении дрейфа концепта?

  1. Переобучение модели на актуальных данных — самый распространенный подход
  2. Адаптивные модели (online learning), которые постоянно обновляются
  3. Ансамбли моделей, где новые модели постепенно заменяют старые
  4. Обновление feature engineering — возможно, нужны новые признаки, чтобы捕捉ить изменившуюся реальность

Краткий итог

Дрейф концепта — это когда “правила игры” меняются:

  • Меняется смысл признаков, а не сами признаки
  • То, что раньше было хорошим прогнозом, теперь стало плохим
  • Это более коварная проблема, чем дрейф данных
  • Требует постоянного мониторинга и адаптации моделей

Фраза для запоминания: “При дрейфе данных мир выглядит по-другому. При дрейфе концепта мир ведет себя по-другому”.