Простое определение
Bias (смещение) — это ошибка, вызванная упрощенными предположениями модели о данных. Это систематическая ошибка, когда модель постоянно ошибается в одном направлении из-за своей чрезмерной простоты.
Аналогия
Представьте, что вы учитесь стрелять в тире. Если вы постоянно попадаете в одну и ту же точку, но эта точка находится далеко от центра мишени, у вас высокое смещение. Ваши выстрелы стабильны (низкий разброс), но систематически смещены от цели.
Математическое определение
Для модели , предсказывающей истинную функцию , смещение в точке определяется как:
где — математическое ожидание (среднее) предсказаний модели, если бы мы обучали её на разных выборках из одного распределения.
Что такое “высокое смещение” (High Bias)?
- Модель слишком проста для сложности данных
- Делает сильные предположения о форме зависимости
- Недообучение (Underfitting) — не может уловить важные закономерности
- Ошибка высокая на обучающих и тестовых данных
Примеры моделей с высоким смещением
- Линейная регрессия для данных с нелинейной зависимостью
- Логистическая регрессия для сложных нелинейных границ классов
- Дерево решений глубиной 1 (пень) для сложной классификации
- Наивный Байес (предполагает независимость признаков)
Как выглядит на практике?
Допустим, мы пытаемся предсказать цену дома:
Модель с высоким смещением: Всегда предсказывает среднюю цену по району, игнорируя площадь, этаж, ремонт.
Истинная зависимость: цена = 1000 × площадь + 50000 × (есть ремонт) + шум
Модель: цена = 200000 (константа для всего района)
Как распознать высокое смещение?
- Высокая ошибка на обучающей выборке
- Кривые обучения сходятся на высоком уровне ошибки
- Модель не улучшается с добавлением данных
Как уменьшить смещение?
- Увеличить сложность модели:
- Для деревьев: увеличить
max_depth - Для нейросетей: добавить слои/нейроны
- Использовать полиномиальные признаки
- Для деревьев: увеличить
- Добавить новые признаки (Feature Engineering)
- Уменьшить регуляризацию (уменьшить параметры типа
alpha,lambda) - Использовать более сложные алгоритмы (градиентный бустинг вместо линейной регрессии)
- Увеличить время обучения (для итеративных алгоритмов)
Компромисс с разбросом (Variance)
Ключевой момент: уменьшая смещение, мы обычно увеличиваем разброс, и наоборот.
- Низкое смещение: модель сложная, гибкая, может хорошо приближать данные
- Высокое смещение: модель простая, жесткая, делает грубые предположения
Интуитивное понимание
Смещение — это ошибка из-за слишком простого взгляда на проблему. Это как если бы врач всегда ставил один диагноз “простуда” независимо от симптомов — иногда угадывает, но часто ошибается из-за упрощенного подхода.
Когда смещение полезно?
- Мало данных: простая модель с некоторым смещением может обобщать лучше, чем сложная
- Интерпретируемость: линейные модели с смещением легче объяснить
- Скорость предсказания: простые модели быстрее работают
- Устойчивость к шуму: не переобучаются на выбросы
Bias — это систематическая ошибка упрощения. Модель с высоким смещением похожа на студента, который выучил только общие принципы, но не разбирается в деталях. Он может решать простые задачи, но не справится со сложными, требующими глубокого понимания.
Ключевая мысль: Идеальная модель находит баланс — достаточно сложна, чтобы уловить закономерности (низкое смещение), но достаточно проста, чтобы не подстраиваться под шум (низкий разброс).