Смещение (Bias)

Простое определение

Bias (смещение) — это ошибка, вызванная упрощенными предположениями модели о данных. Это систематическая ошибка, когда модель постоянно ошибается в одном направлении из-за своей чрезмерной простоты.

Аналогия

Представьте, что вы учитесь стрелять в тире. Если вы постоянно попадаете в одну и ту же точку, но эта точка находится далеко от центра мишени, у вас высокое смещение. Ваши выстрелы стабильны (низкий разброс), но систематически смещены от цели.

Математическое определение

Для модели $\hat{f} (x)$ , предсказывающей истинную функцию $f (x)$ , смещение в точке $x$ определяется как:

$Bias [\hat{f} (x)] = E [\hat{f} (x)] - f (x)$

где $E [\hat{f} (x)]$ — математическое ожидание (среднее) предсказаний модели, если бы мы обучали её на разных выборках из одного распределения.

Что такое “высокое смещение” (High Bias)?

Модель слишком проста для сложности данных
Делает сильные предположения о форме зависимости
Недообучение (Underfitting) — не может уловить важные закономерности
Ошибка высокая на обучающих и тестовых данных

Примеры моделей с высоким смещением

Линейная регрессия для данных с нелинейной зависимостью
Логистическая регрессия для сложных нелинейных границ классов
Дерево решений глубиной 1 (пень) для сложной классификации
Наивный Байес (предполагает независимость признаков)

Как выглядит на практике?

Допустим, мы пытаемся предсказать цену дома:

Модель с высоким смещением: Всегда предсказывает среднюю цену по району, игнорируя площадь, этаж, ремонт.

Истинная зависимость: цена = 1000 × площадь + 50000 × (есть ремонт) + шум
Модель: цена = 200000 (константа для всего района)

Как распознать высокое смещение?

Высокая ошибка на обучающей выборке
Кривые обучения сходятся на высоком уровне ошибки
Модель не улучшается с добавлением данных

Как уменьшить смещение?

Увеличить сложность модели:
- Для деревьев: увеличить max_depth
- Для нейросетей: добавить слои/нейроны
- Использовать полиномиальные признаки
Добавить новые признаки (Feature Engineering)
Уменьшить регуляризацию (уменьшить параметры типа alpha, lambda)
Использовать более сложные алгоритмы (градиентный бустинг вместо линейной регрессии)
Увеличить время обучения (для итеративных алгоритмов)

Компромисс с разбросом (Variance)

Ключевой момент: уменьшая смещение, мы обычно увеличиваем разброс, и наоборот.

Низкое смещение: модель сложная, гибкая, может хорошо приближать данные
Высокое смещение: модель простая, жесткая, делает грубые предположения

Интуитивное понимание

Смещение — это ошибка из-за слишком простого взгляда на проблему. Это как если бы врач всегда ставил один диагноз “простуда” независимо от симптомов — иногда угадывает, но часто ошибается из-за упрощенного подхода.

Когда смещение полезно?

Мало данных: простая модель с некоторым смещением может обобщать лучше, чем сложная
Интерпретируемость: линейные модели с смещением легче объяснить
Скорость предсказания: простые модели быстрее работают
Устойчивость к шуму: не переобучаются на выбросы

Bias — это систематическая ошибка упрощения. Модель с высоким смещением похожа на студента, который выучил только общие принципы, но не разбирается в деталях. Он может решать простые задачи, но не справится со сложными, требующими глубокого понимания.

Ключевая мысль: Идеальная модель находит баланс — достаточно сложна, чтобы уловить закономерности (низкое смещение), но достаточно проста, чтобы не подстраиваться под шум (низкий разброс).

LDS