Краткое определение
Теорема Байеса — это фундаментальное правило в теории вероятностей, которое позволяет пересматривать наши убеждения (вероятности гипотез) при поступлении новых данных (доказательств).
Проще говоря, она отвечает на вопрос: “Если мы наблюдаем некое событие, какова вероятность того, что оно было вызвано конкретной причиной?”
Формула и ее составляющие
Классическая формула Байеса выглядит так:
P(A|B) = [ P(B|A) * P(A) ] / P(B)
Давайте расшифруем каждую часть:
-
P(A|B) — Апостериорная вероятность (Posterior Probability).
- Что это: Вероятность гипотезы A после того, как мы учли доказательство B.
- Это то, что мы хотим найти.
-
P(A) — Априорная вероятность (Prior Probability).
- Что это: Наша первоначальная оценка вероятности гипотезы A до того, как мы увидели доказательство B. Это наше “исходное предположение”.
-
P(B|A) — Правдоподобие (Likelihood).
- Что это: Вероятность увидеть доказательство B при условии, что гипотеза A верна.
-
P(B) — Свидетельство (Evidence) или полная вероятность.
- Что это: Общая вероятность наступления доказательства B при всех возможных гипотезах. Эту величину часто вычисляют через сумму: .
Ключевая идея на простом примере (Медицинский тест)
Представьте, что есть болезнь, которой болеет 1% населения (P(Болезнь) = 0.01). Существует тест на эту болезнь с точностью 90%.
- Чувствительность теста P(Тест+|Болезнь) = 0.90: Если человек болен, тест будет положительным с вероятностью 90%.
- Специфичность теста P(Тест-|Здоров) = 0.90: Если человек здоров, тест будет отрицательным с вероятностью 90%. Соответственно, вероятность ложноположительного результата P(Тест+|Здоров) = 0.10.
Вопрос: Человек сделал тест, и он положительный. Какова вероятность, что он действительно болен? То есть, чему равна P(Болезнь|Тест+)?
Большинство людей скажут “90%“. Но это неверно! Давайте посчитаем с помощью теоремы Байеса.
-
Определяем гипотезу и доказательство:
- A: Человек болен (Болезнь).
- B: Тест положительный (Тест+).
-
Подставляем в формулу:
- P(Болезнь|Тест+) = [ P(Тест+|Болезнь) * P(Болезнь) ] / P(Тест+)
-
Считаем P(Тест+) — общую вероятность положительного теста:
- Положительный тест может быть у больных и у здоровых.
- P(Тест+) = P(Тест+|Болезнь) * P(Болезнь) + P(Тест+|Здоров) * P(Здоров)
- P(Тест+) = (0.90 * 0.01) + (0.10 * 0.99) = 0.009 + 0.099 = 0.108
-
Подставляем все значения в формулу:
- P(Болезнь|Тест+) = (0.90 * 0.01) / 0.108
- P(Болезнь|Тест+) = 0.009 / 0.108 ≈ 0.083 (или 8.3%)
Вывод: Несмотря на положительный тест с точностью 90%, вероятность реально иметь болезнь составляет всего около 8.3%. Почему? Потому что болезнь сама по себе очень редкая (всего 1% больных), и количество ложноположительных результатов (10% от 99% здоровых) оказывается больше, чем количество истинно положительных.
Значение и применение
Теорема Байеса — это не просто математическая формула, а философия мышления.
- Байесовский подход: Знание — это не абсолютная истина, а непрерывный процесс обновления наших убеждений по мере поступления новых данных.
- Области применения:
- Машинное обучение: Спам-фильтры, рекомендательные системы, диагностика.
- Медицина: Постановка диагноза на основе симптомов и тестов.
- Финансы: Оценка рисков инвестиций.
- Юриспруденция: Оценка доказательств в суде.
- ИИ: Принятие решений в условиях неопределенности.
Итог
Теорема Байеса — это мощный инструмент для работы с неопределенностью. Она формализует интуитивный процесс обучения на основе опыта: мы начинаем с некоторого предположения (априорная вероятность), получаем новые данные (доказательства) и обновляем наше предположение, получая уточненную оценку (апостериорная вероятность).