Центральная предельная теорема (ЦПТ) — это одно из самых важных и фундаментальных положений теории вероятностей и статистики. Ее часто называют “великой теоремой” из-за ее огромной практической значимости.

Если говорить простыми словами:

Независимо от того, какую странную или неизвестную форму имеет распределение отдельных данных, средние значения многих выборок из этого распределения будут иметь нормальное распределение (распределение Гаусса, “колокол”), при условии, что выборки достаточно велики.


Ключевая идея на примере

Представьте, что вы многократно подбрасываете игральную кость.

  • Исходное распределение: Результат одного броска — равномерное распределение. Вероятность выпадения 1, 2, 3, 4, 5 или 6 одинакова.
  • Теперь давайте проводить не один бросок, а, скажем, 5 бросков (объем выборки ), вычислять их среднее арифметическое и записывать его.
  • Мы повторяем эту процедуру (бросаем 5 костей, считаем среднее) тысячи раз.

Что покажет гистограмма этих тысяч средних значений?

Согласно ЦПТ, она будет иметь форму нормального распределения (“колокола”), центрированного вокруг теоретического среднего .

Если мы увеличим объем выборки до (30 бросков для вычисления одного среднего), то “колокол” станет еще уже и симметричнее.


Формальная формулировка

Пусть есть независимые и одинаково распределенные случайные величины (например, результаты отдельных измерений или бросков) с:

  • Конечным математическим ожиданием
  • Конечной дисперсией

Тогда при стремлении объема выборки к бесконечности, распределение их стандартизированного выборочного среднего стремится к стандартному нормальному распределению .

где:

  • — выборочное среднее.
  • — теоретическое среднее генеральной совокупности.
  • — стандартное отклонение генеральной совокупности.
  • — объем выборки.

Что это значит на практике?

  • Среднее распределения выборочных средних () равно среднему исходной совокупности ().
  • Стандартное отклонение распределения выборочных средних (его называют стандартная ошибка среднего) равно . Это значит, что разброс средних уменьшается с ростом размера выборки.
  • Форма распределения становится нормальной.

Почему Центральная Предельная Теорема так важна?

ЦПТ — это основа всей классической статистики. Она позволяет делать выводы о популяции, даже когда мы ничего не знаем о ее исходном распределении.

  1. Статистический вывод и доверительные интервалы: Мы можем оценить параметры всей генеральной совокупности (например, средний рост всех жителей страны), взяв лишь одну выборку. Зная, что выборочное среднее распределено нормально, мы можем построить доверительный интервал для неизвестного среднего .

    • “Средний рост в нашей выборке из 1000 человек — 175 см. С вероятностью 95% средний рост по стране лежит в интервале 175 ± 3 см.”
  2. Проверка статистических гипотез: Многие статистические тесты (t-тест, ANOVA) прямо опираются на предположение о нормальности распределения. ЦПТ позволяет применять эти тесты к данным, не являющимся нормальными, если размер выборки достаточно велик.

  3. Машинное обучение и Data Science: Многие алгоритмы (например, линейные модели) предполагают, что ошибки распределены нормально. ЦПТ часто служит теоретическим обоснованием этого предположения.

  4. Контроль качества: На производстве с помощью контрольных карт Шухарта отслеживают стабильность процесса. Эти карты основаны на свойствах нормального распределения, которое, в свою очередь, возникает благодаря ЦПТ для выборочных средних.


Важные нюансы и ограничения

  1. “Достаточно большое” n: Какой объем выборки считать “достаточно большим”? Это зависит от исходного распределения.

    • Если исходное распределение само близко к нормальному (например, рост людей), то ЦПТ работает хорошо даже для малых (10-30).
    • Если исходное распределение сильно асимметричное или имеет выбросы (например, доходы населения), может потребоваться или даже больше.
  2. Конечные среднее и дисперсия: Теорема работает только если у исходных данных существуют и не бесконечны математическое ожидание () и дисперсия (). Для распределений с “тяжелыми хвостами” (например, распределение Коши) ЦПТ не применима.

  3. Независимость и одинаковость: Наблюдения в выборке должны быть независимыми и взятыми из одного и того же распределения.

Сравнение с Законом Больших Чисел (ЗБЧ)

Это часто вызывает путаницу, но эти теоремы дополняют друг друга:

  • Закон больших чисел: Говорит, к чему стремится выборочное среднее. (). Это закон о сходимости значения.
  • Центральная Предельная Теорема: Говорит, как распределено выборочное среднее вокруг предела. (). Это закон о распределении.

Итог

Центральная предельная теорема — это математическое обоснование того, почему нормальное распределение встречается в природе так часто. Оно возникает всякий раз, когда на результат влияет сумма множества небольших и независимых случайных факторов. Это мост между миром сырых данных и миром статистических выводов, позволяющий нам делать надежные предсказания на основе ограниченной информации.