Дисперсионный анализ (ANOVA) — это статистический метод, используемый для сравнения средних значений трех или более групп и определения того, существуют ли статистически значимые различия между ними.

Основная идея

ANOVA проверяет, объясняется ли вариация в данных:

  • Различиями между группами (систематическая вариация)
  • Случайными колебаниями внутри групп (случайная вариация)

Основные компоненты ANOVA

Общая вариация (Total Sum of Squares - SST)

Вариация между группами (Between-Group Sum of Squares - SSB)

Вариация внутри групп (Within-Group Sum of Squares - SSW)

где:

  • — количество групп
  • — количество наблюдений в -й группе
  • -е наблюдение в -й группе
  • — среднее -й группы
  • — общее среднее

Основное равенство ANOVA

Односторонний ANOVA (One-Way ANOVA)

Используется когда:

  • Один фактор (независимая переменная)
  • Три или более групп
  • Зависимая переменная количественная

Гипотезы:

  • (все средние равны)
  • :хотя бы одно среднее отличается

Таблица ANOVA

Источник вариацииСумма квадратов (SS)Степени свободы (df)Средний квадрат (MS)F-статистика
Между группамиSSBk-1MSB = \frac{SSB}{k-1}F = \frac{MSB}{MSW}
Внутри группSSWN-kMSW = \frac{SSW}{N-k}
ОбщаяSSTN-1

где — общее количество наблюдений

F-статистика

Если F > Fкрит или p-value < α → отвергаем H₀

Предпосылки ANOVA

1. Независимость наблюдений

Наблюдения внутри и между группами должны быть независимыми.

2. Нормальность распределения

Данные в каждой группе должны быть нормально распределены:

3. Гомогенность дисперсий (гомоскедастичность)

Дисперсии во всех группах должны быть равны:

Проверка предпосылок

Проверка нормальности:

  • Тест Шапиро-Уилка
  • Q-Q plot

Проверка гомогенности дисперсий:

  • Тест Левена (Levene’s test)
  • Тест Бартлетта (Bartlett’s test)

Многофакторный ANOVA

Двухфакторный ANOVA

Исследует влияние двух факторов и их взаимодействия:

где:

  • — общее среднее
  • — эффект i-го уровня фактора A
  • — эффект j-го уровня фактора B
  • (— эффект взаимодействия
  • — случайная ошибка

Пост-хок тесты (Post-hoc tests)

Если ANOVA показывает значимые различия, проводятся дополнительные тесты для определения, какие именно группы различаются:

Популярные методы:

  • Тьюки (Tukey HSD) — для всех попарных сравнений
  • Бонферрони (Bonferroni) — консервативный метод
  • Шеффе (Scheffe) — самый консервативный

Непараметрические альтернативы

При нарушении предпосылок ANOVA:

Вместо одностороннего ANOVA:

  • Тест Крускала-Уоллиса (Kruskal-Wallis)

Вместо двухфакторного ANOVA:

  • Тест Фридмана (Friedman)

Связь с другими методами

С t-тестом:

  • t-тест — частный случай ANOVA для 2 групп
  • при сравнении двух групп

С регрессионным анализом:

ANOVA можно представить как специальный случай линейной регрессии с категориальными предикторами.

Ключевые преимущества

  1. Эффективность — один тест вместо множества попарных сравнений
  2. Снижение ошибки I рода — при множественных сравнениях
  3. Выявление взаимодействий — в многофакторном ANOVA

Ограничения

  1. Чувствительность к нарушениям предпосылок
  2. Не показывает, какие именно группы различаются (требуются пост-хок тесты)
  3. Требует планирования эксперимента

Дисперсионный анализ — мощный инструмент для сравнения средних в экспериментальных исследованиях, широко используемый в психологии, медицине, биологии и социальных науках.