Дисперсионный анализ (ANOVA) — это статистический метод, используемый для сравнения средних значений трех или более групп и определения того, существуют ли статистически значимые различия между ними.
Основная идея
ANOVA проверяет, объясняется ли вариация в данных:
- Различиями между группами (систематическая вариация)
- Случайными колебаниями внутри групп (случайная вариация)
Основные компоненты ANOVA
Общая вариация (Total Sum of Squares - SST)
Вариация между группами (Between-Group Sum of Squares - SSB)
Вариация внутри групп (Within-Group Sum of Squares - SSW)
где:
- — количество групп
- — количество наблюдений в -й группе
- — -е наблюдение в -й группе
- — среднее -й группы
- — общее среднее
Основное равенство ANOVA
Односторонний ANOVA (One-Way ANOVA)
Используется когда:
- Один фактор (независимая переменная)
- Три или более групп
- Зависимая переменная количественная
Гипотезы:
- (все средние равны)
- :хотя бы одно среднее отличается
Таблица ANOVA
| Источник вариации | Сумма квадратов (SS) | Степени свободы (df) | Средний квадрат (MS) | F-статистика |
|---|---|---|---|---|
| Между группами | SSB | k-1 | MSB = \frac{SSB}{k-1} | F = \frac{MSB}{MSW} |
| Внутри групп | SSW | N-k | MSW = \frac{SSW}{N-k} | |
| Общая | SST | N-1 |
где — общее количество наблюдений
F-статистика
Если F > Fкрит или p-value < α → отвергаем H₀
Предпосылки ANOVA
1. Независимость наблюдений
Наблюдения внутри и между группами должны быть независимыми.
2. Нормальность распределения
Данные в каждой группе должны быть нормально распределены:
3. Гомогенность дисперсий (гомоскедастичность)
Дисперсии во всех группах должны быть равны:
Проверка предпосылок
Проверка нормальности:
- Тест Шапиро-Уилка
- Q-Q plot
Проверка гомогенности дисперсий:
- Тест Левена (Levene’s test)
- Тест Бартлетта (Bartlett’s test)
Многофакторный ANOVA
Двухфакторный ANOVA
Исследует влияние двух факторов и их взаимодействия:
где:
- — общее среднее
- — эффект i-го уровня фактора A
- — эффект j-го уровня фактора B
- (— эффект взаимодействия
- — случайная ошибка
Пост-хок тесты (Post-hoc tests)
Если ANOVA показывает значимые различия, проводятся дополнительные тесты для определения, какие именно группы различаются:
Популярные методы:
- Тьюки (Tukey HSD) — для всех попарных сравнений
- Бонферрони (Bonferroni) — консервативный метод
- Шеффе (Scheffe) — самый консервативный
Непараметрические альтернативы
При нарушении предпосылок ANOVA:
Вместо одностороннего ANOVA:
- Тест Крускала-Уоллиса (Kruskal-Wallis)
Вместо двухфакторного ANOVA:
- Тест Фридмана (Friedman)
Связь с другими методами
С t-тестом:
- t-тест — частный случай ANOVA для 2 групп
- при сравнении двух групп
С регрессионным анализом:
ANOVA можно представить как специальный случай линейной регрессии с категориальными предикторами.
Ключевые преимущества
- Эффективность — один тест вместо множества попарных сравнений
- Снижение ошибки I рода — при множественных сравнениях
- Выявление взаимодействий — в многофакторном ANOVA
Ограничения
- Чувствительность к нарушениям предпосылок
- Не показывает, какие именно группы различаются (требуются пост-хок тесты)
- Требует планирования эксперимента
Дисперсионный анализ — мощный инструмент для сравнения средних в экспериментальных исследованиях, широко используемый в психологии, медицине, биологии и социальных науках.