Предпосылки линейной регрессии
Для того чтобы оценка методом наименьших квадратов (МНК) была наилучшей линейной несмещенной оценкой (BLUE - Best Linear Unbiased Estimator), должны выполняться следующие предпосылки Гаусса-Маркова, а также предположение о нормальности ошибок для проведения статистических тестов.
1. Линейность параметров
Связь между зависимой переменной и регрессорами является линейной по параметрам .
Это не исключает наличие нелинейных членов (например, ), но модель должна быть линейна относительно коэффициентов .
2. Случайность выборки и нулевое математическое ожидание ошибок
Наблюдения представляют собой случайную выборку из генеральной совокупности. При этом условное математическое ожидание ошибки равно нулю.
Это означает, что модель правильно специфицирована и нет систематической ошибки (omitted variable bias). Любая информация, которая могла бы объяснить , уже содержится в .
3. Отсутствие совершенной мультиколлинеарности
Ни одна из независимых переменных не является константой, и между независимыми переменными нет строгой линейной зависимости.
Если это условие нарушается (например, одна переменная является точной линейной комбинацией других), матрица становится вырожденной, и невозможно найти единственное решение для коэффициентов .
4. Гомоскедастичность
Условная дисперсия ошибки постоянна для всех наблюдений и не зависит от значений .
Нарушение этого условия (гетероскедастичность) не делает оценки коэффициентов смещенными, но они перестают быть эффективными (минимальная дисперсия), и стандартные ошибки становятся несостоятельными.
5. Отсутствие автокорреляции
Ошибки и не коррелированы друг с другом для любых .
Это условие критически важно для временных рядов, где последующие наблюдения часто зависят от предыдущих.
6. Нормальность ошибок (для статистических выводов)
Для проведения точных статистических тестов (t-тестов, F-тестов) и построения доверительных интервалов в рамках малых выборок, ошибки должны быть нормально распределены.
В больших выборках это условие часто ослабевает благодаря Центральной Предельной Теореме.
Краткое резюме последствий нарушений:
- Нарушение линейности: Оценки смещены и несостоятельны.
- Нарушение : Оценки смещены и несостоятельны (проблема пропущенных переменных).
- Нарушение гомоскедастичности: Оценки несмещены, но неэффективны; неверные стандартные ошибки.
- Нарушение отсутствия автокорреляции: Оценки несмещены, но неэффективны; неверные стандартные ошибки.
- Нарушение отсутствия мультиколлинеарности: Невозможно оценить модель.
- Нарушение нормальности: Проблемы с малыми выборками; тесты и интервалы неточны.