Предпосылки линейной регрессии

Для того чтобы оценка методом наименьших квадратов (МНК) была наилучшей линейной несмещенной оценкой (BLUE - Best Linear Unbiased Estimator), должны выполняться следующие предпосылки Гаусса-Маркова, а также предположение о нормальности ошибок для проведения статистических тестов.

1. Линейность параметров

Связь между зависимой переменной и регрессорами является линейной по параметрам .

Это не исключает наличие нелинейных членов (например, ), но модель должна быть линейна относительно коэффициентов .

2. Случайность выборки и нулевое математическое ожидание ошибок

Наблюдения представляют собой случайную выборку из генеральной совокупности. При этом условное математическое ожидание ошибки равно нулю.

Это означает, что модель правильно специфицирована и нет систематической ошибки (omitted variable bias). Любая информация, которая могла бы объяснить , уже содержится в .

3. Отсутствие совершенной мультиколлинеарности

Ни одна из независимых переменных не является константой, и между независимыми переменными нет строгой линейной зависимости.

Если это условие нарушается (например, одна переменная является точной линейной комбинацией других), матрица становится вырожденной, и невозможно найти единственное решение для коэффициентов .

4. Гомоскедастичность

Условная дисперсия ошибки постоянна для всех наблюдений и не зависит от значений .

Нарушение этого условия (гетероскедастичность) не делает оценки коэффициентов смещенными, но они перестают быть эффективными (минимальная дисперсия), и стандартные ошибки становятся несостоятельными.

5. Отсутствие автокорреляции

Ошибки и не коррелированы друг с другом для любых .

Это условие критически важно для временных рядов, где последующие наблюдения часто зависят от предыдущих.

6. Нормальность ошибок (для статистических выводов)

Для проведения точных статистических тестов (t-тестов, F-тестов) и построения доверительных интервалов в рамках малых выборок, ошибки должны быть нормально распределены.

В больших выборках это условие часто ослабевает благодаря Центральной Предельной Теореме.

Краткое резюме последствий нарушений:

  • Нарушение линейности: Оценки смещены и несостоятельны.
  • Нарушение : Оценки смещены и несостоятельны (проблема пропущенных переменных).
  • Нарушение гомоскедастичности: Оценки несмещены, но неэффективны; неверные стандартные ошибки.
  • Нарушение отсутствия автокорреляции: Оценки несмещены, но неэффективны; неверные стандартные ошибки.
  • Нарушение отсутствия мультиколлинеарности: Невозможно оценить модель.
  • Нарушение нормальности: Проблемы с малыми выборками; тесты и интервалы неточны.