Мультиколлинеарность (Multicollinearity)

Мультиколлинеарность — это явление, при котором одна из входных переменных статистической модели (например, множественной линейной регрессии) линейно зависит от других входных переменных, т.е. между ними наблюдается сильная корреляция. В этой ситуации оценки коэффициентов (параметров) модели могут случайно и значительно изменяться даже при небольших изменениях в исходных данных, т.е. решение становится неустойчивым.

При этом возможны два случая:

Полная коллинеарность — имеет место, если между входными переменными присутствует функциональная зависимость (например если одна переменная — зарплата сотрудника в рублях, а другая — в долларах). Если модель содержит две входных переменных $x_{1}$ и $x_{2}$ , то линейная функциональная зависимость между ними может иметь вид $x_{2} = b \cdot x_{1}$ , где $b$ — константа. В этой ситуации оказывается, что в двумерном пространстве признаков вектор решения оказывается не единственным, а решение образует целую прямую, каждая точка которой представляет собой истинный вектор параметров модели. Такая модель принципиально неидентифицируема. Проблема полной коллинеарности может быть решена только путём соответствующей организации формирования выборки и отбора переменных.
Мультиколлениарность — возникает когда зависимость между входными переменными не функциональная, а статистическая, т.е. имеет место сильная корреляция. Если полная коллинеарность вызывает неопределенность значений параметров модели, то мультиколлинеарность приводит к неустойчивости их оценок, которая выражается в увеличении статистической неопределенности и росту их дисперсии. На практике, это приводит к тому что оценки могут сильно изменяться даже при незначительных изменениях в исходных данных.

Для пояснения сказанного рассмотрим модель множественной линейной регрессии с двумя переменными:

$y = a_{0} + a_{1} x_{1} + a_{2} x_{2}$ .

Из теории метода наименьших квадратов известно, что

$σ_{a_{1}}^{2} ≃ \frac{1}{(1 - r^{2})}$ ,

т.е. дисперсия оценки параметра $a_{1}$ растёт при увеличении коэффициента корреляции $r$ между переменными. И когда $r \to 1$ дисперсия оценки стремится к бесконечности. Когда $r = 1$ между переменными $x_{1}$ и $x_{2}$ возникает функциональная зависимость и модель становится неопределённой (имеет место полная коллинеараность).

Чтобы избежать проблем, связанных с мультиколлинеарностью при построении регрессионных моделей, её наличие необходимо сначала обнаружить. Признаками мультколлинеарности могут быть:

Высокие стандартные ошибки оценок параметров модели.
Низкая значимость оценок параметров модели при том, что вся модель признаётся статистически значимой.
Значительные изменения оценок параметров модели при изменении в выборке.
В корреляционной матрице входных переменных присутствуют большие значения коэффициентов парной корреляции (0.7 и более).
Знаки коэффициентов регрессии противоречат бизнес-логике задачи.

В простейшем случае для решения проблемы мультиколлинерности можно попытаться исключить попадание в выборку зависимых признаков. Но этот метод не всегда приводит к желаемым результатам, поэтому на практике чаще используются различные методы декорреляции переменных, например, метод главных компонент. В результате вместо исходного набора признаков получается набор ортогональных, т.е. статистически независимых факторов. Недостатком здесь является проблема их интерпретации.

В Loginom существует инструменты для выявления мультиколлинеарности и борьбы с ней. Так, специализированный обработчик Корреляционный анализ позволяет производить расчёт коэффициентов корреляции между признаками набора данных. В обработчике Факторный анализ можно производить декорреляцию признаков с помощью метода главных компонент.