-
정의
- 상관관계가 매우 높은 독립변수들이 동시에 모델에 포함될 때 발생
-
문제
- 같은 변수를 두 번 넣은 것임
- 최소제곱법 계산이 어려워짐.
- 회귀 계수를 구할 때, Standard Error가 비정상적으로 커지고, t-test statistic이 작아지고, p-value가 커지면서 유의하지 않다는 결론이 나옴.
-
확인
- 1) 상관계수와 scatter plot 등 시각화를 해서 확인해봄.
- 2) Tolerance 확인: 둘 중 하나를 종속변수로 놓고 회귀분석을 진행해서 R^2 값을 구하여 나온 (1-R^2) 값. 0이면 두 변수의 다중공선성이 심각함을 의미한다.
- 3) VIF(Variance Inflation Factor): 1 / Tolerance
- 연속형 변수는 10 이상, 더미변수는 3 이상일 때 다중공선성을 의심해야한다.
-
해결
- 다중공선성이 큰 변수가 유의한지 확인해야함. 도메인 지식이 중요함.
- 둘 중 하나를 제거한다.
- PCA를 통해 변수를 재조합한다.
※ 선형 모델에서 다중공선성의 문제는 심각함.
- 하지만 비선형인 Tree 기반 모델, 딥러닝에서도 문제가 될 수 있음. 특히, 변수가 많은 경우 모델의 계산량을 늘릴 뿐만 아니라 복잡도가 커져서 overfitting의 위험이 있음. 또, 변수의 중요도 또한 정확히 파악되지 않을 수 있음.