온라인 Forecasting 교재 [Forecasting : Principles and Practice] 5장 9절을 참고하여 작성하였습니다.
5.9 상관관계, 인과관계, 그리고 예
5.9.1 상관관계 ≠ 인과관계
- 변수 x는 변수 y를 예측할 때 활용된다 ≠ x가 y의 원인이 된다.
- x가 y의 원인이 될 순 있지만, y가 x의 원인이 될 수도 있고, 아예 그렇지 않을 수 있다.
- 혼선자
- 모델 예측에 포함되지 않는 변수 중 다른 반응변수(=종속변수)나 예측변수에 영향을 주는 변수
- 두 변수 사이에 상관관계가 없을 때
혹은 모델과 반대로 인과관계가 성립할 때
혹은 혼선자가 있을 때
⇒ 그래도 예측할 땐 상관관계가 유용하다.
- 별개로 인과관계를 알고 정의할 수 있다면 더 좋은 모델을 만들 수 있다.
5.9.2 상관관계를 가지는 예측변수로 예측하기
- 다중공선성(Multicollinearity)
- 다중 회귀에서 2개 이상의 예측변수가 비슷한 정보를 가질 때 나타나는 성질
- 예측변수간 상관관계가 아주 높을 때 발생한다.
- 한 개의 변수로 다른 한 개의 변수 값을 알 수 있으므로 둘 다 사용하는 것은 비효율적이다.
- 예측변수 x로 만들어진 선형 결합 모델이
같은 예측변수 x로 만들어진 다른 선형 결합 모델과 상관관계가 높을 때도 다중공선성을 가진다고 한다.
- 가변수 함정에서의 다중공선성
(왜 분기별 가변수에 범위수에 따라 4개가 아닌 3개로 하는지?)
- 4개로 한다면 d_1 + d_2 + d_3 + d_4 = 1 로, 완벽한 상관관계를 가지게 된다. → 다중공선성 존재
- 다중공선성이 존재한다면? 예측변수를 사용한다면 회귀 계수를 추정하기 힘들다.
(물론 R, SPSS, SAS와 같은 통계 소프트웨어에서는 이를 해결하는 패키지가 존재한다.)
- 계수에 대한 불확실성 증가
- t-검정 신뢰 불가
- 예측값과 연결된 예측변수 서술 불가