[Time Series] 상관관계와 인과관계

c_10.log·2023년 12월 15일

Time Series 📈

목록 보기

12/24

온라인 Forecasting 교재 [Forecasting : Principles and Practice] 5장 9절을 참고하여 작성하였습니다.

변수 x는 변수 y를 예측할 때 활용된다 ≠ x가 y의 원인이 된다.
x가 y의 원인이 될 순 있지만, y가 x의 원인이 될 수도 있고, 아예 그렇지 않을 수 있다.
혼선자
- 모델 예측에 포함되지 않는 변수 중 다른 반응변수(=종속변수)나 예측변수에 영향을 주는 변수
두 변수 사이에 상관관계가 없을 때
혹은 모델과 반대로 인과관계가 성립할 때
혹은 혼선자가 있을 때
⇒ 그래도 예측할 땐 상관관계가 유용하다.
- 별개로 인과관계를 알고 정의할 수 있다면 더 좋은 모델을 만들 수 있다.

다중공선성(Multicollinearity)
- 다중 회귀에서 2개 이상의 예측변수가 비슷한 정보를 가질 때 나타나는 성질
- 예측변수간 상관관계가 아주 높을 때 발생한다.
- 한 개의 변수로 다른 한 개의 변수 값을 알 수 있으므로 둘 다 사용하는 것은 비효율적이다.
- 예측변수 x로 만들어진 선형 결합 모델이
  같은 예측변수 x로 만들어진 다른 선형 결합 모델과 상관관계가 높을 때도 다중공선성을 가진다고 한다.
가변수 함정에서의 다중공선성
(왜 분기별 가변수에 범위수에 따라 4개가 아닌 3개로 하는지?)
- 4개로 한다면 d_1 + d_2 + d_3 + d_4 = 1 로, 완벽한 상관관계를 가지게 된다. → 다중공선성 존재
다중공선성이 존재한다면? 예측변수를 사용한다면 회귀 계수를 추정하기 힘들다.
(물론 R, SPSS, SAS와 같은 통계 소프트웨어에서는 이를 해결하는 패키지가 존재한다.)
1. 계수에 대한 불확실성 증가
2. t-검정 신뢰 불가
3. 예측값과 연결된 예측변수 서술 불가