[Time Series] 상관관계와 인과관계

c_10.log·2023년 12월 15일
0

Time Series 📈

목록 보기
12/24
post-thumbnail

온라인 Forecasting 교재 [Forecasting : Principles and Practice] 5장 9절을 참고하여 작성하였습니다.

5.9 상관관계, 인과관계, 그리고 예

5.9.1 상관관계 ≠ 인과관계

  • 변수 x는 변수 y를 예측할 때 활용된다 ≠ x가 y의 원인이 된다.
  • x가 y의 원인이 될 순 있지만, y가 x의 원인이 될 수도 있고, 아예 그렇지 않을 수 있다.
  • 혼선자
    • 모델 예측에 포함되지 않는 변수 중 다른 반응변수(=종속변수)나 예측변수에 영향을 주는 변수
  • 두 변수 사이에 상관관계가 없을 때
    혹은 모델과 반대로 인과관계가 성립할 때
    혹은 혼선자가 있을 때
    ⇒ 그래도 예측할 땐 상관관계가 유용하다.
    • 별개로 인과관계를 알고 정의할 수 있다면 더 좋은 모델을 만들 수 있다.

5.9.2 상관관계를 가지는 예측변수로 예측하기

  • 다중공선성(Multicollinearity)
    • 다중 회귀에서 2개 이상의 예측변수가 비슷한 정보를 가질 때 나타나는 성질
    • 예측변수간 상관관계가 아주 높을 때 발생한다.
    • 한 개의 변수로 다른 한 개의 변수 값을 알 수 있으므로 둘 다 사용하는 것은 비효율적이다.
    • 예측변수 x로 만들어진 선형 결합 모델이
      같은 예측변수 x로 만들어진 다른 선형 결합 모델과 상관관계가 높을 때도 다중공선성을 가진다고 한다.
  • 가변수 함정에서의 다중공선성
    (왜 분기별 가변수에 범위수에 따라 4개가 아닌 3개로 하는지?)
    • 4개로 한다면 d_1 + d_2 + d_3 + d_4 = 1 로, 완벽한 상관관계를 가지게 된다. → 다중공선성 존재
  • 다중공선성이 존재한다면? 예측변수를 사용한다면 회귀 계수를 추정하기 힘들다.
    (물론 R, SPSS, SAS와 같은 통계 소프트웨어에서는 이를 해결하는 패키지가 존재한다.)
    1. 계수에 대한 불확실성 증가
    2. t-검정 신뢰 불가
    3. 예측값과 연결된 예측변수 서술 불가

0개의 댓글