온라인 Forecasting 교재 [Forecasting : Principles and Practice] 5장 3절을 참고하여 작성하였습니다.
학습-모음 오차
관측된 y 값과 해당하는 적합값 y_hat 사이의 차이 값
각 잔차(residual)는 각 적합값 y_hat에 오차(예측할 수 없는 성분)
유용한 성질 2가지
회귀 변수 및 모델을 구축한 뒤, 모델의 가정이 만족되는지 확인하기 위해 잔차를 그려봐야한다.
잔차에 대한 자기상관관계
를 파악한다.정규 분포를 따르는지 확인하는 것은 필수적이진 않지만, 예측 구간을 계산할 때 쉽게 계산할 수 있다.
Figure 5.8은
미국 분기별 소비 잔차 time plot(위),
자기상관함수 ACF(좌하단),
다중 회귀 모델로 얻은 잔차의 히스토그램 (우하단)을 나타낸다.
time plot 은 몇몇 부분에서 시간에 따라 변하긴 하지만, 나머지가 상대적으로 두드러지진 않는다. → 이를 이분산성(heteroskedasticity)이라 하고, 예측 구간 범위를 정확히 구할 수 없게 된다.
ㄟ(▔,▔)ㄏ
시계열 데이터는 값의 변동이 크게 없다면, 분석에 적절한 데이터가 아니다.
우하단의 잔차에 대한 히스토그램을 보면, 우측으로 살짝 기울어짐을 알 수 있다 → 예측 구간의 범위 확률에 영향을 줄 수 있다.
좌하단의 자기상관 그래프를 보면 t=7에서 큰 음의 값을 보임을 알 수 있다. (파란 점선 ±2/√T 을 넘는다.) 하지만 유의미하지 않음을 확인함.(브로이쉬-갓프레이(Breusch-Godfrey) 검정에서 5% 수준에 도달하였다.)
⇒ 자기상관 값이 크지 않다 + 시차 7에서의 자기상관 값이 크긴 하지만, 브로이쉬-갓프레이 검정을 통해 이 값도 예측값이나 예측구간에 영향을 줄 것 같지 않다.
#> Breusch-Godfrey test for serial correlation of order
#> up to 8
#>
#> data: Residuals from Linear regression model
#> LM test = 15, df = 8, p-value = 0.06
위 코드는 8차까지의 자기 상관을 확인하기 위한 브로이쉬-갓프레이(Breusch-Godfrey) 검정 결과이다.
ㄟ(▔,▔)ㄏ
"모델에 없는 모든 예측변수(predictor variable)에 대해
잔차(residual)를 그리는 것도 필요합니다."?
잔차(residual)는 실제값과 모델이 예측한 값과의 차이로 알고 있는데,
모델이 없는 예측변수에 대해 잔차를 어떻게 확인할 수 있는지 모르겠다.
대부분의 시계열 데이터에서는 “정상성(stationarity)이 없다.” = 시계열의 값이 일정한 평균이나 일정한 분산으로 변하지 않고, 들쑥날쑥하다.
정상성이 없는 데이터를 회귀 분석 하는 것은 허위회귀로 이어질 수 있다.
Figure 5.12에서 보 두 데이터는 둘다 상향 추세를 보이고, 강한 양의 상관관계를 보이며 관계가 있다고 볼 수 있지만, 실제로는 전혀 관련 없는 데이터이다.
이러한 데이터를 보고 어떻게 관계가 없다고 증명하는가?
R^2 score 가 높다.
잔차(residual)에 대한 자기 상관 값이 높다.