Durbin-Watson test는 시계열 데이터에서 회귀분석의 잔차들이 시간 순서상 바로 이전 데이터와 독립인지를 검정한다.
OLS의 가정 중 하나는 데이터들이 서로 독립성을 가진다는 것인데, 잔차들이 독립이 아니고 autocorrelation되어 있다면 회귀 결과 (계수 추정, 표준 오차, p-value 등) 의 신뢰성이 떨어진다.
시계열 데이터는 시간상으로 가까운 데이터끼리 autocorrelation되어 있는 경우가 많기 때문에 OLS를 쓰려면 durbin-watson test를 통해 autocorrelation 여부를 확인해 주어야 한다.
수식은 다음과 같다.
D = ∑ t = 2 n ( e t − e t − 1 ) 2 ∑ t = 1 n e t 2 D = \frac{\sum_{t=2}^n(e_t-e_{t-1})^2}{\sum_{t=1}^ne_t^2} D = ∑ t = 1 n e t 2 ∑ t = 2 n ( e t − e t − 1 ) 2
이 때 e t e_t e t 는 시점 t에서의 잔차다.
이 식을 전개해보자. 먼저 분자를 풀어 써보자.
∑ t = 2 n ( e t − e t − 1 ) 2 = ∑ t = 2 n ( e t 2 − 2 e t e t − 1 + e t − 1 2 ) = ∑ t = 2 n e t 2 + ∑ t = 1 n − 1 e t 2 − 2 ∑ t = 2 n e t e t − 1 . \sum_{t=2}^n (e_t - e_{t-1})^2 = \sum_{t=2}^n \bigl(e_t^2 - 2e_t e_{t-1} + e_{t-1}^2\bigr) = \sum_{t=2}^n e_t^2 + \sum_{t=1}^{n-1} e_t^2 - 2\sum_{t=2}^n e_t e_{t-1}. t = 2 ∑ n ( e t − e t − 1 ) 2 = t = 2 ∑ n ( e t 2 − 2 e t e t − 1 + e t − 1 2 ) = t = 2 ∑ n e t 2 + t = 1 ∑ n − 1 e t 2 − 2 t = 2 ∑ n e t e t − 1 .
= 2 ∑ t = 1 n e t 2 − 2 ∑ t = 2 n e t e t − 1 − e 1 − e n = 2\sum_{t=1}^n e_t^2 - 2\sum_{t=2}^n e_t e_{t-1}- e_1-e_n = 2 t = 1 ∑ n e t 2 − 2 t = 2 ∑ n e t e t − 1 − e 1 − e n
여기서 n이 충분히 크다면 앞의 두 항에 비해 뒤의 두 항은 무시할 정도로 작다고 생각할 수 있다. 다시 말해, ∑ t = 1 n − 1 e t 2 ≈ ∑ t = 1 n e t 2 \sum_{t=1}^{n-1}e_t^2\approx\sum_{t=1}^n e_t^2 ∑ t = 1 n − 1 e t 2 ≈ ∑ t = 1 n e t 2 , 그리고 ∑ t = 2 n e t 2 ≈ ∑ t = 1 n e t 2 \sum_{t=2}^{n}e_t^2\approx\sum_{t=1}^n e_t^2 ∑ t = 2 n e t 2 ≈ ∑ t = 1 n e t 2 로 근사할 수 있다.
≈ 2 ∑ t = 1 n e t 2 − 2 ∑ t = 2 n e t e t − 1 . \approx 2\sum_{t=1}^n e_t^2 - 2\sum_{t=2}^n e_t e_{t-1}. ≈ 2 t = 1 ∑ n e t 2 − 2 t = 2 ∑ n e t e t − 1 .
분자를 원래 D D D 식에 대입해보자.
D ≈ 2 ∑ t = 1 n e t 2 − 2 ∑ t = 2 n e t e t − 1 ∑ t = 1 n e t 2 = 2 − 2 ∑ t = 2 n e t e t − 1 ∑ t = 1 n e t 2 . D \approx \frac{2\sum_{t=1}^n e_t^2 - 2\sum_{t=2}^n e_t e_{t-1}}{\sum_{t=1}^n e_t^2} = 2 - 2\,\frac{\sum_{t=2}^n e_t e_{t-1}}{\sum_{t=1}^n e_t^2}. D ≈ ∑ t = 1 n e t 2 2 ∑ t = 1 n e t 2 − 2 ∑ t = 2 n e t e t − 1 = 2 − 2 ∑ t = 1 n e t 2 ∑ t = 2 n e t e t − 1 .
이 식은 잔차에 대한 lag-1 autocorrelation 추정치에 대한 식이다.
ρ ^ = ∑ t = 2 n e t e t − 1 ∑ t = 1 n e t 2 . \hat\rho = \frac{\sum_{t=2}^n e_t e_{t-1}}{\sum_{t=1}^n e_t^2}. ρ ^ = ∑ t = 1 n e t 2 ∑ t = 2 n e t e t − 1 .
따라서 Durbin-Watson test의 검정통계량은 2 ( 1 − ρ ^ ) 2(1-\hat\rho) 2 ( 1 − ρ ^ ) 에 근사한다.
D ≈ 2 − 2 ρ ^ = 2 ( 1 − ρ ^ ) . D \approx 2 - 2\hat\rho = 2(1 - \hat\rho). D ≈ 2 − 2 ρ ^ = 2 ( 1 − ρ ^ ) .
코시 슈바르츠 부등식에 의해 ρ ^ \hat\rho ρ ^ 의 범위는 [-1, 1]이다. (아래 간단한 설명)
D D D 가 2이면 데이터를 통해 autocorrelation이 없다고 추정되는 것과 유사하게 생각할 수 있다 (ρ ^ = 0 \hat\rho=0 ρ ^ = 0 ). D D D 가 2보다 크고 4보다 작거나 같으면 시간적으로 함께 붙어있는 측정값끼리 음의 자기상관이 존재한다. D D D 가 2보다 작고 0보다 크거나 같으면 양의 자기상관이 존재한다.
왜 ρ ^ \hat\rho ρ ^ 의 범위가 [-1, 1]인지에 대한 간단한 설명
잔차의 1차 자기상관 계수는
ρ ^ = ∑ t = 2 n e t e t − 1 ∑ t = 1 n e t 2 \hat\rho = \frac{\sum_{t=2}^n e_t e_{t-1}}{\sum_{t=1}^n e_t^2} ρ ^ = ∑ t = 1 n e t 2 ∑ t = 2 n e t e t − 1
로 정의되며, 이는 (et)와 (e {t-1}) 사이의 피어슨 상관계수 추정치입니다. 모든 상관계수는 코시–슈바르츠 부등식 에 의해 다음을 만족합니다:
∣ C o v ( X , Y ) V a r ( X ) V a r ( Y ) ∣ ≤ 1. \left|\frac{\mathrm{Cov}(X,Y)}{\sqrt{\mathrm{Var}(X)\,\mathrm{Var}(Y)}}\right|\le1. ∣ ∣ ∣ ∣ ∣ ∣ V a r ( X ) V a r ( Y ) C o v ( X , Y ) ∣ ∣ ∣ ∣ ∣ ∣ ≤ 1 .
잔차 형태로 이를 적용하면
∑ t = 2 n e t e t − 1 ≤ ∑ t = 2 n e t 2 ∑ t = 2 n e t − 1 2 ≈ ∑ t = 1 n e t 2 , \sum_{t=2}^n e_t e_{t-1} \;\le\; \sqrt{\sum_{t=2}^n e_t^2}\,\sqrt{\sum_{t=2}^n e_{t-1}^2} \;\approx\; \sum_{t=1}^n e_t^2, t = 2 ∑ n e t e t − 1 ≤ t = 2 ∑ n e t 2 t = 2 ∑ n e t − 1 2 ≈ t = 1 ∑ n e t 2 ,
따라서
∣ ρ ^ ∣ = ∣ ∑ t = 2 n e t e t − 1 ∑ t = 1 n e t 2 ∣ ≤ 1. |\hat\rho| = \left|\frac{\sum_{t=2}^n e_t e_{t-1}}{\sum_{t=1}^n e_t^2}\right| \le1. ∣ ρ ^ ∣ = ∣ ∣ ∣ ∣ ∣ ∑ t = 1 n e t 2 ∑ t = 2 n e t e t − 1 ∣ ∣ ∣ ∣ ∣ ≤ 1 .