Durbin-Watson test

·2025년 3월 27일

Durbin-Watson test는 시계열 데이터에서 회귀분석의 잔차들이 시간 순서상 바로 이전 데이터와 독립인지를 검정한다.

OLS의 가정 중 하나는 데이터들이 서로 독립성을 가진다는 것인데, 잔차들이 독립이 아니고 autocorrelation되어 있다면 회귀 결과 (계수 추정, 표준 오차, p-value 등) 의 신뢰성이 떨어진다.

시계열 데이터는 시간상으로 가까운 데이터끼리 autocorrelation되어 있는 경우가 많기 때문에 OLS를 쓰려면 durbin-watson test를 통해 autocorrelation 여부를 확인해 주어야 한다.

수식은 다음과 같다.

D=t=2n(etet1)2t=1net2D = \frac{\sum_{t=2}^n(e_t-e_{t-1})^2}{\sum_{t=1}^ne_t^2}

이 때 ete_t는 시점 t에서의 잔차다.

이 식을 전개해보자. 먼저 분자를 풀어 써보자.

t=2n(etet1)2=t=2n(et22etet1+et12)=t=2net2+t=1n1et22t=2netet1.\sum_{t=2}^n (e_t - e_{t-1})^2 = \sum_{t=2}^n \bigl(e_t^2 - 2e_t e_{t-1} + e_{t-1}^2\bigr) = \sum_{t=2}^n e_t^2 + \sum_{t=1}^{n-1} e_t^2 - 2\sum_{t=2}^n e_t e_{t-1}.
=2t=1net22t=2netet1e1en= 2\sum_{t=1}^n e_t^2 - 2\sum_{t=2}^n e_t e_{t-1}- e_1-e_n

여기서 n이 충분히 크다면 앞의 두 항에 비해 뒤의 두 항은 무시할 정도로 작다고 생각할 수 있다. 다시 말해, t=1n1et2t=1net2\sum_{t=1}^{n-1}e_t^2\approx\sum_{t=1}^n e_t^2, 그리고 t=2net2t=1net2\sum_{t=2}^{n}e_t^2\approx\sum_{t=1}^n e_t^2 로 근사할 수 있다.

2t=1net22t=2netet1.\approx 2\sum_{t=1}^n e_t^2 - 2\sum_{t=2}^n e_t e_{t-1}.

분자를 원래 DD 식에 대입해보자.

D2t=1net22t=2netet1t=1net2=22t=2netet1t=1net2.D \approx \frac{2\sum_{t=1}^n e_t^2 - 2\sum_{t=2}^n e_t e_{t-1}}{\sum_{t=1}^n e_t^2} = 2 - 2\,\frac{\sum_{t=2}^n e_t e_{t-1}}{\sum_{t=1}^n e_t^2}.

이 식은 잔차에 대한 lag-1 autocorrelation 추정치에 대한 식이다.

ρ^=t=2netet1t=1net2.\hat\rho = \frac{\sum_{t=2}^n e_t e_{t-1}}{\sum_{t=1}^n e_t^2}.

따라서 Durbin-Watson test의 검정통계량은 2(1ρ^)2(1-\hat\rho)에 근사한다.

D22ρ^=2(1ρ^).D \approx 2 - 2\hat\rho = 2(1 - \hat\rho).

코시 슈바르츠 부등식에 의해 ρ^\hat\rho의 범위는 [-1, 1]이다. (아래 간단한 설명)

DD가 2이면 데이터를 통해 autocorrelation이 없다고 추정되는 것과 유사하게 생각할 수 있다 (ρ^=0\hat\rho=0). DD가 2보다 크고 4보다 작거나 같으면 시간적으로 함께 붙어있는 측정값끼리 음의 자기상관이 존재한다. DD가 2보다 작고 0보다 크거나 같으면 양의 자기상관이 존재한다.

ρ^\hat\rho의 범위가 [-1, 1]인지에 대한 간단한 설명

잔차의 1차 자기상관 계수는

ρ^=t=2netet1t=1net2\hat\rho = \frac{\sum_{t=2}^n e_t e_{t-1}}{\sum_{t=1}^n e_t^2}

로 정의되며, 이는 (et)와 (e{t-1}) 사이의 피어슨 상관계수 추정치입니다. 모든 상관계수는 코시–슈바르츠 부등식에 의해 다음을 만족합니다:

Cov(X,Y)Var(X)Var(Y)1.\left|\frac{\mathrm{Cov}(X,Y)}{\sqrt{\mathrm{Var}(X)\,\mathrm{Var}(Y)}}\right|\le1.

잔차 형태로 이를 적용하면

t=2netet1    t=2net2t=2net12    t=1net2,\sum_{t=2}^n e_t e_{t-1} \;\le\; \sqrt{\sum_{t=2}^n e_t^2}\,\sqrt{\sum_{t=2}^n e_{t-1}^2} \;\approx\; \sum_{t=1}^n e_t^2,

따라서

ρ^=t=2netet1t=1net21.|\hat\rho| = \left|\frac{\sum_{t=2}^n e_t e_{t-1}}{\sum_{t=1}^n e_t^2}\right| \le1.
profile
보건대학원 뉴비

0개의 댓글