15.2 변수선택 방법
-
모든 가능한 회귀 (all possible regression)
-
뒤로부터 제거 (backward elimination)
-
앞으로부터 선택 (forward selection)
-
단계별 회귀 (stepwise regression)
15.2.1 모든 가능한 회귀 (all possible regression)
이 방법은 모든 가능한 변수들의 조합 2k을 회귀분석한다. 방대한 계산을 요구하므로 현실적으로 불가능하다. 따라서 k개의 변수 중에서 p개를 뽑겠다고 정한다음 "최적"모형을 선택하는 기준은 일반적으로 Rp2이나 잔차평균제곱 MSEp를 사용한다. k개에서 p를 뽑는 방법의 수는
(pk)=(k−p)!p!k!
개가 있으며, Rp2을 가장 크게 하는 모형이나 MSEp 가장 작게 하는 모형을 뽑으면 된다. 두개의 기준으로 뽑은 "최적" 모형은 같은 모형이다.
Rp2=1−SSTSSEp=1−SST1⋅(n−p−1)⋅MSEp
로 Rp2을 최대로 하는 모형은 MSEp를 최소로 만든다.
15.2.2 뒤로부터 제거 (backward elimination)
이 방법은 모든 가능한 회귀방정식을 비교하지 않고 다음과 같은 절차에 따라 변수를 선택하여 회귀분석한다.
-
모든 변수를 포함한 회귀방정식을 적합
-
변수 하나하나씩에 대한 partial F−검정치를 구한다.
-
가장 작은 부분 F−검정치 FL과 F−분포표로부터의 기각치 Fc를 비교.
-
만약 FL<Fc이면 FL의 값을 준 변수 xL을 제거시키고 나머지 변수들만을 가지고 회귀방정식 적합 후 (2)번 과정 반복. 만약 FL≥Fc이면 제거시킬 변수는 없으며, 현재 사용하고 있는 변수 선택
이 방법은 계산량이 작은 장점이 있으나 "최적"모형이라는 보장이 없으며 "좋은"모형을 선택하는 방법. 또한 한번 제거된 변수는 다시 선택할 수 없다.
partial F− 검정치와 기각치 계산식은
xi:F0=Var^(b1)b12,Fc=F(1,n−p−1;α)
또한 partial F−검정치를 구할 때 현재 남아 있는 모든 변수에 대한 회귀모형으로 MSE를 구하고, 이것을 완전모형 FM으로 간주하여 계산한 SSRFM과 xi를 제외한 축소모형 RM의 SSRRM을 고려하여 다음과 같이 검정치를 구한다.
F0=MSESSR(F)−SSR(R)
15.2.3 앞으로부터 선택 (forward selection)
이 방법은 가장 중요하다고 생각되는 변수부터 하나씩 골르면서 더 이상 중요한 변수가 없다고 판정될 때에 중단하여 이미 선택된 변수들만을 중요한 변수들로 간주하는 방법.
-
모든 독립변수 중에서 종속변수와 가장 상관관계(또는 결정계수)가 높은 변수를 선택. 선택된 변수 (xp)의 회귀방정식 y^=f(xp)이 유의한가 partial F− 검정 수행.
-
y^=f(xp,xi), i=p을 각각 적합시키고 R2을 구한다. R2을 가장 크게 하여 주는 독립변수 xi를 xq라 하자. xq에 대한 partial F− 검정을 수행하여 유의하면 다음 변수를 선택하고 유의하지 않으면 y^=f(xp)회귀방정식 선택.
-
y^=f(xp,xq,xi), i=p,q을 각각 적합시키고 R2을 구한다. R2을 가장 크게 하여 주는 독립변수 xi를 xr이라 하자. xr에 대한 partial F− 검정을 수행하여 유의하면 다음 변수를 선택하고 유의하지 않으면 y^=f(xp,xq)회귀방정식 선택.
이 방법의 단점은 처음에 들어간 변수 xp는 제거되지 않는다는 점이다. 예를 들어 하나의 변수만을 고려했을 때는 xp가 가장 좋은 회귀방정식일 수 있지만 두개 이상의 변수가 있을 때는 xq, xr만 있는 회귀방정식이 더 좋을 수 있다.
15.2.4 단계별 회귀 (stepwise regression)
이 방법은 앞으로부터 선택하는 방법을 개선한 것으로, 중요한 변수를 하나씩 추가선택하여 나가면서 미리 들어간 변수가 새로운 변수로 인해 중요성을 상실하여 제거될 수 있는지 매 단계별로 검토하는 방법.
-
모든 독립변수 중에서 종속변수와 가장 상관관계(또는 결정계수)가 높은 변수를 선택. 선택된 변수 (xp)의 회귀방정식 y^=f(xp)이 유의한가 partial F− 검정 수행.
-
y^=f(xp,xi), i=p을 각각 적합시키고 R2을 구한다. R2을 가장 크게 하여 주는 독립변수 xi를 선택하고 partial F− 검정으로 이 변수의 추가선택이 유의한가 검정한다. 유의하여 선택되었다면 이미 있는 변수 xp에 대해 partial F− 검정을 수행하여 유의하지 않으면 xp변수를 제거한다.
-
xp와 xq가 모두 유의하여 남아 있는 경우에 새로운 변수 y^=f(xp,xq,xi), i=p,q을 각각 적합시키고 R2을 구한다. R2을 가장 크게 하여 주는 독립변수 xi를 xr이라 하자. xr에 대한 partial F− 검정을 수행하여 유의했다면 xp와 xq에 대한 partial F− 검정을 각각 수행하여 유의하지 않은 변수가 있다면 제거시키고 다음 순서로 넘어간다.
15.3 변수선택의 판정기준
앞선 변수선택의 계산방법에서 사용된 기준은 대부분 결정계수 R2이었지만 다른 여러가지 방법도 자주 사용된다.
1. 잔차평균제곱 (residual mean square)
MSEp=n−p−1SSEp
으로 SSEp가 작으면 좋은 모형이므로 MSEp가 작은 모형이 좋은 모형이 된다. 이 함수는 p에 따라 감소, 증가함수가 아니므로 최소로 하는 p값이 존재한다.
2. 결정계수
Rp2=1−SSTSSEp=SSTSSRp
으로 SSEp가 작으면 좋은 모형이므로 Rp2가 큰 모형이 좋은 모형이 된다. 이 함수는 p의 증가함수로 p의 증가에 따라 Rp2의 증가가 둔화되는 시점의 p를 선택하는 것이 좋다.
3. 수정된 결정계수
Rap2=1−(n−p−1)(n−1)(1−Rp2)=1−(n−p−1)(n−1)(SSEp/SST)=1−(n−1)SSTMSEp
이 함수는 결정계수가 갖는 단점을 보강하기 위하여 수정하였다. 이를 통해 증가함수가 아니게 되어 최적의 p를 구할 수 있다. SSEp가 작으면 좋은 모형이므로 Rp2가 큰 모형이 좋은 모형이 된다.
4. 총제곱오차
Cp=σ2^SSEp+2(p+1)−n
SSEp가 작으면 좋은 모형이므로 Rp2가 큰 모형이 좋은 모형이 된다.
[참고문헌]