[통계] 선형회귀 - (1) 기본가정

전도운·2024년 8월 15일
0

선형회귀분석은 추정이 간편하고 해석이 직관적이라는 큰 장점이 있다. 그러나 회귀분석을 적용하기 위해서는 생각보다 많고 엄격한 조건이 필요하다. 본 글에서는 이를 하나씩 살펴보기로 한다.

🎯 회귀분석의 기본가정

1. 선형성

선형회귀선을 구할 것이므로 분석하고자 하는 결과(종속)변수와 설명하고자 하는 원인(독립)변수 간에 선형 관계가 존재해야한다.

독립변수와 종속변수 간 산점도를 그려 시각적으로 확인하거나, Pearson 선형상관계수를 구해 계량적으로 이를 확인하는 방법이 있다.

개인적으로는 수치화된 상관계수를 이용하는 것을 선호한다.

2. 정규성

회귀식으로는 설명되지 않는 관측치의 개별적인 변동인 오차항이 정규분포를 따라야 한다. 정규성이 필요한 이유는 향후 회귀식을 추정한 후 회귀계수의 통계적 유의성을 가설검정해야하는데, 오차항이 정규분포를 따르지 않으면 t분포를 이용할 수 없기 때문이다.
(물론 표본의 크기가 30 이상으로 크다면 추정회귀계수의 분포가 정규분포에 수렴하므로 Z검정을 수행해볼 수도 있다.)

정규성은 시각적으로 잔차의 QQ Plot을 그려 확인하거나, Shapiro 검정 또는 Kolmogorov Smirnorv검정을 이용해 계량적으로 확인한다.

QQ Plot에서 관측값이 정규분포값에서 이탈하거나 가설검정 결과 귀무가설을 기각하면 정규성을 위반한 것으로 판단한다.

마찬가지로, 개인적으로는 계량적인 검정법을 선호한다.

3. 등분산성

오차항의 분산이 일정해야 한다는 조건이다. 오차항의 분산은 회귀계수의 가설검정에 이용되는 표준오차에 영향을 미치는데 분산이 일정하기 않으면 가설검정 및 추정한 회귀식의 신뢰도를 확보할 수 없게된다.

등분산성은 추정된 회귀식의 추정값과 잔차의 산점도를 통해 시각적으로 확인하거나, 잔차를 대상으로 Breusch Pagan 검정 또는 White검정을 수행하여 확인할 수 있다. 산점도에서 잔차의 분포가 확대 또는 축소되거나 검정 결과 귀무가설을 기각하면 등분산성이 위반된 것으로 판단한다.

4. 독립성

오차항이 독립된 분포를 따라야 한다는 조건이다. 즉, 오차항은 매 관측이 되는 순간 이전의 오차에 영향을 받지 않아야한다. 독립성이 위배되는 대표적인 경우는 시계열데이터이다. 시계열데이터는 관측치가 시간의 흐름에 따라 연속적인 모습을 보이는데 현재 오차가 이전 오차의 수준에 영향을 받는 것을 확인할 수 있다.

독립성은 등분산성과 마찬가지로 잔차의 산점도를 통해 시각적으로 확인하거나, 잔차를 대상으로 Durbin-Watson(DW) test를 수행하여 확인할 수 있다. 산점도에서 잔차가 연속적으로 이어지는 분포를 보이거나 DW 값이 2에서 멀어지는 경우 잔차의 독립성이 위반된 것으로 판단한다.

🧐 표본 크기에 따른 가정의 유효성

위 가정에서 1. 선형성과 4. 독립성은 모형의 적절성에 대한 가정이며, 2. 정규성과 3. 등분산은 추정 모형의 신뢰도에 대한 가정이다.

이건 꽤 중요한 부분인데, 1번과 4번을 위반하면 표본의 크기가 커져도 해결이 안되는 반면, 2번과 3번은 위반해도 표본의 크기가 꽤 크면 어느 정도 해결이 된다는 것이다.

위 가정을 자세히 보면 2번과 3번 조건은 추정된 회귀계수의 통계적 유의성을 가설검정하기 위해 필요하다.

그런데 표본이 크다면? 극단적으로 모집단과 표본집단이 동일하다면 표준오차는 0이며 계산된 회귀계수는 절대적으로 유의미한 상태가 된다.
(쉽게 설명하자면 계산된 회귀계수가 실제 회귀계수가 맞을 것이기 때문)

즉, 2번과 3번 가정을 위반해도 표본이 크다면 추정한 선형회귀식을 사용할 수 있는 여지가 있다고 볼 수 있다. (판단은 분석가의 몫)

profile
의미 있는 한걸음을 추구합니다.

0개의 댓글