선형 회귀의 가정 - 등분산성(Homoscedasticity)
등분산성은 선형 회귀 분석에서 중요한 가정 중 하나입니다. 이는 잔차(residuals)의 분산이 독립 변수의 값에 상관없이 일정해야 한다는 가정을 의미합니다. 이 가정이 만족되지 않으면 회귀 분석의 결과가 왜곡될 수 있습니다.
1. 등분산성의 정의
- 등분산성은 회귀 모델에서 잔차의 분산이 독립 변수 X의 값에 상관없이 일정해야 한다는 것을 의미합니다.
- 즉, 독립 변수 X의 값이 작거나 크더라도, 잔차의 분포가 일정해야 합니다.
예시
y=ax+b
회귀 모델이 주어졌을 때, 잔차는 다음과 같이 정의됩니다:
잔차=y실제값−y예측값
이때, 등분산성이란 X 값이 작든 크든 잔차의 분산이 변하지 않고 일정하게 유지되는 것을 의미합니다.
2. 등분산성이 중요한 이유
- 등분산성이 유지되면 회귀 분석에서 추정된 회귀 계수의 신뢰성이 높아집니다.
- 등분산성이 깨지면(이분산성), 회귀 모델의 결과가 다음과 같은 문제를 일으킬 수 있습니다:
- 회귀 계수의 표준 오차가 부정확하게 계산되어 p-value와 신뢰구간이 잘못될 수 있습니다.
- 최소 제곱법(OLS)이 더 이상 효율적이지 않게 되어, 모델의 예측 성능이 저하될 수 있습니다.
3. 이분산성(Heteroscedasticity)의 문제
- 이분산성이란 잔차의 분산이 독립 변수 X의 값에 따라 변하는 것을 의미합니다.
- 예를 들어, X 값이 커질수록 잔차의 분산이 커지거나 줄어드는 패턴을 보일 수 있습니다.
이분산성의 영향:
- 잔차의 분포가 일정하지 않고, 특정 패턴이 나타나면 회귀 모델의 가정이 깨져서 결과의 신뢰성이 떨어집니다.
- 예측 값이 커지거나 작아질 때 잔차가 체계적으로 변하는 경우 이분산성이 있다고 볼 수 있습니다.
4. 등분산성 확인 방법
(1) 잔차 플롯(Residual Plot)
- 잔차 플롯은 잔차와 예측 값 또는 독립 변수 X의 값을 플로팅하여, 잔차 분산이 일정한지 시각적으로 확인하는 방법입니다.
- 등분산성이 유지되면 잔차가 무작위로 분포하며, 특정한 패턴 없이 고르게 퍼져 있습니다.
- 반면에, 잔차가 깔때기 모양(예측 값이 커질수록 잔차가 커짐)을 보이면 이분산성이 존재할 가능성이 큽니다.
(2) 통계적 검정
- 브레쉬-파건(Breusch-Pagan) 검정: 독립 변수 X와 잔차의 분산 사이의 관계를 통계적으로 검정합니다.
- 화이트(White) 검정: 보다 일반적인 형태의 이분산성을 탐지할 수 있는 검정 방법입니다.
5. 이분산성 문제 해결 방법
- 가중 최소 제곱법(WLS, Weighted Least Squares): 잔차의 분산이 일정하지 않을 때 가중치를 적용하여 이분산성을 해결할 수 있습니다.
- 로그 변환: 종속 변수나 독립 변수에 로그 변환을 적용하여 데이터의 스케일을 줄이고 분산을 일정하게 만들 수 있습니다.
- 강건 회귀(Robust Regression): 이분산성이나 이상치에 덜 민감한 회귀 방법입니다.
요약
- 등분산성은 선형 회귀 분석에서 잔차의 분산이 독립 변수 X의 값에 따라 일정해야 한다는 가정입니다.
- 이 가정이 깨지면 이분산성이 발생하고, 회귀 분석의 결과가 왜곡될 수 있습니다.
- 잔차 플롯을 사용하거나 통계적 검정을 통해 이분산성을 확인할 수 있습니다.
- 이분산성이 있을 경우, 가중 최소 제곱법(WLS)이나 로그 변환 등을 통해 문제를 해결할 수 있습니다.