잔차가 정규분포를 따라야 회귀 계수의 추정치를 신뢰할 수 있고, 신뢰구간과 p-value가 유효하다.
회귀 분석에서는 잔차가 정규분포를 따르는 것이 중요합니다. 그 이유를 다음과 같이 정리할 수 있습니다.
1. 회귀 계수 추정의 신뢰성
- 회귀 계수는 최소 제곱법(OLS)에 의해 추정됩니다.
- 잔차가 정규분포를 따를 때, OLS는 가장 효율적이고 일관된 추정치를 제공합니다.
- 잔차가 정규분포를 따르지 않으면, 회귀 계수의 추정이 왜곡되어 모델의 결과를 신뢰하기 어렵습니다.
2. 신뢰구간의 유효성
- 신뢰구간은 회귀 계수의 표준 오차를 기반으로 계산됩니다.
- 잔차가 정규분포를 따를 때, 표준 오차가 더 정확하게 계산되어 신뢰구간이 더 유효해집니다.
- 잔차가 정규분포를 따르지 않으면 신뢰구간이 부정확할 수 있습니다.
3. p-value의 유효성
- p-value는 독립 변수들이 종속 변수에 미치는 영향을 평가하는 데 사용됩니다.
- 잔차가 정규분포를 따를 때, 회귀 계수의 분포 역시 정규분포를 따르므로 t-검정이나 F-검정이 정확하게 작동합니다.
- 잔차가 정규분포를 따르지 않으면 p-value가 부정확하게 계산될 가능성이 큽니다.
4. 최소 제곱법의 최적성
- 최소 제곱법(OLS)은 잔차가 정규분포를 따를 때 최소 분산을 가지는 불편추정치를 제공합니다.
- 잔차가 정규분포를 따르지 않으면, 회귀 계수의 분산이 커지고 예측의 정확성이 떨어집니다.
요약
잔차가 정규분포를 따르는 것이 중요한 이유는 다음과 같습니다:
1. 회귀 계수의 추정치가 신뢰할 수 있게 됩니다.
2. 신뢰구간이 유효하게 설정됩니다.
3. p-value가 정확하게 계산되어 독립 변수의 유의성을 올바르게 판단할 수 있습니다.
4. 최소 제곱법이 최적의 추정치를 제공하게 됩니다.
따라서, 잔차가 정규분포를 따르는 것은 회귀 분석에서 중요한 가정 중 하나입니다.