OLS의 Gauss-Markov 정리
| 가정 번호 | 가정 이름 | 의미 |
|---|
| 1 | 선형성 (Linearity in Parameters) | 회귀 모델이 계수에 대해 선형이어야 함. |
| 2 | 랜덤 샘플링 (Random Sampling) | 표본이 동일한 모집단에서 무작위로 추출되어야 함. |
| 3 | 오차의 조건부 기댓값이 0 (Zero Conditional Mean of Errors) | 오차항이 설명 변수와 독립적이어야 함 E[u∣X]=0. |
| 4 | 완전 다중공선성이 없어야 함 (No Perfect Collinearity) | 설명 변수들이 완전히 선형 종속 관계를 가지면 안 됨. |
| 5 | 동분산성 (Homoskedasticity) | 오차항의 분산이 일정해야 함 (Var(u∣X)=σ2). |
| 6 | 자기상관이 없어야 함 (No Serial Correlation) | 오차항끼리 상관관계를 가지면 안 됨 (Cov(ui,uj)=0). |
가우스-마르코프 가정의 Implication (시사점)
가우스-마르코프 가정이 성립하면 최소제곱법(OLS) 추정량이 BLUE (Best Linear Unbiased Estimator, 최선의 선형 불편 추정량)가 됨.
즉, OLS가 다른 선형 불편 추정량보다 더 낮은 분산을 가지며, 신뢰할 수 있는 추정 방법이 된다.
각 가정이 성립하면 어떤 결과가 나오는지(Implication)를 하나씩 살펴보자.
1. 선형성 (Linearity in Parameters)
가정:
- 회귀 모형이 계수(파라미터) β에 대해 선형이어야 함.
- 예: Y=α+βX+u
Implication:
✅ OLS 추정량을 계산할 수 있음.
- 만약 이 가정이 깨지면 OLS 공식(보통의 최소제곱법)이 더 이상 적용되지 않음.
- 계수가 선형이 아니면 비선형 회귀(예: 로그 변환, 다항 회귀 등)를 고려해야 함.
2. 랜덤 샘플링 (Random Sampling)
가정:
- 표본 {Xi,Yi}이 모집단에서 무작위로 선택되어야 함.
Implication:
✅ OLS 추정량이 불편(Unbiased)하고, 일반적인 통계적 성질이 유지됨.
- 만약 표본이 랜덤하지 않다면, 샘플링 편향(Sampling Bias) 발생 가능.
- 예를 들어, 특정 연령대나 지역에서만 데이터를 수집하면, 전체 모집단을 대표하지 못함.
3. 오차의 조건부 기댓값이 0 (Zero Conditional Mean of Errors)
가정:
E[u∣X]=0
즉, 설명 변수(X)와 오차항(u)이 독립적이어야 함.
Implication:
✅ OLS 추정량이 불편(Unbiased)
- 이 가정이 깨지면 내생성(Endogeneity) 문제가 발생하여 OLS 추정량이 편향(Biased) 됨.
- 내생성의 원인:
- 교육 수준 (X)이 임금 (Y)에 영향을 준다고 가정할 때, 개인의 능력(Aptitude) 역시 임금에 영향을 미친다면?
- 능력은 직접적으로 측정되지 않아 오차항(u)에 포함됨.
- 동시에, 개인의 능력과 교육 수준도 상관이 있을 가능성이 큼.
- 결과적으로 설명 변수 X와 오차항 u가 상관을 가지게 됨 → 내생성 문제 발생.
- 해결 방법:
- 도구변수(Instrumental Variables, IV) 사용
- 실험 데이터(Randomized Controlled Trials) 활용
4. 완전 다중공선성이 없어야 함 (No Perfect Collinearity)
가정:
- 설명 변수 X1,X2,...,Xn 사이에 완전한 선형 관계가 없어야 함.
- 예: X1=9⋅X2 (면적을 m²와 ft²로 동시에 포함)
Implication:
✅ OLS 추정량을 계산할 수 있음.
- 완전한 다중공선성이 존재하면 OLS 추정 불가능 (계수 추정값이 존재하지 않음).
- 심각한 다중공선성이 있으면 계수의 표준오차가 커지고, 신뢰구간이 넓어짐.
- 공선성이 강하면, 회귀 모델이 설명 변수들 간의 관계를 구별하기 어려워짐.
- 즉, X1과 X2가 비슷한 정보를 제공하면, 특정 계수를 정확하게 추정하기 어려움.
- 이는 회귀 분석에서 계수를 추정할 때 불확실성이 증가함을 의미 → 표준오차 증가.
- 표준오차가 증가하면, t-통계량(t=SE(β^)β^)이 작아지고,
- 신뢰구간이 넓어져 유의미한 결과를 얻기 어려워짐.
- 해결 방법:
- 한 변수를 제거하거나, 주성분 분석(Principal Component Analysis, PCA) 사용
5. 동분산성 (Homoskedasticity)
가정:
Var(u∣X)=σ2
즉, 오차항의 분산이 일정해야 함.
Implication:
✅ OLS 추정량의 분산을 정확하게 추정할 수 있음.
- 이 가정이 깨지면 이분산성(Heteroskedasticity) 문제가 발생하며, 신뢰구간과 가설 검정이 왜곡될 수 있음.
- 예를 들어, 소득이 낮은 사람들은 비교적 임금 변동성이 작지만, 소득이 높은 사람들은 변동성이 더 클 수 있음 → 이분산성 발생. 신뢰구간과 가설 검정이 왜곡될 수 있음.
- 해결 방법:
- 로버스트 표준오차(Robust Standard Errors) 사용
- 가중 최소제곱법(Weighted Least Squares, WLS) 적용
6. 자기상관이 없어야 함 (No Serial Correlation)
가정:
Cov(ui,uj)=0,for i=j
즉, 오차항끼리 상관관계를 가지면 안 됨.
Implication:
✅ OLS 추정량의 효율성이 유지됨.
- 자기상관(Serial Correlation)이 존재하면, 표준오차가 과소 추정될 수 있어 가설 검정이 잘못될 가능성이 있음.
- 시계열 데이터에서 자기상관이 있으면 표준오차가 과소 추정되는 이유:
- 자기상관이 있으면, 오차항이 시간에 따라 패턴을 가지므로 실제 변동성이 과소 평가됨.
- 즉, 잔차(residuals)가 독립적이지 않으므로, 모델이 실제보다 더 "확실한" 예측을 제공하는 것처럼 보이게 됨.
- 이는 신뢰구간을 과도하게 좁게 만들고, 잘못된 가설 검정을 초래함.
- 해결 방법:
- 뉴이-웨스트(Newey-West) 표준오차 사용
- 자기회귀 모형(Autoregressive Model) 적용
각 가정의 Implication
| 가정 번호 | 가정 이름 | Implication (시사점) |
|---|
| 1 | 선형성 (Linearity in Parameters) | OLS 추정량을 계산할 수 있음. 비선형이면 비선형 회귀 사용 필요. |
| 2 | 랜덤 샘플링 (Random Sampling) | OLS 추정량이 불편(Unbiased)함. 샘플링 편향이 있으면 모집단을 대표하지 못함. |
| 3 | 오차의 조건부 기댓값이 0 (Zero Conditional Mean of Errors) | 개인의 능력이 교육과 임금에 모두 영향을 미치면 내생성 문제 발생 → 도구변수(IV) 필요. |
| 4 | 완전 다중공선성이 없어야 함 (No Perfect Collinearity) | 공선성이 높으면 계수의 표준오차 증가 → 신뢰구간 넓어지고 유의미한 결과 얻기 어려움. |
| 5 | 동분산성 (Homoskedasticity) | 분산이 일정해야 신뢰구간과 가설 검정이 정확함. 이분산성이 있으면 로버스트 표준오차 사용 필요. |
| 6 | 자기상관이 없어야 함 (No Serial Correlation) | 시계열 데이터에서 자기상관이 있으면 표준오차가 과소 추정되어 가설 검정이 왜곡될 수 있음. |