Gauss-Markov Assumption of OLS

·2025년 2월 6일

OLS의 Gauss-Markov 정리

가정 번호가정 이름의미
1선형성 (Linearity in Parameters)회귀 모델이 계수에 대해 선형이어야 함.
2랜덤 샘플링 (Random Sampling)표본이 동일한 모집단에서 무작위로 추출되어야 함.
3오차의 조건부 기댓값이 0 (Zero Conditional Mean of Errors)오차항이 설명 변수와 독립적이어야 함 E[uX]=0E[u \mid X]=0.
4완전 다중공선성이 없어야 함 (No Perfect Collinearity)설명 변수들이 완전히 선형 종속 관계를 가지면 안 됨.
5동분산성 (Homoskedasticity)오차항의 분산이 일정해야 함 (Var(uX)=σ2\text{Var}(u \mid X) = \sigma^2).
6자기상관이 없어야 함 (No Serial Correlation)오차항끼리 상관관계를 가지면 안 됨 (Cov(ui,uj)=0\text{Cov}(u_i, u_j) = 0).

가우스-마르코프 가정의 Implication (시사점)

가우스-마르코프 가정이 성립하면 최소제곱법(OLS) 추정량이 BLUE (Best Linear Unbiased Estimator, 최선의 선형 불편 추정량)가 됨.
즉, OLS가 다른 선형 불편 추정량보다 더 낮은 분산을 가지며, 신뢰할 수 있는 추정 방법이 된다.

각 가정이 성립하면 어떤 결과가 나오는지(Implication)를 하나씩 살펴보자.


1. 선형성 (Linearity in Parameters)

가정:

  • 회귀 모형이 계수(파라미터) β\beta에 대해 선형이어야 함.
  • 예: Y=α+βX+uY = \alpha + \beta X + u

Implication:
OLS 추정량을 계산할 수 있음.

  • 만약 이 가정이 깨지면 OLS 공식(보통의 최소제곱법)이 더 이상 적용되지 않음.
  • 계수가 선형이 아니면 비선형 회귀(예: 로그 변환, 다항 회귀 등)를 고려해야 함.

2. 랜덤 샘플링 (Random Sampling)

가정:

  • 표본 {Xi,Yi}\{X_i, Y_i\}이 모집단에서 무작위로 선택되어야 함.

Implication:
OLS 추정량이 불편(Unbiased)하고, 일반적인 통계적 성질이 유지됨.

  • 만약 표본이 랜덤하지 않다면, 샘플링 편향(Sampling Bias) 발생 가능.
  • 예를 들어, 특정 연령대나 지역에서만 데이터를 수집하면, 전체 모집단을 대표하지 못함.

3. 오차의 조건부 기댓값이 0 (Zero Conditional Mean of Errors)

가정:

E[uX]=0\mathbb{E}[u | X] = 0

즉, 설명 변수(X)와 오차항(u)이 독립적이어야 함.

Implication:
OLS 추정량이 불편(Unbiased)

  • 이 가정이 깨지면 내생성(Endogeneity) 문제가 발생하여 OLS 추정량이 편향(Biased) 됨.
  • 내생성의 원인:
    • 교육 수준 (XX)이 임금 (YY)에 영향을 준다고 가정할 때, 개인의 능력(Aptitude) 역시 임금에 영향을 미친다면?
    • 능력은 직접적으로 측정되지 않아 오차항(uu)에 포함됨.
    • 동시에, 개인의 능력과 교육 수준도 상관이 있을 가능성이 큼.
    • 결과적으로 설명 변수 XX와 오차항 uu가 상관을 가지게 됨내생성 문제 발생.
  • 해결 방법:
    • 도구변수(Instrumental Variables, IV) 사용
    • 실험 데이터(Randomized Controlled Trials) 활용

4. 완전 다중공선성이 없어야 함 (No Perfect Collinearity)

가정:

  • 설명 변수 X1,X2,...,XnX_1, X_2, ..., X_n 사이에 완전한 선형 관계가 없어야 함.
  • 예: X1=9X2X_1 = 9 \cdot X_2 (면적을 m²와 ft²로 동시에 포함)

Implication:
OLS 추정량을 계산할 수 있음.

  • 완전한 다중공선성이 존재하면 OLS 추정 불가능 (계수 추정값이 존재하지 않음).
  • 심각한 다중공선성이 있으면 계수의 표준오차가 커지고, 신뢰구간이 넓어짐.
    • 공선성이 강하면, 회귀 모델이 설명 변수들 간의 관계를 구별하기 어려워짐.
    • 즉, X1X_1X2X_2가 비슷한 정보를 제공하면, 특정 계수를 정확하게 추정하기 어려움.
    • 이는 회귀 분석에서 계수를 추정할 때 불확실성이 증가함을 의미 → 표준오차 증가.
    • 표준오차가 증가하면, t-통계량(t=β^SE(β^)t = \frac{\hat{\beta}}{\text{SE}(\hat{\beta})})이 작아지고,
      • 신뢰구간이 넓어져 유의미한 결과를 얻기 어려워짐.
  • 해결 방법:
    • 한 변수를 제거하거나, 주성분 분석(Principal Component Analysis, PCA) 사용

5. 동분산성 (Homoskedasticity)

가정:

Var(uX)=σ2\text{Var}(u | X) = \sigma^2

즉, 오차항의 분산이 일정해야 함.

Implication:
OLS 추정량의 분산을 정확하게 추정할 수 있음.

  • 이 가정이 깨지면 이분산성(Heteroskedasticity) 문제가 발생하며, 신뢰구간과 가설 검정이 왜곡될 수 있음.
  • 예를 들어, 소득이 낮은 사람들은 비교적 임금 변동성이 작지만, 소득이 높은 사람들은 변동성이 더 클 수 있음 → 이분산성 발생. 신뢰구간과 가설 검정이 왜곡될 수 있음.
  • 해결 방법:
    • 로버스트 표준오차(Robust Standard Errors) 사용
    • 가중 최소제곱법(Weighted Least Squares, WLS) 적용

6. 자기상관이 없어야 함 (No Serial Correlation)

가정:

Cov(ui,uj)=0,for ij\text{Cov}(u_i, u_j) = 0, \quad \text{for } i \neq j

즉, 오차항끼리 상관관계를 가지면 안 됨.

Implication:
OLS 추정량의 효율성이 유지됨.

  • 자기상관(Serial Correlation)이 존재하면, 표준오차가 과소 추정될 수 있어 가설 검정이 잘못될 가능성이 있음.
  • 시계열 데이터에서 자기상관이 있으면 표준오차가 과소 추정되는 이유:
    • 자기상관이 있으면, 오차항이 시간에 따라 패턴을 가지므로 실제 변동성이 과소 평가됨.
    • 즉, 잔차(residuals)가 독립적이지 않으므로, 모델이 실제보다 더 "확실한" 예측을 제공하는 것처럼 보이게 됨.
    • 이는 신뢰구간을 과도하게 좁게 만들고, 잘못된 가설 검정을 초래함.
  • 해결 방법:
    • 뉴이-웨스트(Newey-West) 표준오차 사용
    • 자기회귀 모형(Autoregressive Model) 적용

각 가정의 Implication

가정 번호가정 이름Implication (시사점)
1선형성 (Linearity in Parameters)OLS 추정량을 계산할 수 있음. 비선형이면 비선형 회귀 사용 필요.
2랜덤 샘플링 (Random Sampling)OLS 추정량이 불편(Unbiased)함. 샘플링 편향이 있으면 모집단을 대표하지 못함.
3오차의 조건부 기댓값이 0 (Zero Conditional Mean of Errors)개인의 능력이 교육과 임금에 모두 영향을 미치면 내생성 문제 발생 → 도구변수(IV) 필요.
4완전 다중공선성이 없어야 함 (No Perfect Collinearity)공선성이 높으면 계수의 표준오차 증가 → 신뢰구간 넓어지고 유의미한 결과 얻기 어려움.
5동분산성 (Homoskedasticity)분산이 일정해야 신뢰구간과 가설 검정이 정확함. 이분산성이 있으면 로버스트 표준오차 사용 필요.
6자기상관이 없어야 함 (No Serial Correlation)시계열 데이터에서 자기상관이 있으면 표준오차가 과소 추정되어 가설 검정이 왜곡될 수 있음.
profile
보건대학원 뉴비

0개의 댓글