Gauss-Markov Assumption of OLS

율·2025년 2월 6일

OLS의 Gauss-Markov 정리

가정 번호	가정 이름	의미
1	선형성 (Linearity in Parameters)	회귀 모델이 계수에 대해 선형이어야 함.
2	랜덤 샘플링 (Random Sampling)	표본이 동일한 모집단에서 무작위로 추출되어야 함.
3	오차의 조건부 기댓값이 0 (Zero Conditional Mean of Errors)	오차항이 설명 변수와 독립적이어야 함 $E[u \mid X]=0$ .
4	완전 다중공선성이 없어야 함 (No Perfect Collinearity)	설명 변수들이 완전히 선형 종속 관계를 가지면 안 됨.
5	동분산성 (Homoskedasticity)	오차항의 분산이 일정해야 함 ( $\text{Var}(u \mid X) = \sigma^2$ ).
6	자기상관이 없어야 함 (No Serial Correlation)	오차항끼리 상관관계를 가지면 안 됨 ( $\text{Cov}(u_i, u_j) = 0$ ).

가우스-마르코프 가정의 Implication (시사점)

가우스-마르코프 가정이 성립하면 최소제곱법(OLS) 추정량이 BLUE (Best Linear Unbiased Estimator, 최선의 선형 불편 추정량)가 됨.
즉, OLS가 다른 선형 불편 추정량보다 더 낮은 분산을 가지며, 신뢰할 수 있는 추정 방법이 된다.

각 가정이 성립하면 어떤 결과가 나오는지(Implication)를 하나씩 살펴보자.

1. 선형성 (Linearity in Parameters)

가정:

회귀 모형이 계수(파라미터) $\beta$ 에 대해 선형이어야 함.
예: $Y = \alpha + \beta X + u$

Implication:
✅ OLS 추정량을 계산할 수 있음.

만약 이 가정이 깨지면 OLS 공식(보통의 최소제곱법)이 더 이상 적용되지 않음.
계수가 선형이 아니면 비선형 회귀(예: 로그 변환, 다항 회귀 등)를 고려해야 함.

2. 랜덤 샘플링 (Random Sampling)

가정:

표본 $\{X_i, Y_i\}$ 이 모집단에서 무작위로 선택되어야 함.

Implication:
✅ OLS 추정량이 불편(Unbiased)하고, 일반적인 통계적 성질이 유지됨.

만약 표본이 랜덤하지 않다면, 샘플링 편향(Sampling Bias) 발생 가능.
예를 들어, 특정 연령대나 지역에서만 데이터를 수집하면, 전체 모집단을 대표하지 못함.

3. 오차의 조건부 기댓값이 0 (Zero Conditional Mean of Errors)

가정:

\mathbb{E}[u | X] = 0

즉, 설명 변수(X)와 오차항(u)이 독립적이어야 함.

Implication:
✅ OLS 추정량이 불편(Unbiased)

이 가정이 깨지면 내생성(Endogeneity) 문제가 발생하여 OLS 추정량이 편향(Biased) 됨.
내생성의 원인:
- 교육 수준 ( $X$ )이 임금 ( $Y$ )에 영향을 준다고 가정할 때, 개인의 능력(Aptitude) 역시 임금에 영향을 미친다면?
- 능력은 직접적으로 측정되지 않아 오차항( $u$ )에 포함됨.
- 동시에, 개인의 능력과 교육 수준도 상관이 있을 가능성이 큼.
- 결과적으로 설명 변수 $X$ 와 오차항 $u$ 가 상관을 가지게 됨 → 내생성 문제 발생.
해결 방법:
- 도구변수(Instrumental Variables, IV) 사용
- 실험 데이터(Randomized Controlled Trials) 활용

4. 완전 다중공선성이 없어야 함 (No Perfect Collinearity)

가정:

설명 변수 $X_1, X_2, ..., X_n$ 사이에 완전한 선형 관계가 없어야 함.
예: $X_1 = 9 \cdot X_2$ (면적을 m²와 ft²로 동시에 포함)

Implication:
✅ OLS 추정량을 계산할 수 있음.

완전한 다중공선성이 존재하면 OLS 추정 불가능 (계수 추정값이 존재하지 않음).
심각한 다중공선성이 있으면 계수의 표준오차가 커지고, 신뢰구간이 넓어짐.
- 공선성이 강하면, 회귀 모델이 설명 변수들 간의 관계를 구별하기 어려워짐.
- 즉, $X_1$ 과 $X_2$ 가 비슷한 정보를 제공하면, 특정 계수를 정확하게 추정하기 어려움.
- 이는 회귀 분석에서 계수를 추정할 때 불확실성이 증가함을 의미 → 표준오차 증가.
- 표준오차가 증가하면, t-통계량( $t = \frac{\hat{\beta}}{\text{SE}(\hat{\beta})}$ )이 작아지고,
  - 신뢰구간이 넓어져 유의미한 결과를 얻기 어려워짐.
해결 방법:
- 한 변수를 제거하거나, 주성분 분석(Principal Component Analysis, PCA) 사용

5. 동분산성 (Homoskedasticity)

가정:

\text{Var}(u | X) = \sigma^2

즉, 오차항의 분산이 일정해야 함.

Implication:
✅ OLS 추정량의 분산을 정확하게 추정할 수 있음.

이 가정이 깨지면 이분산성(Heteroskedasticity) 문제가 발생하며, 신뢰구간과 가설 검정이 왜곡될 수 있음.
예를 들어, 소득이 낮은 사람들은 비교적 임금 변동성이 작지만, 소득이 높은 사람들은 변동성이 더 클 수 있음 → 이분산성 발생. 신뢰구간과 가설 검정이 왜곡될 수 있음.
해결 방법:
- 로버스트 표준오차(Robust Standard Errors) 사용
- 가중 최소제곱법(Weighted Least Squares, WLS) 적용

6. 자기상관이 없어야 함 (No Serial Correlation)

가정:

\text{Cov}(u_i, u_j) = 0, \quad \text{for } i \neq j

즉, 오차항끼리 상관관계를 가지면 안 됨.

Implication:
✅ OLS 추정량의 효율성이 유지됨.

자기상관(Serial Correlation)이 존재하면, 표준오차가 과소 추정될 수 있어 가설 검정이 잘못될 가능성이 있음.
시계열 데이터에서 자기상관이 있으면 표준오차가 과소 추정되는 이유:
- 자기상관이 있으면, 오차항이 시간에 따라 패턴을 가지므로 실제 변동성이 과소 평가됨.
- 즉, 잔차(residuals)가 독립적이지 않으므로, 모델이 실제보다 더 "확실한" 예측을 제공하는 것처럼 보이게 됨.
- 이는 신뢰구간을 과도하게 좁게 만들고, 잘못된 가설 검정을 초래함.
해결 방법:
- 뉴이-웨스트(Newey-West) 표준오차 사용
- 자기회귀 모형(Autoregressive Model) 적용

각 가정의 Implication

가정 번호	가정 이름	Implication (시사점)
1	선형성 (Linearity in Parameters)	OLS 추정량을 계산할 수 있음. 비선형이면 비선형 회귀 사용 필요.
2	랜덤 샘플링 (Random Sampling)	OLS 추정량이 불편(Unbiased)함. 샘플링 편향이 있으면 모집단을 대표하지 못함.
3	오차의 조건부 기댓값이 0 (Zero Conditional Mean of Errors)	개인의 능력이 교육과 임금에 모두 영향을 미치면 내생성 문제 발생 → 도구변수(IV) 필요.
4	완전 다중공선성이 없어야 함 (No Perfect Collinearity)	공선성이 높으면 계수의 표준오차 증가 → 신뢰구간 넓어지고 유의미한 결과 얻기 어려움.
5	동분산성 (Homoskedasticity)	분산이 일정해야 신뢰구간과 가설 검정이 정확함. 이분산성이 있으면 로버스트 표준오차 사용 필요.
6	자기상관이 없어야 함 (No Serial Correlation)	시계열 데이터에서 자기상관이 있으면 표준오차가 과소 추정되어 가설 검정이 왜곡될 수 있음.

율

보건대학원 뉴비

이전 포스트

Unbiased Estimator란?

다음 포스트

Gauss-Markov Assumption of OLS

OLS의 Gauss-Markov 정리

가우스-마르코프 가정의 Implication (시사점)

1. 선형성 (Linearity in Parameters)

2. 랜덤 샘플링 (Random Sampling)

3. 오차의 조건부 기댓값이 0 (Zero Conditional Mean of Errors)

4. 완전 다중공선성이 없어야 함 (No Perfect Collinearity)

5. 동분산성 (Homoskedasticity)

6. 자기상관이 없어야 함 (No Serial Correlation)

각 가정의 Implication

Unbiased Estimator란?

OLS Hypothesis Test 스텝 바이 스텝 (SE 구하기)

0개의 댓글