선형 회귀의 가정 - 등분산성

Ryu Jihoon·2024년 10월 8일
post-thumbnail

선형 회귀의 가정 - 등분산성(Homoscedasticity)

등분산성은 선형 회귀 분석에서 중요한 가정 중 하나입니다. 이는 잔차(residuals)의 분산이 독립 변수의 값에 상관없이 일정해야 한다는 가정을 의미합니다. 이 가정이 만족되지 않으면 회귀 분석의 결과가 왜곡될 수 있습니다.

1. 등분산성의 정의

  • 등분산성은 회귀 모델에서 잔차의 분산독립 변수 XX의 값에 상관없이 일정해야 한다는 것을 의미합니다.
  • 즉, 독립 변수 XX의 값이 작거나 크더라도, 잔차의 분포가 일정해야 합니다.

예시

y=ax+by = ax + b

회귀 모델이 주어졌을 때, 잔차는 다음과 같이 정의됩니다:

잔차=y실제값y예측값\text{잔차} = y_{\text{실제값}} - y_{\text{예측값}}

이때, 등분산성이란 XX 값이 작든 크든 잔차의 분산이 변하지 않고 일정하게 유지되는 것을 의미합니다.

2. 등분산성이 중요한 이유

  • 등분산성이 유지되면 회귀 분석에서 추정된 회귀 계수의 신뢰성이 높아집니다.
  • 등분산성이 깨지면(이분산성), 회귀 모델의 결과가 다음과 같은 문제를 일으킬 수 있습니다:
    • 회귀 계수의 표준 오차가 부정확하게 계산되어 p-value신뢰구간이 잘못될 수 있습니다.
    • 최소 제곱법(OLS)이 더 이상 효율적이지 않게 되어, 모델의 예측 성능이 저하될 수 있습니다.

3. 이분산성(Heteroscedasticity)의 문제

  • 이분산성이란 잔차의 분산이 독립 변수 XX의 값에 따라 변하는 것을 의미합니다.
  • 예를 들어, XX 값이 커질수록 잔차의 분산이 커지거나 줄어드는 패턴을 보일 수 있습니다.

이분산성의 영향:

  • 잔차의 분포가 일정하지 않고, 특정 패턴이 나타나면 회귀 모델의 가정이 깨져서 결과의 신뢰성이 떨어집니다.
  • 예측 값이 커지거나 작아질 때 잔차가 체계적으로 변하는 경우 이분산성이 있다고 볼 수 있습니다.

4. 등분산성 확인 방법

(1) 잔차 플롯(Residual Plot)

  • 잔차 플롯은 잔차와 예측 값 또는 독립 변수 XX의 값을 플로팅하여, 잔차 분산이 일정한지 시각적으로 확인하는 방법입니다.
  • 등분산성이 유지되면 잔차가 무작위로 분포하며, 특정한 패턴 없이 고르게 퍼져 있습니다.
  • 반면에, 잔차가 깔때기 모양(예측 값이 커질수록 잔차가 커짐)을 보이면 이분산성이 존재할 가능성이 큽니다.

(2) 통계적 검정

  • 브레쉬-파건(Breusch-Pagan) 검정: 독립 변수 XX와 잔차의 분산 사이의 관계를 통계적으로 검정합니다.
  • 화이트(White) 검정: 보다 일반적인 형태의 이분산성을 탐지할 수 있는 검정 방법입니다.

5. 이분산성 문제 해결 방법

  • 가중 최소 제곱법(WLS, Weighted Least Squares): 잔차의 분산이 일정하지 않을 때 가중치를 적용하여 이분산성을 해결할 수 있습니다.
  • 로그 변환: 종속 변수나 독립 변수에 로그 변환을 적용하여 데이터의 스케일을 줄이고 분산을 일정하게 만들 수 있습니다.
  • 강건 회귀(Robust Regression): 이분산성이나 이상치에 덜 민감한 회귀 방법입니다.

요약

  • 등분산성은 선형 회귀 분석에서 잔차의 분산이 독립 변수 XX의 값에 따라 일정해야 한다는 가정입니다.
  • 이 가정이 깨지면 이분산성이 발생하고, 회귀 분석의 결과가 왜곡될 수 있습니다.
  • 잔차 플롯을 사용하거나 통계적 검정을 통해 이분산성을 확인할 수 있습니다.
  • 이분산성이 있을 경우, 가중 최소 제곱법(WLS)이나 로그 변환 등을 통해 문제를 해결할 수 있습니다.
profile
CSE Junior

0개의 댓글