β(계수) 추정 법

Ryan·2025년 2월 5일
0

머신러닝 (ML)

목록 보기
2/8

1. 회귀식 개요

회귀 분석에서는 종속 변수(Y)를 설명하는 독립 변수(X)와 이를 조정하는 계수(β)를 추정하는 것이 핵심입니다.

단순 및 다중 회귀식

  • 단순 선형 회귀(Simple Linear Regression):
  • 다중 선형 회귀(Multi-Linear Regression):
    • 여기서 은 오차항(Error Term)으로, 측정되지 않은 요인을 포함합니다.

2. 최소제곱법(Ordinary Least Squares, OLS)과 오차 항 계산

  • 실제 값()과 예측 값()의 차이를 잔차(Residual)라고 하며, 이를 최소화하는 것이 목표입니다.
  • 잔차 계산:
    • 이 값이 작을수록 회귀 모델의 성능이 좋습니다.
  • 최소제곱법을 사용하면 잔차 제곱합을 최소화하는 계수를 찾을 수 있습니다.
    • OLS의 목표: 위 식을 최소화하는 와 을 찾는 것

3. 계수 추정 방법

OLS를 사용하여 와 을 찾기 위해 미분을 수행합니다.

  • 편미분을 통한 최소화 조건:
    • 이를 풀어보면, 최적의 회귀 계수는 다음과 같이 계산됩니다.
    • 여기서 와 는 각각 X와 Y의 평균값입니다.

4. 계수의 통계적 유의성 검정

  • 회귀 계수가 의미 있는지를 판단하기 위해 p-value를 사용합니다.
  • 귀무가설()과 대립가설()을 설정하여 가설 검정을 수행합니다.
  • 검정 통계량:
  • 만약 값이 임계값보다 크다면 귀무가설을 기각하고, 가 유의미한 영향을 미친다고 판단합니다.
  • 일반적으로 p-value가 0.05 이하이면 회귀 계수가 통계적으로 유의하다고 간주합니다.

5. 회귀 모델의 해석

회귀 모델을 해석할 때 두 가지 주요 요소를 고려해야 합니다.

  1. 계수()의 크기
    • 의 값이 크면 X가 Y에 미치는 영향력이 크다고 해석할 수 있음
    • 단, 각 독립 변수의 단위(scale)가 다를 수 있으므로 상대적인 비교는 주의해야 함
  2. p-value
    • 값이 크더라도 p-value가 높으면 의미가 없음
    • 따라서 의 크기와 p-value를 함께 고려하여 의미 있는 변수인지 판단해야 함

6. 변수 선택 및 스케일링

  • 독립 변수(X)들 중 중요한 변수를 선택하는 것이 모델 성능 향상에 중요함
  • 변수 선택 방법:
    • 다중 공선성(Multicollinearity) 체크
    • AIC, BIC 등의 모델 선택 기준 사용
    • Lasso, Ridge 등의 정규화 기법 적용
  • 변수 스케일링:
    • 변수가 서로 다른 단위를 가지면 계수 비교가 어려움 → 표준화(Standardization) 또는 정규화(Normalization) 필요

0개의 댓글