Regularized Model-Ridge

Ryan·2025년 2월 5일
0

머신러닝 (ML)

목록 보기
6/8

Ridge Regression: 정규화된 회귀 모델

1. Ridge Regression 개요

  • Ridge Regression은 회귀 모델에서 과적합(Overfitting)을 방지하기 위해 정규화(Penalty Term)를 추가하는 기법이다.
  • 회귀 계수(β)의 크기를 제한하기 위해 β²에 패널티를 부여한다.
  • Ridge Regression을 적용할 경우 Feature 간의 Scaling이 필수적이다.

2. Ridge Regression의 수식

Ridge Regression은 손실 함수(Loss Function)에 정규화 항을 추가하여 회귀 계수를 제한한다.

  • 첫 번째 항: 훈련 정확도(Training Accuracy)를 최소화하는 기존의 MSE 항
  • 두 번째 항: 일반화 정확도(Generalization Accuracy)를 위해 회귀 계수를 제약하는 정규화 항
  • 정규화 강도(Regularization Strength)를 조절하는 하이퍼파라미터이다.

3. Ridge Regression의 동작 원리

(1) 정규화 강도(λ)에 따른 모델의 변화

  • λ가 매우 작을 경우: 일반적인 선형 회귀 모델과 유사하게 동작하며, 과적합 가능성이 높음.
  • λ가 커질 경우: 회귀 계수들이 0에 가까워지며, 과소적합(Underfitting)될 위험이 있음.
  • 적절한 λ 선택: 최적의 모델 성능을 위해 Hyperparameter Tuning을 수행해야 함.

(2) Ridge Regression의 목적

  • 회귀 계수의 크기 제한: 특정 Feature가 너무 큰 영향을 주는 것을 방지.
  • 다중공선성(Multicollinearity) 해결: Feature들 간의 강한 상관관계로 인해 발생하는 문제를 완화함.
  • 모델의 일반화 성능 향상: 테스트 데이터에서도 높은 예측 성능을 유지할 수 있도록 함.

4. Ridge Regression과 MSE Contour

  • MSE Contour는 손실 함수의 형태를 시각적으로 표현한 것이다.
  • 제약 조건(Regularization)으로 인해 Ridge Estimator는 일반적인 최소제곱 추정량(Least Squares Estimator)보다 작은 값을 갖는다.
  • Ridge Estimator는 특정 제약 조건을 만족하면서 Error를 최소화하는 지점에서 결정된다.

5. Ridge Regression의 수학적 유도

(1) 최소제곱법(Least Squares)과 Ridge Regression 비교

일반적인 선형 회귀의 최소제곱해는 다음과 같다.

하지만, 다중공선성이 존재하면 (X^T X)의 역행렬이 불안정해지므로 Ridge Regression을 적용하여 안정성을 확보할 수 있다.

여기서 는 단위 행렬로, λ가 추가됨으로써 행렬의 조건수가 개선되고 역행렬을 안정적으로 계산할 수 있다.


6. Ridge Regression의 특징

  • Feature Selection은 수행하지 않지만, 불필요한 Feature의 영향을 줄인다.
  • 회귀 계수를 0에 가깝게 만들지만, 완전히 0으로 만들지는 않는다. (즉, 모든 Feature를 사용함)
  • Feature의 크기가 결과에 미치는 영향을 조정하기 때문에 Scaling이 중요함.
  • 다중공선성(Multicollinearity) 해결에 효과적으로 활용됨.

7. 정리 및 결론

Ridge Regression은 회귀 모델에서 과적합을 방지하고 다중공선성을 해결하기 위한 정규화 기법이다. Regularization을 적용하여 회귀 계수의 크기를 제한하며, 이를 통해 모델의 일반화 성능을 향상시킨다. 따라서 Feature 간의 강한 상관관계가 존재하는 데이터셋에서 특히 유용하게 활용된다.

0개의 댓글