라쏘(Lasso), 릿지(Ridge)

김승혁·2024년 11월 27일

라쏘(Lasso)릿지(Ridge) 회귀는 회귀 모델의 정규화(Regularization) 방법으로, 과적합을 방지하고 더 일반화된 모델을 만들기 위해 사용됩니다.




RSS(Residual Sum of Squares)


회귀 분석에서 RSS는 모델의 예측값과 실제값 간의 차이(잔차)의 제곱합을 나타냅니다.


RSS=i=1n(yiyi^)2RSS = \sum_{i=1}^{n} (y_i - \hat{y_i})^2


  • yiy_i: 실제 값
  • yi^\hat{y_i}: 예측 값
  • nn: 데이터 포인트의 개수

이 값이 작을수록 모델의 예측이 실제 데이터에 잘 맞는 것을 의미합니다.






라쏘 회귀 (Lasso Regression, L1)

Least Absolute Shrinkage and Selection Operator


라쏘 회귀는 L1 정규화를 사용하는 방법으로, 모델의 일부 가중치를 0으로 만드는 효과가 있습니다. 이는 변수 선택(variable selection)특성 축소(feature reduction)를 동시에 수행할 수 있게 해줍니다.


β^lasso=argminβ(RSS+λj=1pβj)\hat{\beta}^{lasso} = \arg \min_{\beta} \left( RSS + \lambda \sum_{j=1}^{p} |\beta_j| \right)


  • λj=1pβj\lambda \sum_{j=1}^{p} |\beta_j| : L1 페널티 항으로, 가중치의 절댓값 합에 대한 제약을 추가합니다. 이 페널티 항은 일부 가중치를 0으로 만들어 특성 선택 효과를 낳습니다.

  • RSSRSS : 잔차의 제곱합 (일반적인 선형 회귀의 손실 함수)

  • λ\lambda : 모델의 복잡도를 제어하는 하이퍼파라미터


라쏘 회귀는 과적합을 방지하는 동시에 중요한 특성만을 선택하고, 중요하지 않은 특성은 가중치를 0으로 만들어 제거합니다.






릿지 회귀 (Ridge Regression, L2)

릿지 회귀는 L2 정규화를 사용하는 회귀 방법입니다. 릿지 회귀에서는 모델의 모든 가중치(weight)에 대해 제곱항을 더하는 방식으로 페널티를 부여합니다.


β^ridge=argminβ(RSS+λj=1pβj2)\hat{\beta}^{ridge} = \arg \min_{\beta} \left( RSS + \lambda \sum_{j=1}^{p} \beta_j^2 \right)


  • λj=1pβj2\lambda \sum_{j=1}^{p} \beta_j^2 : L2 페널티 항으로, 가중치의 제곱합에 대한 제약을 추가하여 모델이 과적합되지 않도록 합니다.

  • RSSRSS : 잔차의 제곱합 (일반적인 선형 회귀의 손실 함수)

  • λ\lambda : 모델의 복잡도를 제어하는 하이퍼파라미터


릿지 회귀는 모든 특성에 대해 가중치가 작아지도록 만들지만, 가중치를 0으로 만들지는 않습니다.






차이점

  • 릿지는 가중치 크기를 제한하는 방식으로, 모든 특성을 계속 사용하며 모델을 일반화합니다.
  • 라쏘특성 선택을 유도하여 불필요한 특성을 아예 0으로 만들어, 모델을 더욱 단순화시킵니다.
profile
열심히 사는 척

0개의 댓글