Regularized Model-LASSO

Ryan·2025년 2월 5일
0

머신러닝 (ML)

목록 보기
7/8

Ridge Regression과 Lasso Regression 비교 분석

1. Ridge Regression

개요

  • Ridge Regression은 L2 정규화를 활용하여 회귀 계수(β)의 크기를 제어하는 기법이다.
  • 목적: 회귀 모델이 과적합(Overfitting)되지 않도록 패널티 항(Penalty Term)을 추가하여 계수를 조절한다.

수식

  • Ridge Regression의 최적화 문제:
    • 첫 번째 항: MSE(Mean Squared Error), 즉 모델의 예측 오차
    • 두 번째 항: 패널티 항, 모든 회귀 계수의 제곱합을 포함
    • : 정규화 강도를 조절하는 하이퍼파라미터

특징

  • 값이 크면, 회귀 계수(β)가 작아지며 모델이 Underfitting 가능성이 커진다.
  • 값이 작으면, 모델이 일반 회귀(OLS)와 유사하게 동작하며 과적합 가능성이 높아진다.
  • 모든 계수(β)가 0에 가까워지지만, 완전히 0이 되지는 않음 (즉, 변수를 완전히 제거하지 않음).

2. Lasso Regression

개요

  • Lasso(Least Absolute Shrinkage and Selection Operator) Regression은 L1 정규화를 활용하여 회귀 계수를 제어하는 기법이다.
  • Ridge와 유사하지만, 패널티 항으로 노름을 사용하여 특정 변수의 계수를 완전히 0으로 만들 수 있음.

수식

  • Lasso Regression의 최적화 문제:
    • 첫 번째 항: MSE(Mean Squared Error)
    • 두 번째 항: 패널티 항, 절대값을 이용하여 변수 선택 가능

특징

  • 특정 변수를 완전히 0으로 만들 수 있어 Feature Selection 역할 수행 가능
  • 값이 크면 많은 변수가 0이 됨 → 모델이 간결해지고 해석이 쉬움
  • Ridge와 달리, Lasso는 다중공선성(multicollinearity)이 존재하는 경우 특정 변수를 완전히 제거할 수 있음

3. Ridge와 Lasso의 차이점

비교 항목Ridge RegressionLasso Regression
정규화 방식L2 노름 정규화L1 노름 정규화
회귀 계수(β)의 변화모든 계수의 크기를 줄임(0에 가까워짐)일부 계수를 완전히 0으로 만듦
Feature Selection불가능가능
다중공선성 문제 해결가능가능하지만 특정 변수를 제거함
수학적 특징미분 가능 (Closed Form Solution 존재)절대값 포함(미분 불가능, Numerical Optimization 필요)

4. 활용 예시 및 최적화

  • Ridge Regression:
    • 모든 변수가 유의미할 것으로 예상되는 경우
    • 다중공선성이 있는 데이터에서 모델 성능을 개선하고 싶은 경우
  • Lasso Regression:
    • 중요한 변수를 선별해야 하는 경우
    • 데이터에 많은 피처(feature)가 존재하여 불필요한 변수를 제거해야 하는 경우

5. 결론

  • Ridge는 변수 선택을 수행하지 않고 모든 변수를 사용하지만, 과적합을 방지하는 데 효과적이다.
  • Lasso는 특정 변수의 계수를 0으로 만들어 Feature Selection 역할을 수행할 수 있다.
  • 두 방법을 적절히 활용하면 모델의 성능을 개선할 수 있으며, 경우에 따라 Elastic Net과 같은 하이브리드 방법도 고려할 수 있다.

0개의 댓글