정규화 회귀모델

쥬쥬스·2023년 1월 12일
0

section2

목록 보기
1/2

모델의 복잡도에 따라 편향과 분산 에러가 일어날 수 있고 이는 과소적합, 과적합과 관련되어있다.

과소적합 : 훈련 데이터셋도 제대로 학습하지 못해서 새로운 데이터를 잘 예측하지 못하는것
과적합 : 데이터셋의 디테일과 노이즈까지 모두 학습해서 훈련데이터에 너무 잘 맞춰진 것. 그래서 새로운 데이터 잘 예측하지 못함

그럼 모델의 과적합을 방지하는 방법은 뭐가 있을까?

  1. 더 많은 데이터 학습시키기
  2. 모든 특성 사용하지 않기
  3. 정규화

정규화 회귀모델

  • RSS에 규제항(람다와 파라미터)을 추가하여 회귀 계수 값을 감소시켜 학습 모델에 과하게 맞춰지는 것을 방지하여 모델의 일반화를 높이는 방법
    - Ridge
    - Lasso
    - ElasticNet

Lasso Regression

  • 회귀계수에 가중치들의 절대값의 합(L1 penalty)을 패널티로 부과해서 회귀계수의 크기를 줄이는 모델
  • 영향력이 없는 회귀계수의 값을 0으로 만듦

Ridge Regression

  • 회귀계수에 가중치들의 제곱합(L2 penalty)을 패널티로 부과해서 회귀계수의 크기를 줄이는 모델
  • 영향력이 크지 않은 회귀계수의 값을 0에 가까운 수로 축소
  • 특성별 중요도가 비슷해서 모두 제거하지 않을 때 사용

λ(Lambda) : 패널티 강도 조절하는 하이퍼파라미터

# 하이퍼파라미터 : 모델링할 때 사용자가 직접 세팅해주는 값
- 람다 값이 작아질수록 회귀 계수를 규제하는 정도가 약해지며 0이 되면 일반 선형회귀 모델과 같아진다.
- 람다 값이 커질수록 회귀 계수를 규제하는 정도가 강해지며 ∞에 가까워질수록 회귀 계수가 모두 0에 가까워져 모델이 β0에 근사한다.

정리

OLS : RSS(잔차 제곱의 합)를 최소로 하는 파라미터(a,b) 값을 찾는 방법

선형회귀모델에서 OLS로 모델을 학습(RSS만 고려) → 일반선형회귀모델
선형회귀모델에서 비용함수(RSS)에 규제항을 더해서 모델을 학습 → 정규화회귀모델

<선형회귀 모델>

  • 일반 선형회귀 모델
    • RSS가 최소가 되는 파라미터를 구하는 방법 (OLS)
    • 모델학습 -> RSS 고려
  • 정규화 선형회귀 모델
    • RSS+penalty 비용함수에 대해 학습 → RSS+파라미터 고려

RF : https://codingsmu.tistory.com/115

profile
느려도... 꾸준히.....🐌

0개의 댓글