정규화 회귀모델

쥬쥬스·2023년 1월 12일

section2

목록 보기

1/2

모델의 복잡도에 따라 편향과 분산 에러가 일어날 수 있고 이는 과소적합, 과적합과 관련되어있다.

과소적합 : 훈련 데이터셋도 제대로 학습하지 못해서 새로운 데이터를 잘 예측하지 못하는것
과적합 : 데이터셋의 디테일과 노이즈까지 모두 학습해서 훈련데이터에 너무 잘 맞춰진 것. 그래서 새로운 데이터 잘 예측하지 못함

그럼 모델의 과적합을 방지하는 방법은 뭐가 있을까?

더 많은 데이터 학습시키기
모든 특성 사용하지 않기
정규화

정규화 회귀모델

RSS에 규제항(람다와 파라미터)을 추가하여 회귀 계수 값을 감소시켜 학습 모델에 과하게 맞춰지는 것을 방지하여 모델의 일반화를 높이는 방법
- Ridge
- Lasso
- ElasticNet

Lasso Regression

회귀계수에 가중치들의 절대값의 합(L1 penalty)을 패널티로 부과해서 회귀계수의 크기를 줄이는 모델
영향력이 없는 회귀계수의 값을 0으로 만듦

Ridge Regression

회귀계수에 가중치들의 제곱합(L2 penalty)을 패널티로 부과해서 회귀계수의 크기를 줄이는 모델
영향력이 크지 않은 회귀계수의 값을 0에 가까운 수로 축소
특성별 중요도가 비슷해서 모두 제거하지 않을 때 사용

λ(Lambda) : 패널티 강도 조절하는 하이퍼파라미터

# 하이퍼파라미터 : 모델링할 때 사용자가 직접 세팅해주는 값
- 람다 값이 작아질수록 회귀 계수를 규제하는 정도가 약해지며 0이 되면 일반 선형회귀 모델과 같아진다.
- 람다 값이 커질수록 회귀 계수를 규제하는 정도가 강해지며 ∞에 가까워질수록 회귀 계수가 모두 0에 가까워져 모델이 β0에 근사한다.

정리

OLS : RSS(잔차 제곱의 합)를 최소로 하는 파라미터(a,b) 값을 찾는 방법

선형회귀모델에서 OLS로 모델을 학습(RSS만 고려) → 일반선형회귀모델
선형회귀모델에서 비용함수(RSS)에 규제항을 더해서 모델을 학습 → 정규화회귀모델

<선형회귀 모델>

일반 선형회귀 모델
- RSS가 최소가 되는 파라미터를 구하는 방법 (OLS)
- 모델학습 -> RSS 고려
정규화 선형회귀 모델
- RSS+penalty 비용함수에 대해 학습 → RSS+파라미터 고려

RF : https://codingsmu.tistory.com/115

쥬쥬스

느려도... 꾸준히.....🐌

다음 포스트

정규화 회귀모델

section2

정규화 회귀모델

Lasso Regression

Ridge Regression

정리

[N221] 결정트리, 랜덤포레스트

0개의 댓글