모델의 복잡도에 따라 편향과 분산 에러가 일어날 수 있고 이는 과소적합, 과적합과 관련되어있다.
과소적합 : 훈련 데이터셋도 제대로 학습하지 못해서 새로운 데이터를 잘 예측하지 못하는것
과적합 : 데이터셋의 디테일과 노이즈까지 모두 학습해서 훈련데이터에 너무 잘 맞춰진 것. 그래서 새로운 데이터 잘 예측하지 못함
그럼 모델의 과적합을 방지하는 방법은 뭐가 있을까?
λ(Lambda) : 패널티 강도 조절하는 하이퍼파라미터
# 하이퍼파라미터 : 모델링할 때 사용자가 직접 세팅해주는 값 - 람다 값이 작아질수록 회귀 계수를 규제하는 정도가 약해지며 0이 되면 일반 선형회귀 모델과 같아진다. - 람다 값이 커질수록 회귀 계수를 규제하는 정도가 강해지며 ∞에 가까워질수록 회귀 계수가 모두 0에 가까워져 모델이 β0에 근사한다.
OLS : RSS(잔차 제곱의 합)를 최소로 하는 파라미터(a,b) 값을 찾는 방법
선형회귀모델에서 OLS로 모델을 학습(RSS만 고려) → 일반선형회귀모델
선형회귀모델에서 비용함수(RSS)에 규제항을 더해서 모델을 학습 → 정규화회귀모델
<선형회귀 모델>