Overfitting이란
- 과적합. 모델이 training set을 과하게 학습하여 융통성이 없는 상태. testset에 대한 일반화가 안됨!
- feature가 과도하게 많을 때 일어나는게 일반적
overfitting : high variance, underfitting : low variance
Overfitting 개선하는 방법
1) feature 수 줄이기
- 특정 알고리즘 적용
- 직접 사라질 feature 선택
2) Regularization
- feature 수를 줄이지 않고, 각 feautre(xi)에 대한 parameter(θi)크기 또는 값을 줄임 (penalize)
- 많은 feature 사이에 기여도를 스스로 조절하는 메커니즘
Cost Function with Regularization
λ : regularization strength(hyperparameter)
λ가 지나치게 크면 theta값이 다 0에 가까워져 underfitting이 일어남
Reference
- Andrew Ng's ML Lecture Note 7.