앤드류 응(Andrew Ng) 교수님의 머신러닝 강좌 (3주차 Solving the Problem of Overfitting)

Devlee247·2021년 12월 16일

The Problem of Overfitting

좌측부터 underfit, just right, overfit 그래프를 나타낸다.

Underfitting(High bias)은 가설 함수가 데이터의 트렌드를 따라가지 못하는 것을 의미하고, Overfitting(High Variance)은 가설함수가 훈련데이터는 정확히 예측하지만, 새로운 데이터에 대해서 예측을 하지 못하는 문제를 의미한다.

이러한 용어들은 linear regression과 logistic regression 모두에게 적용이 되고, 이러한 Overfitting Problem을 해결하기 위해서는 2가지 Option이 존재한다.

Addressing overfitting

Reduce number of features
1) 직접 feature를 관리한다.
2) model selection algorithm을 사용한다.
Regularization
1) 모든 feature를 그대로 두지만, $\theta_j$ 의 magnitude를 관리한다.
2) Regularization works well when we have a lot of slightly useful features.

Cost Function

위에서 보는 것과 같이 Feature 갯수가 많아질수록(표현이 부정확하다) Overfitting 하는 것을 볼 수 있다. 이를 해결하기 위해 몇개의 $\theta$ 를 penalize하여 미치는 영향을 작게 하는 것이 필요하다.

이를 구현하기 위해 regularization parameter $\lambda$ (lambda)를 이용하여 Cost function을 정의한다. 이를 활용하여 학습을 시키면 Overfitting Problem을 해결할 수 있다. 하지만 $\lambda$ 가 너무 크게되면 $\theta$ 가 underfit하는 문제가 발생할 수 있다. 따라서 적절한 값의 $\lambda$ 를 사용하는 것 또한 중요하다.