Regularization

‍이세현·2024년 3월 26일

The problem of Overfitting

Overfitting: feature가 지나치게 많은 경우 가설은 $J(\theta)$ 가 0에 가까워지도록 학습되지만 일반화하지는 못할 것이다.
train data는 잘 나타내지만 test data를 대응하지는 못할 것이다.

새로운 data, 다른 변인에 대해 대응하지 못한다면 overfitting이라고 본다.

Addressing overfitting

Features 수를 줄인다.
- 유지할 features를 직접 선택한다.
- Model selection algorithm
Regularization
- 모든 features를 유지하고 parameters $\theta_j$ 값의 크기를 줄인다.
- Features가 많고 각 features가 y를 예측할 때 조금씩 기여하는 경우 잘 작동한다.

Cost function

Intuition

$\text{min}\frac{1}{2m}\sum_{i=1}^{m}(h_\theta(x^{(i)})-y^{(i)})^2 + 1000{\theta_3}^2 + 1000{\theta_4}^2$
$\theta_3$ 과 $\theta_4$ 는 0에 가깝게 수렴할 것이다.

Regularization

parameter $\theta_0, \theta_1, ..., \theta_n$ 이 작은 경우 보다 단순한 가설이 되며 과적합에 취약할 가능성이 작아진다.
$J(\theta) = \frac{1}{2m}\sum_{i=1}^{m}(h_\theta(x^{(i)})-y^{(i)})^2 + \lambda\sum_{i=1}^{m}{\theta_j}^2$
$\lambda$ 는 얼마나 규제할 것인지 정하는 regularization parameter이다.
$\lambda$ 값은 문제에 따라 그 크기가 달라진다.
$\theta$ 에 대한 정규화식 $\lambda\sum_{i=1}^{m}{\theta_j}^2$ 은 앞의 cost function과 독립적이다.
정규화를 진행하면 accuracy는 저하될 수 있으나 test accuracy는 향상된다.
Linear regression, Logistic regression에서 regularization을 사용하면 모델의 복잡도가 조금씩 낮아지고 overfitting 문제를 해결할 수 있다.

Regulaized linear regression에서 $\lambda$ 가 매우 큰 경우

$\theta$ 가 모두 0으로 수렴하여 y 절편( $y$ )만 유의미해진다.

underfitting: 학습이 제대로 이루어지지 않음

Regularized linear regression

Gradient descent

$\theta_j := \theta_j(1-\alpha\frac{\lambda}{m}) - \alpha\frac{1}{m} \sum_{i=1}^{m}(h_\theta(x^{(i)})-y^{(i)}){x_j}^{(i)}$

$\theta_j$ 가 조금씩 작아진다. - parameter가 작아진다.
이때 $\theta_0$ 은 복잡도에 영향을 주지 않으므로 정규화하지 않는다.

Regularized logistic regression

Cost function

$J(\theta)=-\frac{1}{m}\sum_{i=1}^{m}[y^{(i)}\text{log}h_\theta(x^{(i)})+(1-y^{(i)})\text{log}(1-h_\theta(x^{(i)}))] + \frac{\lambda}{2m}\sum_{j=1}^{m}{\theta_j}^2$

‍이세현

Hi, there 👋

이전 포스트

Logistic Regression

다음 포스트

Regularization

The problem of Overfitting

Addressing overfitting

Cost function

Intuition

Regularization

Regulaized linear regression에서 $\lambda$ 가 매우 큰 경우

Regularized linear regression

Gradient descent

Regularized logistic regression

Cost function

Logistic Regression

Clustering

0개의 댓글

관련 채용 정보

Regularization

The problem of Overfitting

Addressing overfitting

Cost function

Intuition

Regularization

Regulaized linear regression에서 λ\lambdaλ가 매우 큰 경우

Regularized linear regression

Gradient descent

Regularized logistic regression

Cost function

Logistic Regression

Clustering

0개의 댓글

관련 채용 정보

Regulaized linear regression에서 $\lambda$ 가 매우 큰 경우