Regularization

‍이세현·2024년 12월 1일

Overfitting

Overfitting: 데이터의 근본적인 관계를 파악하지 않고 noise에 최적화된 높은 복잡도의 모델
- Training set의 부족, 복잡한 모델 구조로 인해 overfitting이 발생한다.
- Training data에는 최적화되었지만 일반적인 새로운 데이터가 입력되었을 때 성능을 발휘하지 못한다.

Regularizer는 과적합을 막기 위해 loss function에서 사용하는 방법이다.
- Parameters가 너무 커지지 않도록 정규화하는 역할을 한다.
Data loss: $L(W)=\frac{1}{N}\sum_{i=1}^{N}L_i(f(x_i,W),y_i)$
Regularization: $\lambda R(W)$
- $\lambda$ 는 정규화 강도를 결정하는 hyperparameter이다.
- Parameters 값이 작으면 모델 그래프의 개형이 선형으로 바뀐다.
  - Overfitting을 피하기 위해서는 parameters는 0에 가까워야 한다.

L1 regularization (Lasso regression): $R(W)=\Sigma_k\Sigma_l|W_k,l|$
- $L_{reg}(\theta)=L(\theta)+\lambda\Sigma_k|\theta_k|$
- $\mathbf{w}$ 을 $w_j$ 에 대해 미분하면 $\text{sign}(w_j)$ , weight가 0이 되는 방향으로 update 된다.
  - weight의 부호 반대 방향으로 $\lambda$ 만큼 update 된다.
L2 regularization: $R(W)=\Sigma_k\Sigma_lW^2_{k,l}$
- $L_{reg}(\theta)=L(\theta)+\lambda\Sigma_k\theta_k^2$
- 모델 단순화와 성능 유지
- Test set에서의 성능이 향상된다.
- $\lambda$ 가 크면 $\theta$ 가 더 작아지고 모델은 더 간단해진다.
- $\mathbf{w}^2$ 을 $w_j$ 에 대해 미분하면 $2w_j$ , weight가 0이 되는 방향으로 update 된다.
  - $w_j>0$ 이면 왼쪽으로 이동
  - $w_j<0$ 이면 오른쪽으로 이동

학습할 때 무작위로 일부 뉴런만 사용하여 weight를 학습하는 것
- 모델이 복잡할수록 overfitting이 심해지므로 일부 뉴런을 삭제한다.
- parameter가 줄어드는 것은 아니다.
전체 아키텍처는 동일하지만 무작위로 삭제한 여러 모델을 동시에 사용하는 기법이므로 ensemble learning의 일종이다.
- 학습할 때마다 선택되는 뉴런이 다르다.
- 평가할 때에는 모든 뉴런을 사용한다.