[Andrew Ng] 2-1. Regularization

Prettypotato·2026년 2월 15일

딥러닝 2단계: 심층 신경망 성능 향상시키기

목록 보기

3/15

Loss에 Weight의 크기를 더해서 같이 고려하려고 하는 것이다.
- $L$ 대신 $\text{loss} = L + \lambda \| w \|$ 을 loss로 사용
  - lambda도 hyperparameter임.
  - weight를 줄였는데 loss가 커졌다? 그럼 중요한 weight이므로 가만히 둠.
Weight를 줄이려고 하는 이유
- Loss를 줄이는 데 별 영향이 없는 weight를 0으로 만들어 모델 경량화
- 어느정도 수렴하고 나서도 계속 학습시켜보니 weight가 자꾸 커짐
L1 & L2 Regularization

L2 Regularization을 적용한 Cost function $J(w^{[1]}, w^{[2]}) = \frac{1}{m} \sum_{i=1}^{m} f(x^{(i)}, y^{(i)}) + \frac{\lambda}{2m} \sum_{j=1}^{n} \|w^{(j)}\|_F^2$
Frobenius 노름
- 가중치 행렬의 각 요소의 제곱을 합한 값이다. $\|w^{[j]}\|_F^2 = \sum_{i=1}^{n} \sum_{j=1}^{n} (w^{(j)}_{ij})^2$
L2 Regularization이 Weight decay라고 불리는 이유는 weight에 1보다 작은 값인 $1-\frac{\alpha \lambda}{m}$ 가 곱해지기 때문이다. $w^{[l]} := w^{[l]} - \alpha \cdot( \frac{\partial J}{\partial w^{[l]}} + \frac{\lambda}{m} w^{[l]})$

출처 및 참고 자료

Andrew Ng, Improving Deep Neural Network, DeepLearningAI

혁펜하임, Easy! 딥러닝