Weight Decay
- Loss function에 weight의 제곱합을 패널티 텀으로 주어 loss를 최소화 하는 것을 말한다.
- L2 regularization, L2 penalty라고도 부른다.
- overfitting을 방지하기위해 weight decay를 한다.
Loss(w,x)=DataLoss(w,x)+21λ∣∣w∣∣2
w←w−η(∂w∂DataLoss+λw)
- λw 을 penalty로 더해 ∂w∂DataLoss가 최소화 되는 것을 막는다.