Training
Training model
Feed forward & backward → 가중치는 훈련 데이터에 적합하게 업데이트
Optimizer
경사 하강의 목표는 손실 함수의 최소화
SGD
update gradients per one data
MGD
mini-batch gradient descent
W=W−η∂W∂L
Momentum
velocity term keep going weight's previous gradient direction
W=W+αv−η∂W∂L
AdaGrad
Adaptive Gradient
h=h+(∂W∂L)2
W=W−ηh1∂W∂L
RMS-prop
exponential moving average
h=ρh+(1−ρ)(∂W∂L)2
W=W−ηh+ϵ1∂W∂L
Adam
RMS-prop + Momentum
Regularization
Overfitting
test dataset을 예측할 때 낮은 성능
Underfitting
train dataset에서 훈련 부족
Regularization
과적합 모델은 큰 가중치를 가짐
큰 가중치에 penalize를 위해 손실 함수에 reularization term 사용
L1 | L2 |
---|
가중치 절댓값의 합 | 가중치 제곱의 합 |
λj=0∑M∣Wj∣ | λj=0∑MWj2 |
Drop out
훈련 과정에서 랜덤하게 몇 가중치 제외
가중치 편향과 큰 값을 가지는 것 방지
테스트 모드에서는 사용하지 않음
Batch normalization
입력 배치 데이터의 평균, 분산에 따라 안정적인 분포값 반환
활성화 함수 전 안정적 입력 생성
ref
Spatial Uncertainty Sampling for End-to-End Control
Train faster, generalize better: Stability of stochastic gradient descent