Training

BERT·2023년 5월 29일
0

Perception

목록 보기
5/20

Training

Training model

Feed forward & backward \rarr 가중치는 훈련 데이터에 적합하게 업데이트

Optimizer

경사 하강의 목표는 손실 함수의 최소화

SGD

update gradients per one data

MGD

mini-batch gradient descent

W=WηLWW=W-\eta\displaystyle\frac{\partial L}{\partial W}

Momentum

velocity term keep going weight's previous gradient direction

W=W+αvηLWW=W+\alpha v-\eta\displaystyle\frac{\partial L}{\partial W}

AdaGrad

Adaptive Gradient

h=h+(LW)2h = h+\Big( \displaystyle\frac{\partial L}{\partial W}\Big)^2

W=Wη1hLWW=W- \eta \displaystyle\frac{1}{\sqrt{h}}\frac{\partial L }{\partial W}

RMS-prop

exponential moving average

h=ρh+(1ρ)(LW)2h = \rho h+(1-\rho) \Big( \displaystyle\frac{\partial L}{\partial W}\Big)^2

W=Wη1h+ϵLWW=W- \eta \displaystyle\frac{1}{\sqrt{h+\epsilon}}\frac{\partial L }{\partial W}

Adam

RMS-prop + Momentum

Regularization

Overfitting

test dataset을 예측할 때 낮은 성능

Underfitting

train dataset에서 훈련 부족

Regularization

과적합 모델은 큰 가중치를 가짐
큰 가중치에 penalize를 위해 손실 함수에 reularization term 사용

L1L2
가중치 절댓값의 합가중치 제곱의 합
λj=0MWj\lambda \displaystyle\sum_{j=0}^{M}\lvert W_j\rvertλj=0MWj2\lambda \displaystyle\sum_{j=0}^{M}W_j^2

Drop out

훈련 과정에서 랜덤하게 몇 가중치 제외
가중치 편향과 큰 값을 가지는 것 방지
테스트 모드에서는 사용하지 않음

Batch normalization

입력 배치 데이터의 평균, 분산에 따라 안정적인 분포값 반환
활성화 함수 전 안정적 입력 생성

ref

Spatial Uncertainty Sampling for End-to-End Control
Train faster, generalize better: Stability of stochastic gradient descent

0개의 댓글