Training

BERT·2023년 5월 29일

Perception

목록 보기

5/20

Training

Training model

Feed forward & backward $\rarr$ 가중치는 훈련 데이터에 적합하게 업데이트

Optimizer

경사 하강의 목표는 손실 함수의 최소화

SGD

update gradients per one data

MGD

mini-batch gradient descent

$W=W-\eta\displaystyle\frac{\partial L}{\partial W}$

Momentum

velocity term keep going weight's previous gradient direction

$W=W+\alpha v-\eta\displaystyle\frac{\partial L}{\partial W}$

AdaGrad

Adaptive Gradient

$h = h+\Big( \displaystyle\frac{\partial L}{\partial W}\Big)^2$

$W=W- \eta \displaystyle\frac{1}{\sqrt{h}}\frac{\partial L }{\partial W}$

RMS-prop

exponential moving average

$h = \rho h+(1-\rho) \Big( \displaystyle\frac{\partial L}{\partial W}\Big)^2$

$W=W- \eta \displaystyle\frac{1}{\sqrt{h+\epsilon}}\frac{\partial L }{\partial W}$

Adam

RMS-prop + Momentum

Regularization

Overfitting

test dataset을 예측할 때 낮은 성능

Underfitting

train dataset에서 훈련 부족

Regularization

과적합 모델은 큰 가중치를 가짐
큰 가중치에 penalize를 위해 손실 함수에 reularization term 사용

L1	L2
가중치 절댓값의 합	가중치 제곱의 합
$\lambda \displaystyle\sum_{j=0}^{M}\lvert W_j\rvert$	$\lambda \displaystyle\sum_{j=0}^{M}W_j^2$

Drop out

훈련 과정에서 랜덤하게 몇 가중치 제외
가중치 편향과 큰 값을 가지는 것 방지
테스트 모드에서는 사용하지 않음

Batch normalization

입력 배치 데이터의 평균, 분산에 따라 안정적인 분포값 반환
활성화 함수 전 안정적 입력 생성

ref

Spatial Uncertainty Sampling for End-to-End Control
Train faster, generalize better: Stability of stochastic gradient descent

BERT

이전 포스트

CNN

다음 포스트

Training

Perception

Training

Training model

Optimizer

SGD

MGD

Momentum

AdaGrad

RMS-prop

Adam

Regularization

Overfitting

Underfitting

Regularization

Drop out

Batch normalization

ref

CNN

LeNet5_FashionMNIST

0개의 댓글

관련 채용 정보