[ DeepML-CS231n ] Lec. 6 Training Neural Network - I

나융·2021년 10월 13일
0

aiffel

목록 보기
6/12

[OK, Let's get started!]

Mini-batch SGD

Loop:

  1. Sample a batch of data\
    배치를 통해 자원을 효율적으로 사용\
  2. Forword prop it through the graph(network), get loss\
    네트워크 연결을 상세하게 설정하고, loss 계산식을 수립\
  3. Backprop to calculate the gradients\
  4. Update the parameters using the gradient\
    변화율 계산 -> 역전파\

Overview

  1. One time setup
    Activation functions, preprocessing, weight, initialization, regularization, gradient checking
  2. Training dynamics
    Babysitting the learning process
    Parameter updates, hyperparameter optimization
  3. Evaluation
    Model ensembles
  • 단계별로 나누어 제작하게되면 진행도를 쉽게 체크할 수 있다

Activation Functions

1. Sigmoid

  • Squashes numbers to range [0,1]
  • Nice interpretation as a saturating firing rate of a neuron

But, 3 problems:
1. Saturated neurons 'kill' the gradient.
뉴런이 포화되어 변화율이 사라진다
2. Sigmoid outputs are not zero-centered.
중앙값이 0 이 아니다보니 끊임 없이 상승할 우려가 있음 gradient exploding
3. Exp() is a bit computate expansive

2. Tanh

  • Still, kills gradients when saturated

3. ReLU, Rectified Linear Unit

  • Does not saturate (in + region)
  • Very computationally efficient
  • Converges much faster than sigmoid/tanh in practice(e.g. 6x)
  • Actually more biologically plausible than sigmoid
  • Still, not zero-centered output

TLDR In practice:

  • Use ReLU, Be careful with your learning rate
  • Try out Leaky ReLU, Maxout, ELU
  • Try out tanh, but don't expect much
  • Don't use sigmoid
  • -> or brandnew GELU!!

Data processing

  1. Original data
  2. Zero-centered data : X -= np.mean(X, axis=0)
  3. Normalized data : X /= np.std(X, axis=0)

Weight initialization

What if weights are all zero? Or too small or big?
-> Xavier initialization, Glorot et al., 2010


Batch Normalization

각 레이어 앞에서 입력 값에 대해 정규화 작업을 추가함.
Batch normalization , residual network -> 좀더 공부가 필요함

  • Improves gradient flow through the network
  • Mini-batch mean -> mini-batch variance -> normalize -> scale and shift
  • 데이터 분포가 잘 나타날 수 있도록 도와줌과 동시에, learning rate 과 결함하여 효율적인 계산을 도와준다고 되어있음

Babysitting the learning process

Double check that the loss is reasonable:

Disable regularization first. Crack up ragularization, then observe the loss to go up

Start with small regularization and find learning rate that makes the loss go down

Loss not going down: learning rate too low
Loss exploding: learning rate too high
-> Loss 로 학습 상태를 판단 -> hyperparameter 들을 조정하여 성능 개선


Hyperparameter optimization

  • Random search
  • Monitor and visualize the loss surve:
    -> Too stiff or too flat, high or low learning rate
  • Monitor and visualize the accuracy:
    -> big gap = overfitting

    Loss 와 Acc.(다른 지표도) 를 해석할 수 있어야 함


새롭게 알게 된 것들

  • batch normalization : 얼마나 중요한지 모르고 넘어가고 있었는데 자세하게 파악해볼 필요가 충분하다
    -> 최신 모델들에 거의 정석처럼 포함된다 conv. + batchnorm + activation
  • 지표들을 확인하면서 하이퍼파라미터를 조정하는 작업이 제일 흥미롭다 baby sitting 이라고 표현한 루틴을 기억해두자

한 주의 회고

  • 새롭게 배우는 내용, 알고있던 내용, 계속 처리해야할 노드 들이 엉키면서 정신없는 시간을 보내고 있다.
  • 시간을 효율적으로 사용하는 것, 기록을 꼼꼼하게 남기는 것, 메모를 잊지말고 확인하는 것 등 기본적인 활동들이 중요하다고 느끼고 있다
  • 진짜 딥러닝을 다룬다고 말할 수 있는 상태가 오기까지 꽤 오랜시간이 걸린 것 같다 개인적으로 성장한 것 같아서 조금 뿌듯
  • 운동도 함께해야할 것 같은데, 나에게 도대체 시간이 있을까?

다음 주의 다짐

  • 학습해야할 내용 리스트가 늘어가고 있어 정리가 필요하다 주말을 이용해서 확인하기
  • 내가 알고 있는 내용들을 내가 설명할 수 있을 때까지 공부하는게 필요한 것 같다.
  • 일정 시간을 정해서 운동하기
profile
딥러닝 한발짝

0개의 댓글

관련 채용 정보