[밑바닥부터 시작하는 딥러닝1] 03. 신경망 학습 관련 기술

권유진·2022년 1월 1일

가중치 초기값 설정 드롭아웃 딥러닝 밑바닥부터 시작하는 딥러닝 자습 정규화 최적화 알고리즘

밑바닥부터 시작하는 딥러닝 공부

목록 보기

3/8

최적화

매개변수의 최적값 찾는 문제

확률적 경사하강법(Stochastic Gradient Descending) $W \larr W - \eta \cfrac{\partial L}{\partial W}$

기울어진 방향으로 일정 거리만 이동
단순하지만 비효율적(특히 비등방성 함수에서 비효율적)

모멘텀(Momentum) $\begin{aligned} v &\larr \alpha v - \eta \cfrac{\partial L}{\partial W}\;\;\;\; (속도)\\ W &\larr W + v \end{aligned}$

운동량, 물리법칙을 응용한 방법
내려 오던 관성 방향으로 또 가자

NAG(Nestrov Accelrated Gradient) $v \larr \alpha v - \eta \cfrac{\partial L}{\partial (W-\alpha v)}\\ W \larr W + v$

모멘텀은 update과정에서 관성에 의해 최적점을 지나칠 수 있다.
NAG는 모멘텀으로 이동된 지점에서 기울기를 활용하여 update를 수행하기 때문에 이러한 문제 해소(멈춰야하는 곳에서 제동)

AdaGrad(Adaptive Gradient) $h \larr h + \cfrac{\partial L}{\partial W} @\cfrac{\partial L}{\partial W}\\ W \larr W - \eta \cfrac{1}{\sqrt{h}} \cfrac{\partial L}{\partial W}$

학습률 감소기법 사용
처음에는 크게 학습하다가 점점 작게 학습
학습률 감소가 매개변수의 원소마다 다르게 적용
학습할수록 갱신량이 0에 수렴

RMSProp $G_t = \gamma G_{t-1} + (1-\gamma)(\cfrac{\partial L}{\partial W})^2\\ W_{t+1} = W_t - \cfrac{\eta}{\sqrt{G_t+\epsilon}}\cfrac{\partial L}{\partial W}$

AdaGrad를 지수이동평균을 이용하여 개선
먼 과거의 기울기는 잊고, 새로운 기울기를 크게 반영한다.

Adam(Adaptive Moment Estimation) $m_t = \beta_1m_{t-1} + (1-\beta_1)\cfrac{\partial L}{\partial W}\\ v_t = \beta_2m_{t-1} + (1-\beta_2)(\cfrac{\partial L}{\partial W})^2\\ w_{t+1} = w_t - m_t \cfrac{\eta}{\sqrt{v_t+\epsilon}}$

RMSprop과 Momentum을 합친 기법
초기 몇 번의 update에서 0으로 편향되어 있어 하이퍼파라미터 편향 보정 진행
하이퍼파라미터 3개 설정 ( $\eta$ -학습률, $\beta_1$ -1차 모멘텀용 계수, $\beta_2$ -2차 모멘텀용 계수)
$\epsilon = 0.1^{-8}$ , $\beta_1 = 0.9$ , $\beta_2 = 0.999$ 추천

Nadam $m_t = \beta_1 m_{t-1} + (1 - \beta_1)\cfrac{\partial L}{\partial W_t}\\ \hat{m_t} = \cfrac{m_t}{1-\beta_1^t}\\ \theta_{t+1} = \theta_t - \cfrac{\eta}{\sqrt{\hat{v_t}}+\epsilon}\hat{m_t}\\ \theta_{t+1} = \theta_t - \cfrac{\eta}{\sqrt{\hat{v_t}}+\epsilon}(\cfrac{\beta_1m_{t-1}}{1-\beta_1^t}+\cfrac{(1-\beta_1)\cfrac{\partial L}{\partial W_t}}{1-\beta_1^t})\\ \theta_{t+1} = \theta_t - \cfrac{\eta}{\sqrt{\hat{v_t}}+\epsilon}(\beta_1\hat{m_{t-1}}+\cfrac{(1-\beta_1)\cfrac{\partial L}{\partial W_t}}{1-\beta_1^t})\\ \therefore \theta_{t+1} = \theta_t - \cfrac{\eta}{\sqrt{\hat{v_t}}+\epsilon}(\beta_1\hat{m_{t}}+\cfrac{(1-\beta_1)\cfrac{\partial L}{\partial W_t}}{1-\beta_1^t})$

Adam은 RMSprop과 Momentum을 합친 기법이지만, Nadam은 RMSprop과 NAG를 합친 방법
NAG는 변형하여 사용
- $m_{t-1}$ 을 gradient를 업데이트 할 때와, $w$ 를 업데이트할 때 2번 사용
- $m_{t-1}$ 대신 $m_t$ 사용

가중치 초기값 설정

가중치 감소기법(weight decay)

오버피팅을 억제해 범용 성능 높이는 테크닉
가중치 매개변수의 값이 작아지도록 학습
그렇게 하기 위해 초깃값도 최대한 작은 값에서 시작
- 그렇다고 하여 초기값을 0으로 설정할 시, 학습이 올바르게 시행되지 않음
- 오차역전파법에서 모든 가중치의 값이 똑같이 갱신되기 때문

$\therefore$ 초기값을 무작위로 설정해야 함.

가중치를 표준편차( $\sigma$ )가 1인 정규분포로 초기화
- 0과 1에 치우쳐 분포(= 기울기 소실)
가중치를 표준편차( $\sigma$ )가 0.01인 정규분포로 초기화
- 0.5 부근에 집중됨 $\rarr$ 다수의 뉴런이 거의 같은 값 출력, 표현력이 제한됨

$\therefore$ 이 사이의 적당한 표준편차 값 지정하여 sampling해야 함!

Xavier 초기값

\sigma = \cfrac{1}{\sqrt n}

n은 앞 계층의 노드 개수이다.
S자형 함수(Sigmoid, tanh)에 적합.

He 초기값

\sigma = \sqrt{\cfrac{2}{n}}

n은 앞 계층의 노드 개수이다.
ReLU에 특화된 초기값
음이 영역이 0이라서 더 넓게 분포시키기 위해 2배의 계수가 필요

배치 정규화(Batch Normalization)

활성화 값이 적당히 분포되도록 조정

이점
- 학습 속도 개선
- 초기값에 크게 의존하지 않는다.
- 오버피팅 억제
미니배치 단위로 평균이 0, 표준편차가 1이 되도록 정규화 $\hat{x} \larr \cfrac{x-\mu}{\sqrt{\sigma+\epsilon}}$
활성화 함수의 앞 또는 뒤에 위치함으로써 분포가 덜 치우치게 함
정규화된 데이터에 고유한 확대(scale)와 이동(shift) 변환 수행
$y \larr \gamma \hat{x} + \beta$
- $\gamma$ 가 확대, $\beta$ 가 이동을 담당
- $\gamma = 1$ , $\beta = 0$ (원본 그대로)부터 시작하여 학습하면서 적합한 값으로 조정
Batch Normalization의 단점 극복한 Layer Normalization 기법 등장

오버피팅

발생하는 경우
- 매개변수가 많고 표현력이 높은 모델 사용
- 훈련 데이터가 적음

가중치 감소
학습 과정에서 큰 가중치에 대해서는 그에 상응하는 큰 penalty 부여

$L_2\, norm$ 활용한 예시
- 모든 가중치 각각의 손실 함수에 $\cfrac{1}{2}\lambda W^2$ 을 더함( $\lambda$ : 정규화 정도 정함)
- 기울기를 구하는 계산에서는 오차역전파법의 결과에 $\lambda W$ (정규화항 미분값) 곱함

$L_1\,norm$ : $|w_1| + |w_2| + ... + |w_n|$
$L_2\,norm$ : $\sqrt{w_1^2 + w_2^2 + ... + w_n^2}$
$L_{\inf}\,norm$ : 각 원소의 절대값 중 가장 큰 값

드롭아웃(Dropout)

학습 시마다 은닉층의 뉴런을 무작위 삭제
시험 때는 모든 뉴런 사용 후, 각 뉴런의 출력에 훈련 때 삭제안한 비율 곱
뉴런을 무작위로 삭제하는 행위는 매번 다른 모델을 학습하는 것과 같은 효과( $\sim$ 앙상블 학습)

적절한 하이퍼파라미터 값 찾기

검증 데이터 사용

하이퍼파라미터 성능 검증 시 시험 데이터를 사용하면 안됨( $\because$ 오버피팅)
훈련데이터는 매개변수 학습, 검증데이터는 하이퍼파라미터 성능 평가, 시험데이터는 신경망의 범용 성능 평가에 사용

하이퍼파라미터 최적화

그리드 서치(Grid Search)
랜덤 서치(Randomized Search)
베이지안 최적화(Bayesian Optimization)

참고
밑바닥부터 시작하는 딥러닝 (사이토 고키)
https://onevision.tistory.com/entry/Optimizer-%EC%9D%98-%EC%A2%85%EB%A5%98%EC%99%80-%ED%8A%B9%EC%84%B1-Momentum-RMSProp-Adam
https://hiddenbeginner.github.io/deeplearning/2019/09/22/optimization_algorithms_in_deep_learning.html#NAdam

권유진

데이터사이언스를 공부하는 권유진입니다.

이전 포스트

[밑바닥부터 시작하는 딥러닝1] 02. 순전파 및 역전파

다음 포스트

[밑바닥부터 시작하는 딥러닝1] 03. 신경망 학습 관련 기술

밑바닥부터 시작하는 딥러닝 공부

최적화

가중치 초기값 설정

가중치 감소기법(weight decay)

Xavier 초기값

He 초기값

배치 정규화(Batch Normalization)

오버피팅

적절한 하이퍼파라미터 값 찾기

[밑바닥부터 시작하는 딥러닝1] 02. 순전파 및 역전파

[밑바닥부터 시작하는 딥러닝1] 04. 합성곱 신경망(CNN)

0개의 댓글