Convergence speed

‍박성령·2025년 3월 26일

인공지능

목록 보기

4/8

개요

모델의 수렴을 위해서 고려해볼 수 있는 다음 3가지 방법을 알아보자.

Learning rate
Momentum term
Activation functions

Learning rate

w를 업데이트 할 때 $w = w - \eta \frac{\alpha E}{\alpha W}$ 에서 $\eta$ 가 learnin rate이다. 이는 W를 얼마나 업데이트 할지 정하는 것이다. 즉, gradient를 얼마나 신뢰하는지의 문제인 것이다. 이와 관련하여 다음 그림을 보자.

lr이 너무 낮으면 학습이 안되므로 lr을 높여야 한다.
lr이 너무 높으면 noise에 민감하므로, lr을 줄여야 한다.

LR scheduling

초기엔 lr을 크게 잡았다가 lr을 점점 줄이는 것이 일반적이다. 이러한 LR scheduling의 종류는 다음과 같다.

lr을 줄이는 이유는 처음에는 크게 움직여서 빠르게 학습하고, 나중에는 작게 움직이면서 정밀하게 조정하기 위해서이다.

Learning rate decay는 처음에는 빠르게, 나중에는 정밀하게 학습하려는 전략이다.
수렴을 빠르게 하고, 안정화도 시키는 핵심 기법임

이때, LR을 줄이는 방법으로 다음 두 가지 방법을 많이 사용한다.

Step decay

LR을 step function으로 낮춘다. lr을 매 5번 epochs마다 절반씩 줄여나간다.

Exponential decay

$\eta = \eta_0^{-kt}$ 형태 지수 형태로 값을 줄여나간다.
여기서 $\eta_0$ 와 $k$ 는 직접 넣어야하는 hyperparameters이다.

Momentum

다음 그림을 살펴보자.

최적의 W값은 Global minima에 있는데, local minima가 optimal하다고 판단해서 이쪽으로 수렴해버릴 수 있다.
이를 막기위한 방법이 Momentum이다.

Momentum

Momentum의 사전적 정의는 외부에서 힘을 받지 않는 한 정지해 있거나 운동 상태를 지속하려는 성질이다. 이를 이용하여 모델을 학습 시킬 때, 이전에 이동했던 방향을 기억하면서 이전 기울기의 크기를 고려하여 어느 정도 추가로 이동시킨다. 이를 식으로 확인하면 다음과 같다.

이전에 누적된 gradient에서 현재 gradient의 값을 빼는 것이다.