딥러닝 학습률의 개념부터 문제 해결 팁까지
딥러닝을 공부하다 보면 가장 많이 마주치게 되는 하이퍼파라미터 중 하나가 바로 Learning Rate(학습률)입니다.
간단한 개념부터, 너무 크거나 작을 때 생기는 문제, 그리고 실무에서 어떻게 활용하는지까지 정리해봤어요.
딥러닝 모델이 파라미터를 얼마나 크게 업데이트할지 결정하는 값입니다.
경사하강법(Gradient Descent)에서는 다음과 같은 식으로 파라미터를 업데이트하죠:
여기서
크게 설정하면 한 번에 멀리 이동하고, 작게 설정하면 조금씩 천천히 이동합니다.
1e-4 ~ 1e-2
범위가 자주 사용됩니다증상
- loss curve가 불안정하게 요동침
- 손실이 갑자기 증가하거나 NaN 발생
증상
- loss가 천천히 감소
- 너무 많은 epoch이 필요함
아래 그림 출처 링크
Learning Rate | 발생 가능한 문제 |
---|---|
너무 큼 | 발산, 손실 불안정, NaN 발생 |
너무 작음 | 학습 지연, 리소스 낭비 |
적절함 | 손실 안정적 감소, 효율적 학습 |
Learning Rate는 작게 설정하면 시간이 오래 걸리고,
크게 설정하면 발산할 수 있는 양날의 검입니다.
적절한 값을 찾는 것이 매우 중요하며,
학습률 스케줄링이나 옵티마이저 선택도 학습 성능에 큰 영향을 미칩니다.