learning rate & batch size의 관계

김성욱·2021년 3월 25일

딥러닝 정리

1. learing rate

- Too low

전역 최적점에 도달하기까지 매우 오랜 시간이 걸린다.

- Too high

전역 최적점으로 수렴하지 않고 발산 하게 된다.

-> 처음에는 높게, 이후에는 조금씩 줄이는것이 논리적.

2. SGD

SGD는 train dataset 중 랜덤하게 일부만 뽑아 loss에 대한 gradient를 계산

위 식은 scale of random fluctuation으로 랜덤성을 나타냄
m - momentum , N = train data size
e = lr , B = batch size
N(5000~)은 일반적으로 B(8, 16, 32, 64)보다 크므로
근사시키면
따라서 lr의 감소와 B의 증가는 같은 효과

하지만 B의 증가는, 메모리가 허락하는 한 학습의 속도를 증가시키기 때문에 N의 감소보다 효율적이다.

천재(진)

다음 포스트

015 ROS의 종합 GUI 툴 RQt 김성욱

0개의 댓글