AdamWR, cosine annealing, warm restart

Dongbin Lee·2021년 2월 12일
0

AI study

목록 보기
3/6

AdamW글의 포스트가 2개로 나뉘어져 있어, 두번 째 포스트 또한 adamw에 대한 내용일 줄 알았는데 AdamWR에 대한 내용이다.

AdamWR에서는 learning rate annealing과 warm restart에 대한 내용을 바탕으로 시작된다.

https://hiddenbeginner.github.io/deeplearning/paperreview/2020/01/04/paper_review_AdamWR.html

저자의 결론의 마지막이 재미있게 작성이 되어있다.

  1. Adaptive gradient methods 들은 L2 regularzation에 의한 weight decay 효과를 온전히 볼 수 없다.
  2. L2 regularziation에 의한 weight decay 효과와 별개로 weight decay를 weight 업데이트식에 넣어주었다.(decoupled weight decay)
  3. Learning rate schedule이 Adam의 성능 상승에 도움을 줄 수 있다는 것을 확인하였다.
  4. Warm restart까지 적용하면 밥도둑
profile
Preparation student who dreams of becoming an AI engineer.

0개의 댓글