AdamW

우수민·2021년 7월 18일
0
  • Adam은 만능 optimizer처럼 사용된다. 하지만 일부 task, 특히 컴퓨터 비젼 task에서는 momentum을 포함한 SGD에 비해 일반화가 많이 뒤쳐진다는 결과들이 있다.

  • AdamW를 소개한 논문 “Decoupled weight decay regularization”에서는 L2 regularization과 weight decay 관점에서 Adam이 SGD이 비해 일반화 능력이 떨어지는 이유를 설명하고 있다.

참고 : https://hiddenbeginner.github.io/deeplearning/paperreview/2019/12/29/paper_review_AdamW.html

profile
데이터 분석하고 있습니다

0개의 댓글