AdamW

우수민·2021년 7월 18일

0

<책장분석 프로젝트> + 모델 관련 정리

목록 보기

7/11

Adam은 만능 optimizer처럼 사용된다. 하지만 일부 task, 특히 컴퓨터 비젼 task에서는 momentum을 포함한 SGD에 비해 일반화가 많이 뒤쳐진다는 결과들이 있다.
AdamW를 소개한 논문 “Decoupled weight decay regularization”에서는 L2 regularization과 weight decay 관점에서 Adam이 SGD이 비해 일반화 능력이 떨어지는 이유를 설명하고 있다.

참고 : https://hiddenbeginner.github.io/deeplearning/paperreview/2019/12/29/paper_review_AdamW.html

데이터 분석하고 있습니다

이전 포스트

mask rcnn 하이퍼 파리미터

다음 포스트

Batch Normalization

0개의 댓글