AdamW, one-cycle policy

OpenJR·2023년 3월 24일
0

AdamW optimizer는 Adam optimizer를 기반으로 하며, 가중치 감쇠(weight decay)를 추가한 최적화 방법입니다. Adam optimizer는 일반적으로 높은 학습 속도(learning rate)를 사용하면서도 모멘텀과 RMSProp을 결합하여 좋은 성능을 보이는 최적화 방법 중 하나입니다.

그러나 Adam optimizer는 가중치 감쇠에 대한 영향을 제대로 처리하지 못하는 문제가 있습니다. 이러한 문제를 해결하기 위해 가중치 감쇠를 직접 적용하는 대신, AdamW는 옵티마이저의 학습률에 대한 가중치 감쇠를 수행합니다. 이 방법은 불필요한 가중치 규제를 피할 수 있으며, 모델의 일반화 성능을 향상시킬 수 있습니다.

또한, one-cycle policy는 학습률 스케줄링 방법 중 하나입니다. 이 방법은 학습률을 한번의 주기(one cycle)동안 높은 값을 사용한 뒤, 주기 중간에 학습률을 감소시키는 방법입니다. 이를 통해 학습의 초기 단계에서 높은 학습률로 빠르게 수렴하고, 학습의 후반부에서는 학습률을 낮추어 과적합을 방지하면서 학습을 진행합니다.

따라서 이 두가지 기법을 함께 사용하면 모델의 일반화 성능을 향상시키는 효과를 얻을 수 있습니다.

profile
Jacob

0개의 댓글