Optimizer

kaeul·2024년 10월 17일
0

first-order optimizers

ADAM

RMSPROP

Paged Optimizer
optimizer state의 paged memory를 CPU와 GPU간 이동시키는 것.
gradient checkpointing 동안 mini batch가 긴 시퀀스를 처리하는데 발생하는
gradient checkpoint memory spike를 방지하기 위해 사용.

profile
Deep learning

0개의 댓글