ADAM
RMSPROP
Paged Optimizer optimizer state의 paged memory를 CPU와 GPU간 이동시키는 것. gradient checkpointing 동안 mini batch가 긴 시퀀스를 처리하는데 발생하는 gradient checkpoint memory spike를 방지하기 위해 사용.