gradient checkpointing : gpu에 한번에 안올라가는 모델을 처리하기 위한 방법, 연산량이 늘어나는 대신 차지하는 메모리 양이 줄어든다.
사용방법 : model.gradient_checkpointing_enable()
출처 : https://discuss.pytorch.kr/t/gradient-checkpoint/592