multi GPU로 data parallel하여 학습하려고 했는데
OOM 에러와
ERROR:torch.distributed.elastic.multiprocessing.api:failed (exitcode: 1) local_rank: 1 (pid: 2762685)
이런 오류가 났다.
이런저런 시도를 하다 모델 사이즈를 작은 걸로 바꿨더니 해결됐다.
그래서 모델은 기존 걸로 하고 배치를 512에서 128까지 줄여서 돌리면 될 줄 알았는데 또 OOM이 났다.
그래서 data parallel말고 model parallel로 해봤다. 이건 돌아갔다.
GPU 환경에 비해 모델이 많이 커서 오류가 나는 것 같다.
설정해두신 default인 polyglot-ko-3.8b 모델과 512 배치로 돌리려면 더 많은 GPU가 필요하거나 deepspeed 등으로 메모리 효율을 높여야 할 것 같다.