여기 코드 따라하면됨. https://huggingface.co/blog/wav2vec2-with-ngram#4-combine-an-n-gram-with-wav2vec2
<참고>
gpu 개수 per_device_train_batch_size gradient_accumulation_steps = 160 정도 = 한 번에 돌아가는 batch_size