도커 컨테이너 내에서 load_dataset을 실행하면 cache_dir의 default path가 /root/.cache/huggingface/datasets
이다.
이렇게 되면 컨테이너 내부에 캐시가 저장되고 호스트 시스템에는 저장되지 않는다.
본인의 경우 대용량 데이터셋을 불러오다가 var/lib/docker의 디스크가 캐시 때문에 가득차버리는 문제가 있었다.
이를 해결하기 위해 여유가 있는 디스크를 도커에 볼륨 마운트하고, 해당 경로를 cache_dir로 설정해주었다.
dataset = load_dataset(
{dataset_name},
cache_dir={마운트 경로},
)