[docker] load_dataset cache_dir

yoonene·2024년 5월 16일
0

도커 컨테이너 내에서 load_dataset을 실행하면 cache_dir의 default path가 /root/.cache/huggingface/datasets이다.
이렇게 되면 컨테이너 내부에 캐시가 저장되고 호스트 시스템에는 저장되지 않는다.

[이슈]

본인의 경우 대용량 데이터셋을 불러오다가 var/lib/docker의 디스크가 캐시 때문에 가득차버리는 문제가 있었다.

[해결]

이를 해결하기 위해 여유가 있는 디스크를 도커에 볼륨 마운트하고, 해당 경로를 cache_dir로 설정해주었다.

dataset = load_dataset(
		{dataset_name},
        cache_dir={마운트 경로},
    )

정리

  • 즉, 디폴트는 컨테이너 내부에 저장되고, 마운트한 경로로 cache를 저장하면 컨테이너 내부가 아닌 호스트 시스템에 저장된다.
  • 이렇게 호스트 시스템에 저장된 캐시는 컨테이너를 내리더라도 유지된다.
  • 용량이 큰 데이터를 받아야 하는데 도커가 설치된 디스크 용량이 부족하다면, 용량이 큰 경로를 마운트해서 사용하면 된다.
profile
NLP Researcher / Information Retrieval / Search

0개의 댓글