
S3, Google drive, Azure등 다양한 스토리지에 데이터를 저장할 수 있도록 호환됨
git과 유사한 인터페이스를 가짐
# 모든 remote storage의 dependency 다운로드 (설치 시간 오래 걸림 )
pip install 'dvc[all]'
# S3용 DVC 다운로드
pip install 'dvc[s3]'
# 구글 드라이브용 DVC 다운로드
pip install 'dvc[gdrive]'
# SSH용 DVC 다운로드
pip install 'dvc[ssh]'
# 모든 remote storage의 dependency 다운로드 (설치 시간 오래 걸림 )
poetry add 'dvc[all]'
# S3용 DVC 다운로드
poetry add 'dvc[s3]'
# 구글 드라이브용 DVC 다운로드
poetry add 'dvc[gdrive]'
# SSH용 DVC 다운로드
poetry add 'dvc[ssh]'
# git initialize
git init
# dvc initialize
dvc init
# git 없이 dvc 사용하기
# 권장하지는 않음
dvc init --no-scm
# 내 로컬의 /store 폴더에 저장하기
dvc remote add -d storage /store
# 구글 드라이브에 저장
# 저장소 URL: https://drive.google.com/drive/u/1/folders/<YOUR_UNIQUE_KEY>
dvc remote add -d storage gdrive://<YOUR_UNIQUE_KEY>
dvc add <YOUR_DATA>
# <YOUR_DATA>.dvc 파일 생성
dvc push
dvc pull <YOUR_DATA>.dvc
데이터 용량이 15GB이고 4명이서 작업을 한다면, 데이터 복사본의 총 용량은 60GB가 됨
동일한 데이터라면 중앙에 집중화하는 것이 효율적
이를 위한 기능이 dvc cache
dvc cache dir <YOUR_CACHE_DIR>
dvc config cache.shared group
dvc config cache.type symlink # symbolic link(바로가기) 생성