Data Management w. DVC

Eunbin Park·2022년 9월 5일

MLOps

목록 보기
1/1

데이터 및 모델 버전 관리 방법

  • git과 함께 사용된다
  • dataset 및 ml model versioning
  • 대부분의 Storage 와 호환 가능
    - S3, Google Cloud, SSH 등에 저장 가능
  • Data Pipeline 을 DAG로 관리 가능
  • .dvc 파일을 이용해 데이터 업/다운로드가 가능하다

실습

pip install dvc[all]

dvc --version
# 2.24.0

Settings

  1. 원하는 Directory 에서 git / dvc 초기화 진행
git init
dvc init

추적할 데이터를 준비해둔다

echo 'Hello World' > data.txt

DVC 기본 명령어

Add

dvc add data.txt
cat data.txt.dvc

data.txt.dvc 에는 data.txt 파일의 메타정보값을 보유하고 있으며, git에서는 본 파일이 아닌 .dvc파일만을 관리한다

remote with GDrive

dvc remote add -d storage gdrive://<GOOGLE_DRIVE_FOLDER_ID>

push & pull

rm -rf .dvc/cache/

# dvc push 했던 데이터를 삭제합니다.
rm -rf data.txt

# dvc pull 로 업로드했던 데이터 다운로드
dvc pull

checkout

# 데이터 변경 처리
vim data.txt 

dvc add data.txt
git add data.txt.dvc
git commit -m "Update data.txt" data.txt.dvc

dvc push # remote storage 에 push 
git push # .dvc 파일 업로드

# git log 를 확인합니다.
git log --oneline

# data.txt.dvc 파일을 이전 commit 버전으로 롤백
git checkout <COMMIT_HASH> data.txt.dvc

# data.txt 파일을 이전 버전으로 변경
dvc checkout

0개의 댓글