로우 데이터 -> 데이터 전처리
데이터 전처리 -> 학습 및 검증
나중에 최종 모델을 결정하기 위해서는
- Model 소스 코드
- Evaludation Metric 결과
- 사용한 parameters
- Model.pkl 파일
- 학습에 사용한 데이터
- 데이터 전처리용 코드
- 전처리된 data
...
...
문제점:
- 비슷한 작업이 반복적으로 일어남
- Dependency 패키지들이 많고, 버전관리가 어렵다
- 사람 Dependency가 생긴다.
- 테스트가 어렵다.
- Reproducce 되지 않는 경우가 많다.
- Model 학습용 코드를 구현하는 사람과 Serving용 코드를 구현하는 사람이 분리 되어있다.
......
......
mlflow tracking
mlflow projects
mlflow models
mlflow model registry
트래킹 서버는 로컬 파일 시스템이나 sqlite, postgresql 등을 백엔드로 사용해서 클라이언트가 저장해달라고 요청한 모델 혹은 모델 관련 메타 정보들을 모두 백엔드 스토리지에 기록한다.
추후 클라이언트가 정보 요청을 하면,
db를 확인해서 정보를 return한다.
모델과 관련된 데이터나 큰 데이터들은 아티팩트 스토어를 별도로 지정해서,
S3과 같은 스토리지에 저장을 할 수 있다.