적절한 오픈소스와 상용 소프트웨어 선정할 때 필요
데이터
-
데이터 수집 파이프라인
- Sqoop, Flume, Kafka, Flink
- Spark Streaming, Airflow
-
데이터 저장
- MySQL, Hadoop, Amazon S3, MinlO
-
데이터 관리
- TFDV, DVC, Feast, Amundsen
모델
-
모델 개발
- Jupyter Hub, Docker, Kubeflow, Optuna
- Ray, Katib
-
모델 버전 관리
- Git, MLflow
- Github Action, Jenkins
-
모델 학습 스케쥴링 관리
서빙
데이터를 받은 후 ML모델의 predict함수를 부른 후 결과를 반환하는 일련의 행위를 코드로 진행되는 것이 아닌 서버에서 API형태로 제공하는 서비스
-
모델 패키징
- Docker, Flask, FastAPI
- BentoML, Kubeflow, TFServing, seldon-core
-
서빙 모니터링
- Prometheus, Grafana, Thanos
-
파이프라인 매니징
- Kubeflow, argo workflows, Airflow