MLflow

-·2022년 1월 17일

강의정리 - MLOps

목록 보기

14/18

이번에도 마찬가지로 강의영상은 없이 강의자료를 통해 정리를 하려고 한다.
저번 Logging 강의자료에서 느꼈지만 강의자료만으로 인터넷 검색이 거의 불필요했다. 몹시 쉽게 잘 정리된 강의자료라서 이해도 잘되고 기초를 쌓기 좋았다. Logging의 경우 실습을 진행하지 않았는데, 후에 한 번에 실습을 진행하며 인터넷을 뒤져보고, 익히며 따로 정리해보겠다.
github repo를 보며 따라가는 정도?!

이 글은 네이버 부스트캠프 ai tech 변성윤님의 강의자료를 정리한 글입니다. 문제가 있거나 틀린점이 있다면 말씀해주세요! :)

MLflow 개념잡기

MLflow가 없던 시절

사람들이 각자 자신의 코드를 Jupyter Notebook에서 작성
머신러닝 모델 학습시 사용한 Parameter, Metric을 따로 기록
구글 스프레드시트 활용하여 모델,파라미터 등등 활용
개인컴퓨터, 연구실 서버를 사용하다가 메모리 초과로 Memory Exceed 오류 발생 -> 기록 못했다.
학습하며 생긴 Weight File을 저장해 다른 동료들에게 공유
Weight File 이름으로 Model Versioning을 하거나 아예 Versioning을 하지 않음

MLflow가 해결하려고 했던 Pain Point

실험을 추적하기 어렵다.
코드를 재현하기 어렵다.
모델을 패키징하고 배포하는 방법이 어렵다.
모델을 관리하기 위한 중앙 저장소가 없다.

MLflow란

머신러닝 실험, 배포를 쉽게 관리할 수 있는 오픈소스

관련 오픈소스 중 제일 빠르게 성장 중
맛보기
CLI, GUI(웹 인터페이스) 지원

Code 예시

import numpy as np 
from sklearn.linear_model import LinearRegression
import mlflow

def main():
	#enable autologging
    mlflow.autolog(log_input_examples=True)
    
    #prepare training data
    x= np.array([[1,1],[1,2],[2,2],[2,3]])
    y= np.dot(X,np.array(1,2))+3
    
    #train a model
    model= LinearRegression()
    with mlflow.start_run() as run:
    	model.fit(X,y)
        print("Logged data and model in run {}".format(run.info.run_id))

if __name__=="__main__":
	main()

with mlflow.start_run() as run: 과 run.info.run_id를 통해 간단하게 기록할 수 있다.

예전 모델서빙 강의 초반부에 타코집 예시에서 (나는 옷가게에 비교하려했었다.)
집에서 요리만들때, 레시피를 기록해야 어떤 조합이 좋은지 알 수 있음(파라미터, 모델 구조 등) => mlflow
여러 시행착오를 겪으며 요리함(머신러닝 모델링도 많은 실험을 함!) => mlflow
이 레시피에서 제일 맛있었던(성능이 좋았던)레시피를 레스토랑에 사용한다 => mlflow
요리 만드는 과정에서 생기는 부산물 저장!(=모델 Artifact, 이미지 등) => mlflow
타코(모델)은 다양한 종류가 있으므로 언제 만든 타코인지(=모델 생성일), 얼마나 맛있었는지(모델 성능), 유통기한 등(=모델 메타 정보)을 기록해둘 수 있음 => mlflow
언제부터 닭고기 타코, 돼지고기 타코, 부리또를 만들어 판매(=여러 모델 운영) => mlflow

위의 기능들,, 혹시 WandB의 상위호환 버전인가?!

MLflow 핵심 기능 !

1. Experiment Management & Tracking

머신러닝 관련 "실험"들을 관리하고, 각 실험의 내용들을 기록할 수 있음
-- 예를 들어, 여러 사람이 하나의 MLflow 서버위에서 각자 자기 실험을 만들고 공유할 수 있음
실험을 정의하고, 실험을 실행할 수 있음. 이 실행은 머신러닝 훈련 코드를 실행한 기록
-- 각 실행에 사용한 소스 코드, 하이퍼 파라미터, Metric, 부산물(모델 Artifact, Chart Image)등을 저장

2. Model Registry

MLflow로 실행한 머신러닝 모델을 Model Registry(모델 저장소)에 등록할 수 있음
모델 저장소에 모델이 저장될 때마다 해당 모델에 버전이 자동으로 올라감(Version 1->2->3..)
Model Registry에 등록된 모델은 다른 사람들에게 쉽게 공유 가능하고, 쉽게 활용할 수 있음

Git과 docker와 유사하다?!

3. Model Serving

Model Registry에 등록한 모델을 REST API형태의 서버로 Serving 할 수 있음
Input = Model의 Input
Output = Model의 Output
직접 Docker Image 만들지 않아도 생성할 수 있음

MLflow Component

1. MLflow Tracking

머신러닝 코드 실행, 로깅을 위한 API, UI
MLflow Tracking을 사용해 결과를 Local, Server에 기록해 여러 실행과 비교할 수 있음
팀에선 다른 사용자의 결과와 비교하며 협업할 수 있음

2. MLflow Project

머신러닝 프로젝트 코드를 패키징하기 위한 표준
Project
-- 간단하게 소스코드가 저장된 폴더
-- Git Repo
-- 의존성과 어떻게 실행해야 하는지 저장
MLflow Tracking API를 사용하면 MLflow는 프로젝트 버전을 모든 파라미터와 자동으로 로깅

3. MLflow Model

모델은 모델파일과 코드로 저장
다양한 플랫폼에 배포할 수 있는 여러 도구 제공
MLflow Tracking API를 사용하면 MLflow는 자동으로 해당 프로젝트에 대한 내용을 사용함

4. MLflow Registry

MLflow Model의 전체 Lifecycle에서 사용할 수 있는 중앙 모델 저장소

MLflow 실습하며 알아보기

pip install mlflow

Experiment(실험)

MLflow에서 제일 먼저 Experiment를 생성
하나의 Experiment는 진행하고 있는 머신러닝 프로젝트 단위로 구성
-- 예) "개/고양이 이미지 분류 실험", "택시 수요량 예측 분류 실험"
정해진 Metric으로 모델을 평가
-- 예) RMSE, MSE, MAE, Accuracy
하나의 Experiment는 여러 Run(실행)을 가짐

mlflow experiments create --experiment-name my-first-experiment

ls -al

을 사용해 폴더 확인하면 mlruns라는 폴더가 생김

mlruns/0/meta.yaml
mlruns/1/meta.yaml
생성됨. 얘넨 초기세팅으로 주는듯 하다.

~~역시 까불지말고 강의 좀 들을걸.~~

mlflow experiments list

실행하면

로 실험중인 리스트를 확인할 수 있었고, 0은 default 1은 방금 내가 만든 experiment !

폴더를 생성한 후, 머신러닝 코드 생성
JODONG2 참고

mlflow.log_param("penalty",penalty)
mlflow.log_metric("score",score)
mlflow.sklearn.log_model(lr,"model")

MLflow Project
프로젝트(MLProject)

MLflow를 사용한 코드의 프로젝트 메타 정보 저장
프로젝트를 어떤 환경에서 어떻게 실행시킬지 정의
패키지 모듈의 상단에 위치

MLProject생성
MLProject 생성
vi logistic_regression/MLProject

name: tutorial

entry_points:
	main:
		command: "python train.py"

MLflow Tracking - Run
Run(실행)

하나의 Run은 코드를 1번 실행한 것을 의미
보통 Run은 모델 학습 코드를 실행
즉, 한번의 코드 실행 = 하나의 Run 생성
Run을 하면 여러가지 내용이 기록됨

Run에서 로깅하는 것들

Source: 실행한 Project의 이름
Version : 실행 Hash
Start & end time
Parameters : 모델 파라미터
Metrics : 모델의 평가 지표, Metric을 시각화할 수 있음
Tags : 관련된 Tag
Artifacts : 실행 과정에서 생기는 다양한 파일들(이미지, 모델 Pickle 등)

Run으로 실행하기

mlflow run logistic_regression --experiment-name jodong2-first-experiment --no-conda

강의자료 pdf파일에서 예시로 들어준 LogisticRegression의 penalty = 'elasticnet'은 
ValueError:Solver lbfgs supports only 'l2' or 'none' penalties, got elasticnet penalty.
를 띄워준다. LogistrRegression의 default solver는 lbfgs인데 
sklearn의 docs(?)를 확인해보면 

Warning The choice of the algorithm depends on the penalty chosen: Supported penalties by solver:
‘newton-cg’ - [‘l2’, ‘none’]

‘lbfgs’ - [‘l2’, ‘none’]

‘liblinear’ - [‘l1’, ‘l2’]

‘sag’ - [‘l2’, ‘none’]

‘saga’ - [‘elasticnet’, ‘l1’, ‘l2’, ‘none’]
위와 같이 lbfgs는 'l2'와 'none'을 지원해주고 elasticnet은 지원해주지 않는다.
따라서 예시코드의 lr = LogisticRegression(solver='saga',penalty=penalty,l1_ratio=l1_ratio)
로 설정해줘야 elasticnet을 활용 가능하다. jodong2/practice-mlflow 참고

MLflow Tracking - UI

UI실행

mlflow ui
실행한 Run 정보등 확인 가능
-- Run Command, Duration, Parameter, metric, server,..., 등..
Artifacts 확인 :

MLflow Tracking - Experimnet/Run 관계

MLflow autolog

파라미터를 매번 명시해야 할까?

결국 적는 autolog 활용 전 예제 코드

import numpy as np
from sklearn.linear_model import LogistRegression

import mlflow
import mlflow.sklearn

if __name__=="__main__":
	X=np.random.randint(5,size=(80,)).reshape(20,4)
	y=np.random.randint(2,size=(20,))
    
	penalty='elasticnet'
	l1_ratio=0.1
	LR=LogisticRegression(solver='saga',penalty=penalty, l1_ratio=l1_ratio)
	
	LR.fit(X,y)
    
	score=LR.score(X,y)
	print(f"Score:{score}")
    
	mlflow.log_param("penalty",penalty)
	mlflow.log_param("l1_ratio",l1_ratio)
	mlflow.log_metric("score",score)
	mlflow.sklearn_model(LR,"model")

autolog 활용 후 예제 코드

import numpy as np
from sklearn.linear_model import LogistRegression

import mlflow
import mlflow.sklearn

if __name__=="__main__":
	mlflow.sklearn.autolog()
	X=np.random.randint(5,size=(80,)).reshape(20,4)
	y=np.random.randint(2,size=(20,))
	
	penalty='elasticnet'
	l1_ratio=0.1
	LR=LogisticRegression(solver='saga',penalty=penalty, l1_ratio=l1_ratio)
	
	with mlflow.start_run() as run:
		LR.fit(X,y)
    
	score=LR.score(X,y)
	print(f"Score:{score}")

실행
dir name : logistic_regression_with_autolog
실행하기 위한 명령어는 똑같음.
우리가 지정한 파라미터, Metric뿐아니라 기본적으로 제공되는 파라미터, Metric값들을 모두 저장한다.

mlflow run logistic_regression_with_autolog --experimnet-name my-first-experiment --no-conda

주의사항

모든 프레임워크에서 사용 가능한 것은 아님
MLflow에서 지원해주는 프레임워크들이 존재
-- 예) pytorch.nn.Module은 지원하지 않음(반면 Pytorch Lightning은 지원)
자세한 내용은 https://mlflow.org/docs/latest/tracking.html#id2 에서 확인

MLflow Parameter

parameter를 활용하면 파라미터들을 생략할 수 있다.
parameter 활용 전
(train.py)

~~~
penalty = 'elasticnet'
l1_ratio=0.1
LR=LogisticRegression(solver='saga',penalty=penalty,l1_ratio=0.1)
~~~

(MLProject)

name: tutorial

entry_points:
	main:
		command: "python train.py"

parameter 활용 후
(train.py)

import argparse
import sys
~~~

LR=LogisticRegression(sover=sys.argv[1],penalty=sys.argv[2],l1_ratio=float(sys.argv[3])
~~~

(MLProject)

name: tutorial

entry_points:
	main:
    	parameters:
        	solver:
            		type: string
                	default: "saga"
		penalty:
            		type: string
                	default: "elasticnet"
		l1_ratio:
            		type: float
                	default: 0.1
	command: "python train.py {solver} {penalty} {l1_ratio}"

실행하는 커맨드
커맨드가 몹시 길어졌다..
P 옵션을 사용하지 않는다면 MLProject의 default값이 대입된다.

mlflow run logistic_regression_with_autolog_and_params 
-P solver="saga" 
-P penalty="elastic" 
-P l1_ratio=0.01 
--experiment-name jodong2-first-experiment --no-conda

MLflow Hyper Parameter Tuning

autolog와 하이퍼 파라미터 튜닝도 같이 할 수 있음

from sklearn import svm, datasets
from sklearn.model_selection import GridSearchCV

import mlflow

def main():
	mlflow.sklearn.autolog()
	iris = datasets.load_iris()
	parameters={"kernel":("linear","rbf"),"C":[1,10]}
	svc= svm.SVC()
	clf = GridSearchCV(svc,parameters)
	
	with mlflow.start_run() as run:
		clf.fit(iris.data, iris.target)

if __name__ == "__main__":
	main()

kernel에 "linear","rbf"
C에 1, 10
의 파라미터가 존재한다. 총 경우의 수는 4개이고 4번 실행 된 것을 확인할 수 있다.

mlflow run svc_with_hyperparams_tuning --experiment-name jodong2-first-experiment --no-conda

MLflow 아키텍처

파이썬코드(with MLflow package)

모델을 만들고 학습하는 코드
mlflow run으로 실행

from sklearn import svm, datasets
from sklearn.model_selection import GridSearchCV

import mlflow

def main():
	mlflow.sklearn.autolog()
	iris = datasets.load_iris()
	parameters={"kernel":("linear","rbf"),"C":[1,10]}
	svc= svm.SVC()
	clf = GridSearchCV(svc,parameters)
	
	with mlflow.start_run() as run:
		clf.fit(iris.data, iris.target)

if __name__ == "__main__":
	main()

Tracking Server

파이썬 코드가 실행되는 동안 Parameter,Metric,Model 등 메타 정보 저장
파일 혹은 DB에 저장

Artifact Store

파이썬 코드가 실행되는 동안 생기는 Model File, Image등의 아티팩트를 저장
파일 혹은 스토리지에 저장

MLflow 서버로 배포하기

MLflow Tracking Server와 외부 스토리지 사용하기

위의 MLflow architecture에서 Tracking Server는 DB에 연결
mlflow server 명령어로 Backend Store URI 지정

mlflow server --backend-store-uri sqlite:///mlflow.db --default-artifact-root $(pwd)/artifacts

환경변수 지정

export MLFLOW_TRACKING_URI="http://127.0.0.1:5000"

Experiments를 생성한 후, Run

experiments create --experiments-name jodong2-second-experiment

mlflow run svm --experiment-name jodong2-second-experiment --no-conda

데이터 확인 가능

mlflow run
기록 요청(Tracking Server)
DB에 기록(Tracking Server ->DB)
아티팩트 저장 (파이썬 코드 -> Artifact Store)

ls -al

artifacts와 mlflow.db를 확인할 수 있음

MLflow 실제 활용 사례

MLflow Tracking Server는 하나로 통합 운영

Tracking Server를 하나 배포하고, 팀 내 모든 Researcher가 이 Tracking Server에 실험 기록
-- 배포할때는 Docker Image, Kubernetes 등에 진행(회사의 인프라에 따라 다름)
로그나 모델이 한 곳에 저장되므로, 팀 내 모든 실험을 공유할 수 있음
-- Artifact Storage는 GCS나 S3같은 스토리지 이용
-- DB는 CloudSQL이나 AuroraRDS 같은 DB이용
-이 두 저장소는 Tracking Server에 의해 관리

Special Mission

개인의 Local에 MLflow 환경 설정(pip install)
개인의 Local에 MLflow 환경 설정(Docker)
팀에서 공통적으로 사용할 MLflow Tracking Server GCP에 배포하기