해당 게시물은 ML 프로덕션 환경 속에 있는 내가 모델 개발에만 열중하고 전반적인 시스템 설계에 대한 배경지식이 없었던 와중에 옆자리 팀원한테 추천 받아서 읽게된 한빛미디어의 "머신러닝 시스템 설계"를 공부하면서 요약한 게시물로, 저작권은 한빛미디어에게 있겠습니다.
기본 시설
[1] 스토리지와 컴퓨팅
[2] 자원 관리
-자원 관리는 사용 가능한 연산 자원을 최대한 활용할 수 있도록 워크로드 일정을 수립하고 오케스트레이션하는 도구로 구성됨
에어플로(Airflow), 쿠버플로(Kubeflow), 메타플로(Metaflow)
[3] ML 플랫폼
[4] 개발환경
개발 환경은 일반적으로 코드가 작성되고 실험이 실행되는 곳
코드는 버전 관리 및 테스트가 수행되고 실험은 추적되어야 함
데이터와 연산은 ML 프로젝트에 반드시 필요한 필수 자원이므로 스토리지와 컴퓨팅 레이어는 ML을 적용하려는 모든 회사의 인프라 기반을 형성함.
개발 환겨애은 데이터 과학자가 매일 상호 작용해야 하는 대상으로 덜 추상적임
ML 시스템은 대량의 데이터로 작동하며 이 데이터는 어딘가에 저장돼야 함
스토리지 레이어는 데이터가 수집되고 저장되는 곳으로 가장 단순한 형태는 하드 드라이브 디스크(HDD) 나 솔리드 스테이트 디스크(SDD) 임
스토리지 레이어는 한곳에 있을 수도 있고, 다양한 위치에 분산돼 있을 수도 있음
스토리지 레이어는 프라이빗 데이터 센터의 온프레미스에 있을 수도 있고 클라우드에 있을 수도 있음
컴퓨팅 레이어는 회사가 접근할 수 있는 모든 연산 자원과 그 사용법을 결정하는 메커니즘
사용 가능한 연산 자원의 양은 워크로드 확장성을 결정함
컴퓨팅 레이어는 어떤 작업을 실행하는 엔진으로 볼 수 있으며 가장 당순한 형태는 모든 연산을 수행하는 단일 CPU 코어 혹은 GPU 코어임
가장 흔한 형태는 AWS Elastic Compute Cloud(EC2)나 GCP 같이 클라우드 공급업체가 관리하는 클라우드 컴퓨팅임
AWS step functions 이나 GCP Cloud Run과 같이 특정 단기 작업을 위한 연산 유닛을 생성할 수 도 있음. 이 유닛은 작업이 완료되면 제거됨
연산 유닛은 가상 머신처럼 보다 '영구적으로', 즉 작업에 얽매이지 않도록 생성할 수도 있는데 보다 영구적인 연산 유닛을 '인스턴스'라고도 함
컴퓨팅 레이어는 항상 스레드나 코어를 연산 유닛으로 사용하지는 않는데 ,코어 개수를 추상화해 다른 연산 유닛을 사용하는 컴퓨팅 레이어도 있음
예를 들어 스파크나 레이 같은 연산 엔진은 '작업(job)'을 유닛으로 사용하고, 쿠버네티스는 컨테이너에 대한 래퍼, '파드(Pod)' 를 배포 가능한 혀앹의 가장 작은 유닛으로 사용함
파드 하나에 여러 컨테이너가 있을 수 있지만 동일 파드에서 서로 다른 컨테이너를 독립적으로 시작하거나 중지할 수 는 없음
작업을 수행하려면 먼저 필요한 데이터를 연산 유닛 메모리에 적재한 다음 해당 데이터에서 필요한 연산등을 실행해야 함
먼저 두 배열을 더하려면 둘을 메모리에 적재한 다음 덧셈을 수행함. 연산 유닛에 두 배열을 적재할 만큼 충분한 메모리가 없고 메모리 부족 연산을 처리해주는 알고리즘이 없으면 작업은 불가능함. 따라서 연산 유닛을 특정지을 때는 주로 메모리 크기와 작업 실행 속도라는 두 가지 지표를 사용함
메모리 지표는 기가바이트 같은 단위로 지정하고, 평가는 대개 단순함. 메모리가 8기가바이트인 연산 유닛은 메모리가 2기가바이트인 연산 유닛보다 더 많은 데이터를 메모리에서 처리할 수 있고 보통 더 비쌈
일부 회사에서는 연산 유닛의 메모리 크기뿐 아니라 데이터를 메모리 안팎으로 적재하는 속도 또한 중요시 여기는데, 일부 클라우드 공급업체는 인스턴스가 '고대역(hig bandwidth) 메모리'를 갖추고 있다고 광고하거나 인스턴스의 I/O 대역폭을 지정할 수 있게함
작업 속도는 일반적인 지표로 초당 부동 소수점 연산 FLOPS(Floating point operations per second) 로, 연산 유닛이 초당 실행 가능한 부동 소수점 작업의 수임
새로운 연산 유닛을 평가할 때는 해당 연산 유닛이 일반 워크로드를 수행하는데 걸리는 시간을 평가하는 것이 중요함
FLOPS에 대해 고민하는 것은 그다지 유용하지 않아, 많은 사람들이 연산 성능을 평가할 때 간단히 연산 유닛이 가진 코어 개수만 살펴봄
예를 들어 CPU 코어 4개와 8기가바이트 메모리를 가진 인스턴스를 사용할 수 있음
클라우드 송환(repatriation)
을 함멀티클라우드 전략
개발 중에는 워크로드가 크게 변동하지 않음. 모델이 요청을 시간당 1,000개 처리하다가 갑자기 100만개 처리하는 식으로 바뀌지 않아, 일반적으로 작업하는 머신 또는 인스턴스 개수는 고정되어 있음
그러나 프로덕션 서비스는 여러 인스턴스에 분산되어 있을 수 있어, 인스턴스 수는 유입되는 워크로드에 따라 수시로 바뀌며 예측 불가능함
필요에 따라 신규 인스턴스를 가동해야 하고, 인스턴스에 워크로드를 실행하는데 필요한 도구와 패키지를 설정해줘야 함
: 대부분 퍼블릭 클라우드 공급업체에서 자동 확장 부분을 처리 해주지만, 신규 인스턴스 설정 작업은 신경 써야함
동일한 인스턴스로 작업한다면 종속성을 한 번 설치하고 해당 인스턴스를 원할 때마다 사용하면 되는데, 프로덕션 환경에서 필요에 따라 인스턴스를 동적 할당하는 경우 환경은 본질적으로 무상태(stateless)임. 워크로드에 신규 인스턴스가 할당되면 사전에 미리 정의한 지침 목록을 사용해 종속성을 설치해야 함
신규 인스턴스에서 환경을 재생성하는 법은 도커(Docker)로 가장 유명한 컨테이너 기술을 사용함
도커를 사용하면 도커파일(Dockerfile)을 생성하게 되는데, 모델 실행 환경을 재생성하는 방법에 관한 단계별 지침이 담겨 있음. 이 지침으로 하드웨어 어디서나 코드를 실행할 수 있음
도커의 핵심 개념 두 가지는 이미지
와 컨테이너
임
도커파일의 지침이 모두 실행되면 이미지가 만들어지고, 도커 이미지를 실행하면 도커 컨테이너가 반환됨
도커파일은 도커 이미지라는 틀을 제조하는 레시피로, 이 틀을 사용해 실행되는 인스턴스를 여러 개 찍어낼 수 있고 이 각각이 도커 컨테이너
도커 이미지는 밑바닥부터 혹은 다른 도커 이미지로부터 빌드할 수 있음.
엔비디아 GPU용 텐서플로를 최적화 하는데 필요한 모든 라이브러리와 텐서플로가 포함된 도커 이미지를 제공함.
GPU에서 텐서플로를 실행하는 애플리케이션을 개발하는 경우 해동 도커 이미지를 기본으로 사용하고, 이 기본 이미지 위로 애플리케이션에 한정된 종속성을 설치하는 전략이 있음
컨테이너 레지스트리
는 도커 이미지를 공유하거나, 다른 사람이 만든 이미지를 찾아 공개적으로 혹은 조직 내부 사람들과 공유할 수 있는 장소로, 흔히 사용되는 컨테이너 레지스트리는 도커 허브(Docker Hub) 와 Elastic Container Registy(AWS ECR)이 있음
애플리케이션이 작업을 수행하는 동안 컨테이너가 두 개 이상 필요할 수 있는데, 프로젝트가 실행 속도는 빠르지만 메모리 사용량이 큰 피처 생성 코드와 실행 속도는 느리지만 메모리 사용량이 적은 모델 학습 코드로 이뤄졌다고 가정할 때, 동일한 GPU 인스턴스에서 두 코드를 모두 실행하면 메모리가 높은 GPU 인스턴스가 필요하고 비용이 비쌀 수 있음. 한편 CPU 인스턴스에서 피처 생성 코드를 실행하고, GPU 인스턴스에서 모델 학습 코드를 실행하면 이 때는 피처 생성을 위한 컨테이너 하나와 학습을 위한 컨테이너 하나가 필요함
파이프라인의 여러 단계 간 종속성이 충돌할 때도 서로 다른 컨테이너가 필요할 수 있음. 피처 생성 코드에서 넘파이 0.8이 필요하지만 모델은 1.0이 필요할수 있음
마이크로서비스 100개가 있고 각 마이크로서비스에 자체 컨테이너가 필요한 경우 컨테이너가 100개 동시에 실행될 수 있음. 컨테이너 100개를 수동으로 빌드, 실행, 자원 할당 및 중지하는 일은 번거로운데 이러한 컨테이너를 관리하는데 도움이 되는 도구를 컨테이너 오케스트레이션
이라고 함. '도커 컴포즈(Docker Compose)'는 단일 호스트에서 컨테이너를 관리할 수 있는 경량 컨테이너 오케스트레이터임
각 컨테이너가 자체 호스트에서 실행될 수 있을 때, 도커 컴포즈는 한계가 있음
이때 쿠버네티스(K8s)는 이를 도와주는 도구임
K8s는 컨테이너 간에 통신하고 자원을 공유하는 네트워크를 만들어줘, 더 많은 연산 및 메모리가 필요하면 더 많은 인스턴스에서 컨테이너를 가동하고 더 이상 필요하지 않으면 컨테이너를 종료하면 됨. K8s는 시스템의 고가용성을 유지하는 도움이 됨
ML 워크플로에서는 자원 관리에 영향을 미치는 주요 특성은 두가지 (1) 반복성, (2) 종속성이 있음
ML 워크로드 또한 일회성 작업이 아니라 반복적인 작업이므로, 반복 프로세스는 가용 자원을 활용해 원활하고 비용 효율적으로 실행되도록 일정을 수립하고 오케스트레이션할 수 있음
크론(cron)
은 반복 작업이 지정한 시간에 실행되도록 일정을 수립함
미리 정한 시간에 스크립트를 실행하고 작업 성공 여부를 알려줌.
실행하는 작업 간의 종속성은 신경 쓰지 않아, 크론을 사용해 작업 B 다음에 작업 A를 실행할 수 있지만, A가 성공하면 B를 실행하고 A가 실패하면 C를 실행하는 등의 복잡한 작업은 예약할 수 없음
이는 종속성으로 이어지는데, ML 워크플로의 각 단계는 서로 복잡한 종속성 관계를 갖음.
[ML 워크플로 5단계]
(1) 데이터 웨어하우스에서 지난주 데이터 가져옴
(2) 가져온 데이터에서 피처 추출
(3) 추출한 피처로 두 모델 A,B 훈련
(4) 테스트 세트에서 A,B 비교
(5) A가 나으면 A 배포, B가 나으면 B 배포
=> 이는 DAG, 방향성 비순환 그래프임
단계 간의 종속성을 나타내도록 방향성이 지정돼 있고, 순환을 포함하지 않음
DAG는 ML 워크플로뿐 아니라 연산의 워크 플로를 나타내는데 흔히 사용되는 방식으로 , 대부분 워크플로 관리 도구에서는 DAG 형식으로 워크플로를 지정해줘야 함
스케쥴러
는 종속성을 처리할 수 있는 크론 프로그램
워크플로의 DAG를 가져와 그에 맞게 단계별로 일정 예약을 함
이벤트 기반 트리거를 기준으로 작업을 시작하도록 일정 예약을 할 수 있는데, 이벤트 X가 발생하면 작업을 시작하는 식으로 진행함
스케줄러를 사용하면 작업이 실패할 경우와 성공할 경우 다음에 수행될 직업을 지정할 수 있음
스케줄러는 대기열을 활용해 작업을 추적하는데, 작업을 대기열에 넣고 우선순위를 지정한 뒤 실행에 필요한 자원을 할당함. 즉, 스케줄러는 사용 가능한 자원과 각 작업을 실행하는 데 필요한 자원을 인식할 수 있어야 함
필요한 자원은 작업 일정을 수립할 때 선택사항으로 입력하거나 스케줄러에서 자체적으로 예상함
스케줄러는 사용 가능한 자원, 실행할 작업, 각 작업에 필요한 자원에 대한 정보를 가지고 자원 활용도를 최적화해야 하는데, 사용자가 지정한 자원의 양이 항상 올바르지는 않음
범용적인 스케줄러를 설계하기는 어려운데, 발생하는 모든 수의 동시 시스템과 워크플로를 관리할 수 있어야 하기 때문임. 스케줄러가 다운되면 해당 스케줄러가 손대는 워크플로가 모두 중단됨
스케줄러의 주요 관심사가 작업을 실행할 '시기'와 실행에 필요한 작원이라면 오케스트레이터
는 이러한 자원을 입수라 '장소'임
스케줄러는 DAG, 우선순위 대기열, 사용자 수준의 할당량(사용자가 주어진 시간에 사용할 수 있는 인스턴스 최대 대수)같은 추상화된 작업 유형을 처리하는데,
오케스트레이터는 머신, 인스턴스, 클러스터, 서비스 수준의 그룹화, 복제화 같은 낮은 수준의 추상화 작업을 처리함
오케스트레이터는 가용한 인스턴스 풀보다 더 많은 작업이 존재함을 인지하면 인스턴스 풀의 가용한 인스턴스 대수를 늘려, 워크로드를 처리하기 위해 더 많은 컴퓨터를 프로비저닝
함
스케줄러는 정기적인 작업에 자주 사용되고, 오케스트레이터는 요청에 응답해야 하는 장기 실행 서버가 존재하는 서비스에 자주 사용됨
오늘날 가장 잘 알려진 오케스트레이터는 쿠버네티스임
k8s는 온프레미스에서 사용가능하며, Minikube를 통해 노트북으로도 사용 가능함
대부분 회사는 K8S와 Elastic Kubernates Service(EKS) 나 구글 쿠버네티스 엔진(GKE) 등 클라우드 공급업체에서 관리하는 호스팅 서비스를 통해 사용함
[ 온라인 워크플로 관리 도구 ]
(1) Airflow
(2) 아고, 프리텍트
(3) Kubeflow, Metaflow
회사마다 점점 더 많은 애플리케이션에 ML 을 사용함에 따라, 각 애플리케이션에 별도의 도구 지합을 지원하는 대신 여러 애플리케이션에 동일한 도구 집합을 활용함으로써 보다 큰 효용을 얻을 수 있음
ML 배포를 윟나 도구 집합이 ML 플랫폼을 구성함
ML 플랫폼의 구성 요소는 회사마다 다르지만 일반적으로 모델 배포, 모델 스토어, 피처 스토어 등 ML 플랫폼에서 가장 흔히 보이는 구성 요소에 중점을 둠
이러한 구성 요소의 범주에 따라 도구르 평가하는 일은 유스 케이스마다 다르지만 이 두 가지 측면은 염두해 둬야함
(1) 도구가 클라우드 공급업체와 함께 작동하는가 혹은 자체 데이터 센터에서 사용 가능한가?
(2) 오픈 소스인가 관리형 서비스인가?
모델이 훈련됐으면 사용자에게 예측값을 제공할 수 있어야 하는데, 모델을 배포하는 가장 간단한 방법은 프로덕션 환경에서 접근 가능한 위치에 모델과 관련 종속성을 푸시한 다음 모델을 엔드포인트를 통해 사용자에게 노출하는 것임
온라인 예측을 수행하는 경우 이 엔드포인트는 모델이 예측값을 생성하도록 유도하고, 배치 예측을 수행하는 경우 이 엔드포인트는 미리 계산해놓은 예측값을 가져옴
배포 서비스는 모델과 해당 종속성을 프로덕션 환경에 푸시하고 모델을 엔드포인트로 노출하는데 도움이됨. 배포는 필수부락결하므로 모든 ML 플랫폼 구성 요소 중에서 가장 성숙한 형태이며 배포를 위한 도구 또한 다양함
주요 클라우드 공급업체는 모두 배포 도구를 제공함 AWS의 세이지메이커, GCP의 버텍스AI, 애저의 애저 ML, 알리바바의 머신러닝 스튜디오, MLflow 모델즈
배포 도구를 살펴볼 때는 해당 도구로 온라인 예측과 배치 예측을 수행하는 게 얼마나 쉬운지 고려해야 함. 대부분의 배포 서비스에는 규모가 작은 온라인 예측이 더 간단하고 배치 예측이 좀 더 어려움