아래에 글은 NAVER의 2023 DEVIEW에서 SYMBIOTE AI의 김태훈님께서 발표해주신 '값비싼 Diffusion model 저비용 MLOps'에 대해 개인적으로 공부하고 리뷰, 정리하여 공유한 글 입니다.
참고
요약
- diffusion model 이란 multimodal image generation model with diffusion process.
- diffusion model의 단점은 학습, 추론 속도가 느리다는 것. 즉, latency와 scalability가 중요함.
- 레이턴시 개선을 위해 GPU 하드웨어적인 방법으로써 GPU의 SRAM과 HBM 사이에 I/O를 줄여주는 FlashAttention이 있음.
- 또한 추론 step을 줄여 레이턴시를 줄이는 distillation 방법도 있음.
- FlashAttention과 유사한 방법으로 TensorRT + Triton을 활용함. 이는 GPU 연산 중에 삼각함수 연산 같은 I/O가 비효율적인 활성 함수들을 개선해주는 방법.
- 추론 인프라의 경우, nvidia triton inference server로 ensemble model과 scheduler를 사용해 비동기적인 추론을 구현하여 추론 속도를 개선함.
개요
data:image/s3,"s3://crabby-images/23a54/23a54791c0a06af3b5168a3debf85fc01b4c17bb" alt=""
Diffusion model에 대해
Diffusion model이란?
data:image/s3,"s3://crabby-images/24001/240019cd5592e19868bf83b7bae99ae88f56ce36" alt=""
- Diffusion model은 Multimodal Image Generation model with diffusion process를 말함.
Image Generation model 이란?
data:image/s3,"s3://crabby-images/836e7/836e7c749788f84991350b790c235525b180b6b4" alt=""
data:image/s3,"s3://crabby-images/2bd83/2bd837509bb624193cbe088853add2ed3157d1b3" alt=""
Multimodal 이란?
data:image/s3,"s3://crabby-images/e8aaa/e8aaa41a3898e80c648b29e1e63733304080930e" alt=""
Diffusion model 이란?
data:image/s3,"s3://crabby-images/007b5/007b5b02549fbeab8cb72b40ec433e3186cfb880" alt=""
- 추가적으로 별도의 자료 서칭
- Diffusion model은 데이터를 만들어내는 deep generative model 중 하나로, data로부터 noise를 조금씩 더해가면서 data를 완전한 noise로 만드는 forward process(diffusion process)와 이와 반대로 noise로부터 조금씩 복원해가면서 data를 만들어내는 reverse process
를 활용한다.
Diffusion model의 단점
data:image/s3,"s3://crabby-images/bd328/bd328bbb651e63d4f95e04dfab39571604e30e4d" alt=""
data:image/s3,"s3://crabby-images/4c226/4c22683be0102edf7f4b1bb712f868075413e559" alt=""
data:image/s3,"s3://crabby-images/4b23c/4b23c326e66bb11c0b55ef6ec4e34727d6d27a28" alt=""
- 학습하려는 데이터의 규모에 대한 트렌드도 점점 작게 하려다가 이전보다 엄청 큰 규모를 활용하는 추세.
Diffusion model의 발전 과정
data:image/s3,"s3://crabby-images/a6248/a6248d504df9ece571310ab0c98887f327999393" alt=""
data:image/s3,"s3://crabby-images/29850/298505616880730fb0ebf33cae72c51b16b37f5d" alt=""
data:image/s3,"s3://crabby-images/84c2f/84c2f93015496b91b5852200ca1b64ef3ae052fe" alt=""
- OSS 중에 Stable diffusion의 역대급 github star 수 증가 추세.
stable diffusion의 학습 시간
data:image/s3,"s3://crabby-images/33d00/33d00332d81a745bef8e23ac91ffb6b12a5fa165" alt=""
DreamBooth & LoRA
data:image/s3,"s3://crabby-images/0acfe/0acfe2f8290871db98086d0b5dd6ded3ccde5390" alt=""
data:image/s3,"s3://crabby-images/bd7af/bd7af5fc2e1a54b998ad4d3d648f2451e111c2e7" alt=""
- 적은 데이터로 빠르게 학습하는 서비스도 등장.
FlashAttention
data:image/s3,"s3://crabby-images/5f838/5f83824b3157d5139cb2770bd1878cabb0fe0454" alt=""
data:image/s3,"s3://crabby-images/23fb7/23fb727a60f639ada43a81691904ccce1394943e" alt=""
- GPU의 내부 구조는 CUDA Core - SRAM - HBM으로 이루어져 있음.
- 추가 자료 조사
- CUDA Core : GPU에서 다수의 스트림 프로세서(Streaming Processor, SP) 중 하나로 각 SP는 작은 SRAM 캐시와 몇 개의 연산 유닉을 가지고 있음.
- SRAM : Static Random Access Memory. 휘발성 메모리이며 적은 양의 데이터를 저장할 수 있지만 CPU의 캐시 메모리와 비슷하게 매우 빠른 속도로 데이터에 액세스할 수 있는 고속 캐시이므로 주로 CUDA Core의 로컬 메모리로 사용됨. (↔ DRAM과 반대되는 특성이 있음.)
- HBM : High Bandwidth Memory
- 여기서 CUDA 연산을 수행하기 위해 HBM 메모리에 데이터를 올리고 SRAM에 조금씩 옮겨서 Core가 연산을 하는 구조. 즉, HBM과 SRAM의 I/O가 있음. 그런데, SRAM은 20MB 밖에 안 됨. 그래서 SRAM과 HBM 간에 트랜잭션이 굉장히 빈번하고 결국 latency를 만들기 때문에 이 I/O를 줄이는게 속도를 높이는데 있어 중요함.
data:image/s3,"s3://crabby-images/dd412/dd412301fba9e8e5af033237788e5c5c73228234" alt=""
data:image/s3,"s3://crabby-images/a0d94/a0d94399a21955af812f5dc40c1f4472a6b48aec" alt=""
- 이런 다수의 I/O 과정을 줄이기 위해 FlashAttention 등을 사용하곤 함.
data:image/s3,"s3://crabby-images/a8fb0/a8fb0985ef9ce1c06b165363f8034c7777a565f9" alt=""
- FlashAttention 사용 시에 급격히 latency가 감소함.
prompt-to-prompt
data:image/s3,"s3://crabby-images/1ff45/1ff458dddcd87f19c2fa798ff0f9d517a3392b40" alt=""
- prompt-to-prompt는 이미지에 작은 수정을 하기 위함.
data:image/s3,"s3://crabby-images/92434/9243454d31bca92b4c9a3f8815f1456be91d9628" alt=""
data:image/s3,"s3://crabby-images/93127/9312717b9c1498a1da1935d26e9c66fad45aa479" alt=""
- 재밌는 점은 이 모델로 만든 이미지들을 학습 데이터로 사용 가능하다는 것.
InstructPix2Pix
data:image/s3,"s3://crabby-images/70b17/70b17efe11c88834b3ebec68c257ddb750e366e7" alt=""
- InstructPix2Pix는 앞서 본 Prompt-to-Prompt를 학습 데이터로 활용한 기술.
data:image/s3,"s3://crabby-images/0e2ab/0e2abbca1b70eb814afa5b88c360e7fadfdde73f" alt=""
- Prompt-to-Prompt와 GPT를 함께 사용해서 대화형 프롬프트로 이미지 수정을 구현함.
data:image/s3,"s3://crabby-images/be54e/be54e17b92b3339182c2c7600d8877c3aa170071" alt=""
- 즉, 인풋 이미지들과 이 이미지를 기반으로 Prompt-to-Prompt로 수정된 이미지들을 비교하면서 나타난 차이점들을 텍스트 데이터를 만들어 GPT3 프롬프트 명령어로 학습시킴. 이로 인해, 사용자는 GPT3 프롬프트 명령어를 인풋으로 주면 프롬프트 명령어에 따라 기존 이미지에 대한 원하는 수정을 할 수 있음.
data:image/s3,"s3://crabby-images/82196/82196b855823d59b23ad8ed4754bfb00a3a4f74c" alt=""
- 다시 말해, 학습 데이터는 기존 이미지, Prompt-to-Prompt 데이터, GPT-3 데이터 세 가지.
data:image/s3,"s3://crabby-images/0d7f1/0d7f1e7655cd24618b97a507541ba9f2524455b7" alt=""
ControlNet
data:image/s3,"s3://crabby-images/d199a/d199a191ee5de0654d3fd532cc39fe6556dd5ec4" alt=""
data:image/s3,"s3://crabby-images/9257e/9257e8d008041e8cd0a3fae6cdcbf4cb7abbc784" alt=""
- ControlNetd은 기존 텍스트 기반 이미지 생성이 아니라 레퍼런스 이미지 기반으로 이미지 생성하는 기술.
지난 6개월 간 diffusion model의 발전
data:image/s3,"s3://crabby-images/2dd7d/2dd7d944d603e6e08a3d895ea803e1b901c71c83" alt=""
GPU 비용에 대해
data:image/s3,"s3://crabby-images/f456c/f456c766cf8959090979326d152badebbc010dbe" alt=""
data:image/s3,"s3://crabby-images/17ed9/17ed9ac54a2eccf988c48af688b1af1d671657d5" alt=""
data:image/s3,"s3://crabby-images/c17c8/c17c89acbed1ee18036643118d3c265de7d6e8c7" alt=""
- latency와 scalability를 높이기 위해 distillation과 tensorRT&triton을 활용.
Distillation
data:image/s3,"s3://crabby-images/ca4a8/ca4a881ff04d81fb6cd2301a5bea149e2cac7bf6" alt=""
data:image/s3,"s3://crabby-images/94a09/94a091ef000c5b60d5f1a157a71d083f181a7302" alt=""
data:image/s3,"s3://crabby-images/6c3c4/6c3c4fbfaa06041b6d491eded028a01733862d48" alt=""
- 모델의 추론 속도를 줄이기 위해 distillation을 활용할 수 있음.
data:image/s3,"s3://crabby-images/97e3f/97e3f085df28edbb7cff613e30322ad78f20da2e" alt=""
data:image/s3,"s3://crabby-images/d1af9/d1af92f92c8fb31152aa14333948bd1989c206ad" alt=""
- 기존의 distillation은 큰 모델을 작은 모델로 사이즈를 줄여서 추론 속도를 높이는 방법.
data:image/s3,"s3://crabby-images/fe1cb/fe1cb401bb19dcbb780ae99a08892d3e45afcb45" alt=""
- 즉, 기존 distillation은 모델 다이어트라고 할 수 있음.
data:image/s3,"s3://crabby-images/579cf/579cfa8d0d1ad22b607655c6c8140cf0039c5319" alt=""
- diffusion model도 모델 사이즈를 줄이는 distillation을 할 수 있었지만 우리가 추론 결과로 받을 이미지가 만족스럽지 못할 가능성이 있기 떄문에 다른 방법을 시도함.
data:image/s3,"s3://crabby-images/8a6c1/8a6c1d57b125d79f419469add41add11f07e4e8f" alt=""
data:image/s3,"s3://crabby-images/a2b97/a2b977f6bbc2a1e6e869978b9100ca7e39fbcc51" alt=""
- 그래서 diffusion process의 step을 2n 으로 줄일 수 있도록 재학습 시키는 방법을 시도함. (논문)
data:image/s3,"s3://crabby-images/3d294/3d29446e9fb251e2960aef6fd8276fdb7b227ecf" alt=""
- 즉, diffusion step에 대한 distillation이므로 스텝 다이어트라고 할 수 있음.
data:image/s3,"s3://crabby-images/a1392/a13925b2a46b534e858913ce08e266e31c380b2d" alt=""
data:image/s3,"s3://crabby-images/980f9/980f9f71256dd38f1fe78e7f91d7f17156b67ab9" alt=""
실험 결과
data:image/s3,"s3://crabby-images/19e50/19e50bc0fb90fd2189402a8a46b6a81746511ffa" alt=""
- Image2Image는 이미지를 넣어 다르게 바꿔주는 모델.
- 6번 정도의 distillation을 했다고 함.
data:image/s3,"s3://crabby-images/e6267/e626740c3c7bc03cbeabe671df75a75004bbadc9" alt=""
data:image/s3,"s3://crabby-images/39d32/39d32e0b257bcaa43c52f883a23008d012eeee71" alt=""
- 현실의 사진을 애니메이션으로 바꿔주는 모델에 적용했을 때.
- 제일 왼쪽과 같이 원래는 35번의 과정이 필요한데 가운데 처럼 distillation 없이 3번만 수행 후 나온 결과와 distillation 학습 후 3번 수행한 뒤 결과에 대한 차이점을 눈으로 확인할 수 있음. 즉, 같은 3번의 수행을 하더라도 distillation 학습을 한 경우가 원래 추론하는 35번의 수행과 아주 근접함.
data:image/s3,"s3://crabby-images/624e6/624e6e8d75f53adff75d3a8a3c35fb03fb75baf1" alt=""
- 또한 이 회사는 추론 step 횟수에 따라 속도와 품질을 달리하여 서비스한다고 함.
data:image/s3,"s3://crabby-images/9d2fd/9d2fdea0d1055a599a60d666611ab8e999d1cbad" alt=""
- 이렇게 distillation을 통해 latenct가 많이 줄어들었음.
TensorRT & triton
앞서 살펴본 GPU 하드웨어적인 개선 방법 FlashAttention
data:image/s3,"s3://crabby-images/b9a76/b9a768ed149d851075be42145be98ab2d7b0702b" alt=""
- 앞서 본 FlashAttention은 GPU 하드웨어 구조에서 발생하는 I/O를 줄여서 속도를 빠르게 한 것.
- TensorRt와 triton은 쓰는 것도 비슷하다고 함.
GPU 연산 과정과 모델 학습에서의 장점
data:image/s3,"s3://crabby-images/faffa/faffab5672f2221dc9fc45478470b4926376568e" alt=""
data:image/s3,"s3://crabby-images/e3e62/e3e621528c079192f7977b936e809a3b3fce74f9" alt=""
data:image/s3,"s3://crabby-images/52b3c/52b3cb33da07cd831d75deaf1aa573e966151ab0" alt=""
torch.matmul(A, B)
를 사용하면 행렬 A와 B를 곱하는 연산을 수행함. 먼저, GPU의 HBM에 A와 B 행렬을 올림. 그 후, 행렬 곱셈을 하기 위해서 A, B 메트릭의 값들이 부분적으로 SRAM에 들어가 CUDA Core 연산이 시작 됨. 이런 연산들은 병렬적으로 수행됨.
- 즉, GPU가 머신러닝 모델 학습에 빠른 이유는 학습 시에 핵심이 되는 행렬 곱셈을 병렬 처리할 수 있기 때문.
- 다시 말해, 동시에 여러 개의 수많은 코어들 사이에서 이 메트릭을 잘게 쪼개서 곱셈을 할 수 있기 때문.
CPU보다 GPU 연산이 느린 작업들
data:image/s3,"s3://crabby-images/d74c9/d74c94f2f1f49a9e93adcf85e29c7489b318c110" alt=""
- 예를 들어, A 메트릭에 대한 cos 값 계산을 수행했을 때,
HBM에 메트릭 저장 → SRAM 에 불러와 → Core 연산 → 다시 HBM에 저장
과정을 수행하는데 A.cos().cos() 같은 작업을 했을 때, 이런 작업들이 반복적으로 늘어남.
data:image/s3,"s3://crabby-images/8f467/8f46731e523e8f8f642dc12efcebf462afb18c77" alt=""
- 그래서 이렇게 읽고 저장하고 일고 저장하고 두 번 하는 작업을 한 번으로 줄여주는 작업이 nvidia가 만든 TensorRT 라이브러리의 역할임.
TensorRT를 쓰는 방법
data:image/s3,"s3://crabby-images/33ae4/33ae4ea1aad64379d3888cb7fa97cf8274982ddb" alt=""
- TensorFlow나 Pytorch로 모델 개발 → ONNX로 번역 → TensorRT로 컴파일
그럼에도 TensorRT가 해결하지 못하는 문제(?)
data:image/s3,"s3://crabby-images/ca3e8/ca3e8c837e3199add20820aa1eb5ed3d7a05ce5e" alt=""
data:image/s3,"s3://crabby-images/72339/7233985dde38c738cddf9df79bf52b178cfc6be5" alt=""
data:image/s3,"s3://crabby-images/61818/618183ac38071322969b47b9944fda5611cacef1" alt=""
- 예를 들어, stable diffusion의 활성 함수 GEGLU가 있는데 이는 x라는 인풋값을 받으면 반반으로 쪼개어 반은 gelu 함수로 계산하고 이 값을 나머지 반과 곱해서 결과물을 내는 과정을 수행하는데 이 작업을 엄청 반복되는 오퍼레이터임.
data:image/s3,"s3://crabby-images/6c851/6c851b7e56ef03082816b530472fe071603a487c" alt=""
- 아무튼 여기서 GELU는 단항 연산자(unary operation)임. 인풋으로 x 하나만 받음. 그런데 얘는 위와 같이 엄청 많은 반복을 함.
data:image/s3,"s3://crabby-images/ddf25/ddf255fe367ca1fdc72915569075643926f16efe" alt=""
- 그래서 이 과정은 반복이 엄청 됨. 그러므로 TensorRT로 개선할 수 있음.
- 특히나 gelu는 unary operation 이기 때문에(?) 굉장히 효율적으로 개선을 할 수 있다고 함.
- 게다가 gelu는 유명한 함수이므로 TensorRT가 알아서 변환을 해줌.
data:image/s3,"s3://crabby-images/7d66d/7d66d321d77ed9511119ac3bd6369c0e1e546fe9" alt=""
- 다시 말해, 먼저, 많은 데이터 중에 gelu도 HBM에 업로드 되고 SRAM을 타면서 Core로 연산 됨. 여기서 과도한 연산으로 레이턴시가 생김.
data:image/s3,"s3://crabby-images/f7ec9/f7ec9e958b235095d2ee2683a32351c6d56eb0bc" alt=""
data:image/s3,"s3://crabby-images/41801/4180121ecff0473068621c2dfd2153432ed21ef1" alt=""
- 그러나 tensorRT를 사용하면 효율적인 I/O로 레이턴시가 개선됨.
이러한 문제를 해결하는 triton(?)
data:image/s3,"s3://crabby-images/1638b/1638bcac4d926ac4b6411c146fb42a9e7ccbe31f" alt=""
data:image/s3,"s3://crabby-images/305ad/305ad4cd76346e280e9362d10f38dac82915bae8" alt=""
- torch에서 softmax에 적용했을 때 성능.
data:image/s3,"s3://crabby-images/16631/16631d7346d35331c8f84c2a9543a8b585f3b2c6" alt=""
- 즉, 딥러닝에서 tensorRT가 많이 쓰이긴 하지만 그 안에 효율적으로 짜여져 있지 못한 코드들을 개선하는데 triton을 사용함.
data:image/s3,"s3://crabby-images/7631d/7631d32864ffd8087759a1e5655fe412e424d1c6" alt=""
어떻게 serving 했는가?
인프라 구조
data:image/s3,"s3://crabby-images/06756/06756e49c2958f2e996d997d4dec4c8715478b0f" alt=""
data:image/s3,"s3://crabby-images/171a8/171a8dc42412715afe90b2aa139e73d827fc1510" alt=""
data:image/s3,"s3://crabby-images/03f02/03f0200a5944e11ec6442e2fe1e5649219cc46f8" alt=""
latency를 줄이려 했던 이유
data:image/s3,"s3://crabby-images/55359/55359512c075732e64b6f2f25f949c4f87b0eb9b" alt=""
- 여러 모델을 통한 서비스를 위함. 그리고 이 모든 모델들에 대해 tensorRT와 triton inference server를 활용함.
- 주의 : 앞서 연산 최적화 triton과 여기에 inference server triton은 다른 것임.
비동기적인 인퍼런스
data:image/s3,"s3://crabby-images/77963/7796366c217af6e205c370c3a987a888907e259a" alt=""
data:image/s3,"s3://crabby-images/c9004/c900493ef14ecc437ca09df9c009e6b94b08c852" alt=""
- GPU 하나에 여러 개 모델을 실행할 순 없을까?
- nvidia의 triton inference server로 ensemble model과 scheduler를 사용하면 graph dependency를 계산하여 요청이 연속으로 오더라도 하나의 요청을 처리하는 도중에 다른 요청에 대해 동시에 처리할 수 있음.
data:image/s3,"s3://crabby-images/3f2fd/3f2fdaffe4fe25a45048358fe7dfbe955992c6f7" alt=""
결론
data:image/s3,"s3://crabby-images/8bb30/8bb305d58cc0af17b4d46d876dfdb9d6b1c48afe" alt=""
- TensorRT + Triton으로 inference latency를 줄임.
- nvidia Triton inference server로 scalability를 높임.