InferBench: Understanding Deep Learning Inference Serving With An Automatic Benchmarking System (1)

‍hiamzwon·2024년 3월 15일

Inference

목록 보기

1/2

Paper : https://arxiv.org/pdf/2011.02327.pdf

Abstract

하드웨어와 소프트웨어의 영향을 모두 고려한 성능 벤치마킹 없이 이러한 모델을 배포하면 종종 서비스 품질이 저하되고 운영 비용이 증가할 수 있다. 하여 위 논문에서는 DL 모델의 배포를 용이하게 하기 위해, DL 개발자를 위한 자동 및 포괄적인 벤치마킹 시스템을 구현했다.

이 시스템에서 벤치마킹 관련 작업을 수행하려면 개발자들이 몇 줄의 코드로 구성된 구성 파일만 준비하면 된다. DL 클러스터의 리더 서버에 배포되어 사용자의 벤치마크 작업을 팔로워 워커로 전송한. 그 다음 시스템은 대응하는 요청, 작업 부하 및 심지어 모델을 자동으로 생성하여 DL 서빙 벤치마크를 수행하게 된다. 개발자들은 시스템의 다양한 분석 도구 및 모델을 활용하며 서로 다른 시스템 구성의 트레이드오프에 대한 통찰력을 얻을 수 있다.

딥러닝에서의 벤치마킹이란?

딥러닝에서 벤치마킹은 다양한 딥러닝 모델, 하드웨어, 소프트웨어 구성 등을 평가하고 비교하기 위해 사용되는 과정을 말합니다. 이는 주로 성능 측정을 중심으로 하며, 여러 가지 측정 항목에 대한 결과를 비교하여 모델의 상대적인 효율성과 운영 가능성을 평가하는 것을 목표로 합니다.

딥러닝 모델의 벤치마킹은 모델의 정확도, 처리 속도, 메모리 사용량, 에너지 효율성 등과 같은 여러 측면을 고려합니다. 또한, 벤치마킹은 다양한 하드웨어 및 소프트웨어 환경에서 모델의 성능을 평가하여 최적의 실행 환경을 찾는 데 도움이 됩니다.

이상적으로, 벤치마킹은 일반적인 딥러닝 모델을 사용하는 다양한 응용 프로그램 및 시나리오에 대한 성능 예측을 제공하고, 모델 및 시스템의 개선을 위한 지침을 제시합니다. 따라서 벤치마킹은 딥러닝 기술의 발전과 혁신에 중요한 역할을 합니다.

새로 배운 개념 정리

용어	설명	링크
AI arm race	AI 경쟁을 군사 경쟁 빗대어 말하는 표현 (냉전시대 때 미국-소련 너도 하면 나도 한다 느낌의 막무가내 경쟁)	링크
out-of-the-box	별도의 설치나 구성 없이 바로 사용할 수 있는 (used to refer to the immediate usability or functionality of a newly purchased product, typically an electronic device or a piece of software.)
boilerplate	최소한의 변경으로 여러 곳에서 재사용되며, 반복적으로 비슷한 형태를 띄는 코드. 주로 프로그래밍에서 사용되며, 비슷한 기능을 구현하기 위해 반복해서 작성해야 하는 코드를 간소화하고 재사용성을 높이기 위해 사용	링크
error-prone	어떤 작업이나 활동이 실수하기 쉽거나 오류가 발생하기 쉬운 상태. 일반적으로 특정한 작업이나 환경에서 오류가 자주 발생하는 경향을 나타내는 표현
tail latency	시스템의 응답 시간 분포에서 꼬리 부분에 해당하는 지연 시간. 대부분의 요청은 일반적인 응답 시간 내에 처리되지만 일부 요청은 더 긴 지연을 경험하는 경우를 설명할 때 사용

Introduction

일반적인 웹 프레임워크와 기술과 달리, 딥러닝(DL) 기술 및 그들의 추론(inference) 하드웨어 및 소프트웨어 플랫폼은 여전히 빠르게 진화하고 있다. 이에 대응하기 위해서는 DL 개발자들이 일상적인 성능 평가 작업 및 서비스 구성을 보조해 줄 쉽고 높은 배포 가능성을 갖춘 벤치마크 시스템이 필요하다.
또한, 시스템은 다양한 구성(ex.배치 크기와 레이어 수)에서 DL 모델, 하드웨어 및 소프트웨어 간의 복잡한 상호 작용을 평가하고 이해하기 위한 즉시 사용 가능한 방법론을 제공해야 한다.

기존의 벤치마크 연구들은 딥러닝 추론 성능을 이해하는 데 상당한 기여를 했지만, 여전히 앞서 언급한 도전 과제들을 충분히 해결하지 못하고 있다. 현재 최첨단 솔루션으로서 MLPerf 추론 벤치마크는 사용자가 다양한 설정을 조정하여 벤치마크를 수행할 수 있는 능력을 충분히 제공하지 못한다. 구현 세부사항은 개발자에게 맡겨져 있기 때문이다. 결과적으로, 개발자들은 공정한 비교를 위해 벤치마크 제출을 준비하는 데 몇 일이나 심지어 몇 주를 투자해야 한다.

이러한 요구사항을 해결하고 기존 시스템의 간극을 좁히기 위해 위 논문에서는 자동 및 완전한 딥러닝 서빙 벤치마크 시스템을 제안하고 있다.

이루고자 하는 목표는 다음과 같다.

딥러닝 개발자들이 지루하고 잠재적으로 오류가 발생할 수 있는 벤치마킹 작업(예: 보일러플레이트 코드 작성, 데이터 수집 및 워크로드 생성)으로부터 해방되는 엔드 투 엔드 솔루션을 제공
사용자가 선택한 모델 외에도, 시스템은 서로 다른 하이퍼파라미터(예: 서로 다른 레이어 유형 및 레이어 수)를 가진 모델을 손쉽게 생성하고 반복할 수 있어서 설계 공간을 충분히 탐색할 수 있도록 할 것
지연 시간, 클라우드 비용 등과 같은 제약 조건 하에서 응용 프로그램에 최적의 구성을 선택하는 데 도움이 되는 다양한 분석 도구와 모델을 제공

위 목표 외에 논문에서는 서비스 효율성을 향상시키기 위해 시스템에 이중 스케줄러 또한 구현했다.

Reference

추후에 읽어볼 논문

Roofline: an insightful visual performance model for multicore architectures
https://dl.acm.org/doi/10.1145/1498765.1498785

‍hiamzwon

꿈은 없고요 놀고 싶습니다

다음 포스트