Tiresias Paper Review (작성중)

James·2021년 9월 23일
0

ML systems

목록 보기
3/3
post-thumbnail

Introduction

Tiresias 는 가장 최신의 Deep Learning Training Scheduling System 에 대한 연구로, 효율적인 DL Training System 을 설계하는 방법에 대한 논문입니다.
이전에 제안된 다양한 DL Training System 인 Optimus, Gandiva, YARN-CS 등의 방법과 비교하여 Job Completion Time(JCT)를 대폭 단축시킬 수 있음을 보였습니다.
DL System 과 Training Job Scheduling 에 관심이 있다면 꼭 읽어봐야 할 논문이라 생각합니다.
이번 글에서는 Tiresias 를 읽으며 최대한 쉬운 형태로 풀어서 설명하는 동시에, 중간에 등장하는 개념들을 상세히 설명하겠습니다.

1. Background

1-1. Distributed Deep Learning

Data Parallel 방법과 Model Parallel 방법 등이 있으며, Data Parallel 내에서도 통신 방법에 따라 Parameter Server 방법과 All Reduce 방법 등으로 나누어집니다.

1-2. LAS Scheduling

LAS 는 Least-attained Service 의 약자로, Generalized Foreground-Background (GFB)와 동일한 것입니다.

1-3. Gittins Index Scheduling

2. Motivation & Challenges

2-1. Unpredictable Job Duration

2-2. Over-aggressive Job Consolidation

2-3. Time Overhead of Preemption

3. Age-based Scheduler

3-1. 2DAS

3-2. Discretization

4. Model Profile-based Placement

4-1.

5. Experiments

Conclusion

References
usenix.org/conference/nsdi19/presentation/gu
geeksforgeeks.org/foreground-background-scheduling
geeksforgeeks.org/generalized-foreground-background-in-scheduling
Ziv Scully on "Scheduling with the Gittins Index", https://www.youtube.com/watch?v=saaQWdfEgH0

profile
indexing

0개의 댓글