Tiresias 는 가장 최신의 Deep Learning Training Scheduling System 에 대한 연구로, 효율적인 DL Training System 을 설계하는 방법에 대한 논문입니다.
이전에 제안된 다양한 DL Training System 인 Optimus, Gandiva, YARN-CS 등의 방법과 비교하여 Job Completion Time(JCT)를 대폭 단축시킬 수 있음을 보였습니다.
DL System 과 Training Job Scheduling 에 관심이 있다면 꼭 읽어봐야 할 논문이라 생각합니다.
이번 글에서는 Tiresias 를 읽으며 최대한 쉬운 형태로 풀어서 설명하는 동시에, 중간에 등장하는 개념들을 상세히 설명하겠습니다.
Data Parallel 방법과 Model Parallel 방법 등이 있으며, Data Parallel 내에서도 통신 방법에 따라 Parameter Server 방법과 All Reduce 방법 등으로 나누어집니다.
LAS 는 Least-attained Service 의 약자로, Generalized Foreground-Background (GFB)와 동일한 것입니다.
References
usenix.org/conference/nsdi19/presentation/gu
geeksforgeeks.org/foreground-background-scheduling
geeksforgeeks.org/generalized-foreground-background-in-scheduling
Ziv Scully on "Scheduling with the Gittins Index", https://www.youtube.com/watch?v=saaQWdfEgH0