airflow란 에어비앤비에서 개발한 워크플로우 스케줄링, 모니터링 플랫폼이다.
머신러닝은 데이타 전처리,학습,배포,예측 과정을 거치면서 여러가지 단계를 거치게 되는데 각 단계가 끝나면 다음 단계를 수행해야 한다.
단순하게 CRON+쉘로 순차적으로 수행하는 것등이 가능하지만, 에러가 났을때 재처리를 하거나 , 수행 결과에 따라 분기를 하는 등의 조금 더 구조화된 도구가 필요하다.
DAG (Directed Acyclic Graph)
DAG는 하나의 워크 플로우라고 보면 된다. 위의 예제처럼, 머신러닝 이라는 DAG를 정의한다면, Preprocessing,Training,Prediction 워크플로우가 하나의 DAG가 된다.