최근 필자의 팀에서 운영하던 Airflow가 갑작스럽게 병렬 처리되는 Task가 급격하게 증가하며 오랜 시간 대기 상태에 빠져 기존에 수행되던 파이프라인에 장애가 발생하기 시작했다. 그렇다면 동시성에 영향을 주는 요소는 무엇이 있을까?
만약 하나의 Apache Airflow에서 다양한 조직의 사용자가 존재하며, DAG의 종류 또는 개별 접근 제어를 구현해야한다면 어떻게 해야할까?
Apache Airflow의 DAG 내 구성요소, 사전 정의된 Task의 템플릿 (객체지향 프로그래밍에서의 Class와 객체의 관계와 비슷합니다)DAG 내에서 선언적으로 정의할 수 있으며, 파이프라인에서 데이터가 어떻게 처리되는지에 대한 로직을 포함하고 있습니다.