학습주제
Airflow 소개
파이프라인 모양
학습내용
데이터프레임 관리/작성 프레임워크
데이터 파이프라인 스케줄링 지원.
A가 끝나면 B를 트리거해줌.
웹 UI도 제공
로그가 뭐가 남았는지 디버깅할 수있고
문제 해결후 재실행이 쉬움(백필)
파이프라인 작성을 쉽게함
굉장히 많은 데이터 소스, DW를 지원해줌.
ETL 작성하려고 보면 여러가지 데이터 데스티네이션 옵션. Redshift, snowflake 등
소스. 프로덕션 DB, 페이스북 광고, 이메일 광고, 페이먼트 등
사람들이 오픈소스이다 보니, 데이터 소스 DW를 프로그래밍 할 수 있도록 모듈 형태로 만들어놓음.
그런것들을 가지고 파이프라인 작성 예정.
엔지니어는 백필 때문에 삶이 힘듦.
인크리멘탈 업데이트의 경우, 실패한 날짜를 재실행해주기가 어려움.
airflow를 쓰면 훨씬 단순화가 됨.
파이프라인을 DAG라고 부름 (ETL)
하나의 DAG는 하나 이상 태스크로 구성
태스크 단위로 코드를 실행시켜줌. 실행 순서에 맞춰 태스크 별로 스케줄을 해줌.
계속 버전 23년. 5월 기준 2.5.3임. 굉장히 최신버전은 버그가 있을 확률이 높음.
구글 클라우드에서 airflow 버전을 무엇을 쓰는지 한번 확인해보는게 좋음
2.5.1 까지 지원하는거 같음
에어플로우라고 생각하면 됨.
구글이 airflow를 서비스로 제공하기 시작했음.
2.5.1이 지원되는 버전임을 확인함.
대그별 태그를 줄 수 있음. example이 달려있는걸 봄
태그를 가지고 검색할 수 있음.
30~100개가 넘어가면 한눈에 파이프라인을 보기 어려움. 팀별로 태그를 만들기도 하고, 얼마나 중요한지 중요도를 기준으로 태그를 만들기도 함. 적절히 대그에 할당함.