MySQL 테이블의 Incremental Update 방식
- MySQL or PosgreSQL 테이블이라면 만족해야하는 것들
- created (timestamp): Optional
- modified (timestamp)
- deleted (boolean): 레코드를 삭제하지 않고 deleted를 True로 설정
Backfill을 커맨드라인에서 실행하고 싶다면
$ airflow dags backfill dag_id -s 2023-01-01 -e 2023-06-09
- 단, catchUp이 True, execution_date를 사용해서 Incremental update가 구현된 상태
- start_date부터 시작, end_date는 미포함
- 실행 순서는 랜덤. 날짜 순으로 하려면
default_args = {'depends_on_past': True, ... }
Airflow 정리
- 파이썬으로 작성된 데이터 파이프라인(ETL) Framework
- Airflow에서 데이터 파이프라인이 DAG임. (Directed Acyclic Graph)
- 장점
- 데이터 파이프라인 세밀하게 제어 가능
- Backfill이 쉬움
- 스케일링 방식: Scale up vs Scale out vs Cloud version vs K8s