[TIL 6/8] Airflow Day 5

heering·2023년 6월 9일
0

MySQL 테이블의 Incremental Update 방식

  • MySQL or PosgreSQL 테이블이라면 만족해야하는 것들
    • created (timestamp): Optional
    • modified (timestamp)
    • deleted (boolean): 레코드를 삭제하지 않고 deleted를 True로 설정

Backfill을 커맨드라인에서 실행하고 싶다면

$ airflow dags backfill dag_id -s 2023-01-01 -e 2023-06-09

  • 단, catchUp이 True, execution_date를 사용해서 Incremental update가 구현된 상태
  • start_date부터 시작, end_date는 미포함
  • 실행 순서는 랜덤. 날짜 순으로 하려면 default_args = {'depends_on_past': True, ... }

Airflow 정리

  • 파이썬으로 작성된 데이터 파이프라인(ETL) Framework
    • Airflow에서 데이터 파이프라인이 DAG임. (Directed Acyclic Graph)
  • 장점
    • 데이터 파이프라인 세밀하게 제어 가능
    • Backfill이 쉬움
  • 스케일링 방식: Scale up vs Scale out vs Cloud version vs K8s

0개의 댓글