
현재 사내에서는 IBM Datastage

Airflow 환경구축 for window

1\. airflow-code-editor 설치pip install airflow-code-editorairflow webserver , scheduler 재실행 process 남아있으면 직접제거 server 재실행 이후 Admin -> DAGS Code Editi

역시 시작은 Hello World지 1분 간격으로 dags가 실행되도록 설정 Logs 출력 확인

GCP 계정만들고 API 사용을 위한 key발금

DAG 개발과 버전관리를 위한 repository 생성

용어정리operator : 특정 기능들의 모음 클래스 (설계도)task : Dag에서 실행가능한 오브젝트 \- task들은 방향성을 가지고 비순환 참조 BashOperator : 쉘 명령어 실행 가능한 operator 이외에 다양한 operator 존재

TASK 실행주기를 설정하는 방법 (5단계로 구성됨 )\> {분} {시} {일} {월} {요일}

Task 예시

airflow에서 bashoperator와 함께 자주 쓰이는 오퍼레이터airflow.operators.python python operator document자주 쓰이는 건 이렇게 두개가 있다. PythonOperator : 파이썬 함수 실행을 위한 오퍼레이터 Pyth

사전에 connection을 맺어놓은 상태에서 BigQueryOperator를 dag 작성 Airflow DAG 정의├── BigQuery 쿼리 정의├── 쿼리 실행 함수 정의 (PythonOperator에서 실행)└── DAG 설정 + Task 등록

사전에 등록해둔 두개의 cloud 계정의 Connections 정보를 등록해두었다.<유의사항 >IAM 자격증명 내 bucket에 접근 권한 확인 필요.

DAG 실행 중 특정 조건에 따라 다음에 실행할 태스크를 동적으로 선택할 때 사용(분기)
Airflow 자체가 "워크플로우 실행 스케줄러"라서, 어떤 DAG이 언제 실행됐는지, 태스크 상태는 무엇인지 등을 기록하고 조회할 필요가 있다.이 모든 정보를 저장하는 DB가 Metadata Database입니다.PostgreSQLMySQL/MariaDB일반적으로 P

API 사용을 위한 SecKey 발급 발급받은 키는 잘 보관해야한다. 창닫으면 사라짐! Request 거금 10$를 충전해서 테스트를 진행 role , content를 지정해주고 assistant로 부터 받은 json 데이터를 파싱해주었다. Response

사실 dag은 어느정도 작성양식이 정해져있어 흐름에 따라서 작성해주면 되기때문에재사용성이 높다.

Xcom이란 ?

Airlfow에서 api 호출할때 사용하는 operator이다

Airflow에서 DAG 성공/실패 시 Slack으로 알림
혼동하기 쉬운 두 개념 학습후 차이점 정리Trigger는 일반적으로 이해하는 내용과 유사한데, Sensor는 특정파일을 기준으로 (Wait for file) , 언제 도착할지 모르는 파일을 계속 도착했는지 확인후 후속 task 를 수행한다.파일 도착 대기 상황: 매일