02_Coding Your First Data Pipeline with Airflow

Copes·2021년 11월 24일

airflow

Airflow

목록 보기

2/5

데이터 파이프라인 생성
다른 tool interact
다음 작업 진행 전에 file check

Operator란?

ex)

cleaning data
processing data

1개의 operator에 2개 이상의 tasks를 담으면 안된다.(1 operator - 1 tasks)

문제가 생기는 경우 이전 상태를 다시 수행하기 위해서 원자성을 띠도록 1-1구조.

3가지 종류의 Operator

Action : execute an action
Transfer : transfer data
Sensor : Wait for a condition to be met

다중 분리, 연결 요소를 구성하는 것이 중요!

5가지 작업 수행

테이블 생성(creating_table)
API 사용 가능 여부 확인(is_api_available)
원하는 user 데이터 추출(extracting_user)
user 데이터 처리(processing_user)
위의 작업이 완료된 user 데이터 저장(storing_user)

1. 테이블 생성(`creating_table`)

Airflow Web UI에서

Admin > Connections

Connection 설정 이후에 반드시 Test가 필요하다.

$ airflow tasks test user_processing creating_table 2020-01-01

Task 성공 여부를 보여준다.

Table이 sqlite3에 있는지 검사

$ sqlite airflow.db
sqlite> .table
sqlite> SELECT * FROM users

테이블이 생성된 것을 확인할 수 있다.

2. API 사용 가능 여부 확인(`is_api_available`)

Airflow Web UI에서

Admin > Connections

Test

$ airflow tasks test user_processing is_api_available 2020-01-01

is_available이 문제 없으며 이후에 workflow에서도 동작할 것임을 알 수 있다.

3. 원하는 user 데이터 추출(`extracting_user`)

json 정보

'INFO - {"results":[{"gender":"male","name":{"title":"Mr","first":"Antoni","last":"Fure"},
			"location":{"street":{"number":5350,"name":"Bjørndalsjordet"},
			"city":"Eide","state":"Oppland","country":"Norway","postcode":"3714",
			"coordinates":{"latitude":"52.3386","longitude":"-165.5425"},
			"timezone":{"offset":"+5:00","description":"Ekaterinburg, Islamabad, Karachi, Tashkent"}},
			"email":"antoni.fure@example.com",
			"login":{"uuid":"13a81286-cbb5-4465-8eb9-a9ea2abe8d5b","username":"sadlion681","password":"toejam","salt":"UUTttzws","md5":"338976bcf8af9c57916fd12c1240fd4b","sha1":"8440422e3082d74fc60d9414beda93999a7b6f8a","sha256":"d3d0100c04d8df09eeb054145c3ff331fe8dc0a7e333ce86243a3791d0088103"},
			"dob":{"date":"1975-08-28T19:10:39.412Z","age":46},
			"registered":{"date":"2018-08-03T18:33:07.186Z","age":3},
			"phone":"26795836",
			"cell":"91278236",
			"id":{"name":"FN","value":"28087545913"},
			"picture":{"large":"https://randomuser.me/api/portraits/men/63.jpg","medium":"https://randomuser.me/api/portraits/med/men/63.jpg","thumbnail":"https://randomuser.me/api/portraits/thumb/men/63.jpg"},"nat":"NO"}],
		 "info":{"seed":"43fc9cf21da23c85","results":1,"page":1,"version":"1.3"}}

Test

$ airflow tasks test user_processing extracting_user 2020-01-01

4. user 데이터 처리(`processing_user`)

Test

$ airflow tasks test user_processing processing_user 2020-01-01

/tmp/processed_user.csv 파일 생성
설정한 firstname, lastname, country, username, password, email이 표시된다.

Joseph,Jones,Australia,brownduck393,1221,joseph.jones@example.com

5. 위의 작업이 완료된 user 데이터 저장(`storing_user`)

앞서 extract한 정보를 sqlite에 적재할 필요가 있다. (BashOperator 사용)

Test

$ airflow tasks test user_processing storing_user 2020-01-01
sqlite> SELECT * FROM users;
를 수행하면 /tmp/processed_user.csv가 /home/airflow/airflow/airflow.db에 저장된 것을 확인할 수 있다.

하지만 어떤 의존성(Dependency)이 존재하지는 않는 것을 확인할 수 있다.

Dependency 설정

Dependency 설정하는 방법

>> command를 사용한다.

  creating_table >> is_api_available >> extracting_user >> processing_user >> storing_user

저장하고 Airflow Web UI를 새로고침하면 의존성이 갱신된 것을 확인할 수 있다.

CREATE TABLE if not exists users로 수정하여 Table이 있는 경우에는 Table을 생성하지 않도록 한 후,

Workflow Trigger시 동작하는 것을 확인할 수 있다.

Copes

이전 포스트

01_Getting Started With Airflow

다음 포스트

02_Coding Your First Data Pipeline with Airflow

Airflow

Operator란?

3가지 종류의 Operator

5가지 작업 수행

1. 테이블 생성(`creating_table`)

Airflow Web UI에서

관련 코드 작성

Connection 설정 이후에 반드시 Test가 필요하다.

2. API 사용 가능 여부 확인(`is_api_available`)

Airflow Web UI에서

관련 코드 작성

Test

3. 원하는 user 데이터 추출(`extracting_user`)

관련 코드 작성

Test

4. user 데이터 처리(`processing_user`)

관련 코드 작성

Test

5. 위의 작업이 완료된 user 데이터 저장(`storing_user`)

관련 코드 작성

Test

Dependency 설정

01_Getting Started With Airflow

03_DB and Executors

0개의 댓글

관련 채용 정보

02_Coding Your First Data Pipeline with Airflow

Airflow

Operator란?

3가지 종류의 Operator

5가지 작업 수행

1. 테이블 생성(creating_table)

Airflow Web UI에서

관련 코드 작성

Connection 설정 이후에 반드시 Test가 필요하다.

2. API 사용 가능 여부 확인(is_api_available)

Airflow Web UI에서

관련 코드 작성

Test

3. 원하는 user 데이터 추출(extracting_user)

관련 코드 작성

Test

4. user 데이터 처리(processing_user)

관련 코드 작성

Test

5. 위의 작업이 완료된 user 데이터 저장(storing_user)

관련 코드 작성

Test

Dependency 설정

01_Getting Started With Airflow

03_DB and Executors

0개의 댓글

관련 채용 정보

1. 테이블 생성(`creating_table`)

2. API 사용 가능 여부 확인(`is_api_available`)

3. 원하는 user 데이터 추출(`extracting_user`)

4. user 데이터 처리(`processing_user`)

5. 위의 작업이 완료된 user 데이터 저장(`storing_user`)