Airflow 환경구축 (for window)

BAO.DE·2023년 1월 27일

Apache Airflow

목록 보기
2/20

Docker 설치

installer 가 뜨면 순차적으로 진행해준다

Docker WSL2를 포함하게되는데,
구글링을 해보면 많은 분들이 WSL2 를 별도로 설치해주지만 굳이 그럴 필요가 없다.
WSL2는 윈도우 위에서 리눅스를 사용할 수 있게해준다.

설치가 끝나면 재부팅을 하니 유의하자

설치완료

powershell 버전확인

도커 에러 해결


도커 설치이후 실행이 안되는 문제가 발생했다.
리눅스 커널 업데이트를 통해 해결

리눅스 설치
경로를 타고 들어가면 ms store가 열린다 나는 칼리 리눅스를 받았다.

Airflow 설치

pip install apache-airflow

Python 설치


가상환경 설치

디렉토리 생성 후 가상환경 설치
activate / deactivate 를 이용해 활성화 및 비활성화

activate

source .venv/bin/activate

decativate

메타스토어 초기화

Airflow 상태를 저장하는 DB를 초기화 및 user 생성

airflow db init


기본적으로 Airflow 는 SQLlite를 사용한다.

데이터베이스 지원은 여기서 확인 가능하다 데이터베이스

사용자 생성

사용자 생성이전에 airflow.cfg 내의 sqllite 경로를 상대 -> 절대경로로 변경해줘야한다.
vi 모드로 접속해서 절대 경로로 수정해줘야 다음과 같은 에러를 해결할 수 있다.

create user

airflow users create 
--username admin 
--password admin 
--firstname ggul 
--lastname cha 
--role Admin 
--email ggulcha@example.com

웹서버 & 스케줄러 실행


접속실패 ~~
사용자가 많다고 한다 ㅠ

해결방법
실행중인 프로세스를 먼저 죽인 후
8888 포트로 접속

webserver 띄우기 성공 !

접속
scheduler 를 띄우지 않으면 DAG list를 불러올 수 없다

airflow scheduler

정상적으로 DAG list를 불러온다.

window에서 Airflow를 사용하는 방법은 크게 두 가지로 나뉜다.
docker / python venv
현재 상황에 맞춰 적절한 환경을 구성하자.

DAG 실행 / 살펴보기

Airflow에서 기본으로 제공하는 dag 실행

Tasks 의 실행 상태를 보여준다.

왼쪽은 오퍼레이터 종류
가운데는 DAG 구조
오른쪽의 색깔들은 상태 범례이다

트리거를 통해 실행이 시작이 되고 색상으로 표시된 워크플로를 통해 현재 상태를 알 수 있다.

0개의 댓글