[Apach Airflow 설치 및 빌드]데이터분석가의 삽지니어링4

생각하는 마리오네트·2023년 2월 26일
0

삽지니어링

목록 보기
4/10

이번에는 아파치 에어플로우를 ubuntu환경에서(putty를 활용하여) 설치해 보고 실제로 서버에 빌드해보는것을 해보려고 한다.

에어플로우는 삽지니어링2 Apach Nifi(아파치 나이파이)와 같이 데이터 파이프라인을 만들어주는 툴로서 나이파이 보다는 더 많은 사람들이 쓰고 있다.

현재 다니고 있는 회사에서도 에어플로우와 GCP를 같이 사용하고 있기 때문에 익숙한 툴이다.(하지만, 할줄 아는것과 익숙한것은 다르다 ^^...)

Airflow(에어플로우)설치

  1. 소프트웨어 저장소에 설치가능한 패키지 리스트를 최신화 해준다.
sudo apt update
  1. 파이썬 가상환경에 필요한 패키지 다운로드한다.
 sudo apt install python3-pip python3.10-venv
  1. 파이썬 가상환경 "venv"만들기
python3 -m venv venv
  1. 가상환경 실행하기
source venv/bin/activate
  1. 에어플로우 설치하기
pip3 install apache-airflow
  1. 에어플로우 db초기화
airflow db init
  1. airflow/dags 폴더 만들기
mkdir ~/airflow/dags
  1. airflow 유저 만들기
airflow users create --username admin --password admin --firstname  Annonymous --lastname Admin --role Admin --email admin@example.org 

여기서는 본인이 에어플로우에 로그인할 때 쓸 정보들을 커스텀해서 넣어주면된다. 임시로 admin으로 모두 만들어서 넣어준 모습이다.

  1. 에어플로우 웹서버 실행
airflow webserver --port 8081 # 포트번호는 본인이 원하는 포트로 하시면됩니다.

정상적으로 완료 되었을때 아래와 같은 모습이 우분투에서 보입니다.

  1. AWS EC2내 인스턴스에서 인바운드 규칙편집에 에어플로우 실행 포트 등록하기(아래 Apache Nifi게시글에 설명참고->사진클릭)



  1. 포트를 인바운드 규칙에서 등록을 했다면 웹에서 실행해 보자!!
{퍼블릭IPv4주소}:{포트번호}

정상적으로 입력했다면 아래와 같이 로그인창이 보일것이다.

  1. 8번 에어플로우 유저정보를 만들때 사용했던 아이디와, 비밀번호 입력후 접속하기

삽질끝에 마주한 에어플로우 ㅠㅠㅠ 보고싶었어...
데이터 엔지니어링 툴은 설치가 제일 어려운것같아요...

profile
문제를해결하는도구로서의"데이터"

0개의 댓글