학습주제
airflow 설치
학습내용
2가지 방법 시도
직접 설치하고 운영
회사 자금이 괜찮다면
클라우드 사용
구글 클라우드가 먼저 제공
AWS 21년초 MWAA로 에어플로우 서비스 제공
Azure 23 년 1월 제공
학습용으로 클라우드 버전을 쓰긴 부담. 기본으로 서버 3대를 돌리기 때문
도커 설치 후 airflow를 이미지로 받아서 설치 - 주로 사용
AWS Ec2 등의 우분투 서버에서 에어플로우 모듈을 일일이 설치.- 데모 하겠지만, 실습은 도커 기준.
우분투 20.04 사용
프리티어가 아니기에 비용이 발생함
이에 실습은 도커환경을 이용 설치 과정은 시청
굉장히 많은 디스트리뷰션이 있고 그중하나 우분투, 레드햇, 페도라 등...
무료인 우분투 있음.
ssh라는 프로그램을 사용함. 터미널이라 부름
윈도우 10 부터 파워쉘 형태로 있음.
private key, public key 페어를 만들어 로그인. ec2에서 지원하는 방식.
sudo: 슈퍼유저라면 권한이 있어야 실행할 수 있는 명령어 실행 가능케함.
다른 사용자로 이동할 수 있음.
apt라는 프로그램 매니저
get을 사용. 프로그램 설치 삭제.
su: sudo 명령어를 사용해 다른 사용자로 바꿀 때 대상 아이디 지정. 해당 사용자의 권한을 얻음.
ec2에선 우분투라는 사용자를 만들어줌. 슈퍼유저. 우분투로 로그인. postgre 사용자로 이동해 설치. airflow도 마찬가지
sudo su airflow
sudo su postgresql
vi라는 단순한 텍스트 에디터 사용.
2.5.1 설치 예정
링크를 들어가면 깃헙 리포가 있음
https://github.com/keeyong/airflow-setup/blob/main/docs/Airflow%202%20Installation.md
리드미를 볼 수 있음. 그 과정을 따라서 설치 예정.
나중에 이 과정 참조할 때, 구글 클라우드 컴포저 확인 하여 최신버전 확인 후 설치하면 됨.
airflow는 메타데이터 DB로 sqllite. 이걸 Postgres로 바꿈.
리눅스 계열, 모든 운영체제에선 슈퍼유저로 모든 서비스를 사용하는건 좋지 않음. 해킹당하면 슈퍼유저가 해킹당하기 때문. 필요한 만큼의 권한을 부여한 사용자를 생성해서, 보안을 유지.
ubuntu -> postgres -> airflow
airflow 서비스로 등록. 백그라운드에 등록하여 리부팅되어도 다시 돌아갈수 있게 함.