# airflow

Airflow 사용하여 AWS 서비스 연결하기
Airflow는 PythonOperator로 여러 Python 라이브러리들을 사용하여 모든 Task를 구현할 수 있지만, 특정 작업을 수행하는 구체적인 목적을 위한 다양한 Operator들을 제공한다. 이러한 Operator들을 이용해 AWS, Postgres, GCP 등등의 외부 시스템과 연결할 수 있고, 원하는 기능을 지원하는 Operator가 있다면...

[TIL] 데이터 파이프라인, Airflow (3)
Hello World 예제 프로그램 살펴보기Name Gender 예제 프로그램 포팅Open Weather DAG 구현하기Primary Key Uniqueness 보장하기

학습주제airflow 설치학습내용2가지 방법 시도직접 설치하고 운영우리가 해볼 예정회사 자금이 괜찮다면클라우드 사용구글 클라우드가 먼저 제공AWS 21년초 MWAA로 에어플로우 서비스 제공Azure 23 년 1월 제공학습용으로 클라우드 버전을 쓰긴 부담. 기본으로 서버

1. airflow-day2-1
학습주제Airflow 설치와 프로그래밍실제로 설치 및 코딩학습내용헤더, 트랜잭션 숙제 복습설치는 여러가지, 우분투 서버에 직접 설치, 도커로 설치. 두가지 모두 설명배쉬 오퍼레이터로튜플을 바로 리스트 원소로 넣을 수 있음.헤더가 레코드로 적재되는 이슈멱등성이 보장되지

6. airflow-day1-6
학습주제컴포넌트,학습내용대그 수가 늘어가면 용량이 부족해지기 시작 - 스케일링 필요코드의 구조를 살펴본다.웹 서버: 파이썬 플라스크스케줄러: 정해진 시간에 실행. 순차적 태스크 실행워커:테스크 코드를 실행메타 데이터베이스: 스케줄러, 워커, 파이프라인 정보. Sqlit

5. airflow-day1-5
학습주제Airflow 소개파이프라인 모양학습내용데이터프레임 관리/작성 프레임워크데이터 파이프라인 스케줄링 지원.A가 끝나면 B를 트리거해줌.웹 UI도 제공로그가 뭐가 남았는지 디버깅할 수있고문제 해결후 재실행이 쉬움(백필)파이프라인 작성을 쉽게함굉장히 많은 데이터 소스

1. ETL 소개
학습주제 간단한 ETL 만들기 학습내용 csv 파일을 받아 redshift 테이블로 로딩. 스키마가 기본적으로 만들어져 있고, 나만의 스키마 - kjw9684k로 1개 만들어져 있음. 앞으로 본인 스키마 밑에 테이블 만들 예정 ETL : DAG Extract:

Airflow docker-compose.yaml 알아보기
Airflow를 설치하는 방법은 다양한데, 그 중 간단하게 로컬에서 Airflow를 실행하기에는 Docker를 이용하는 것이 적절하다고 한다. 아래 공식문서를 통해서 Docker로 Airflow를 설치했는데 설정파일인 docker-compose.yaml 파일 내용이 이해가 잘 안가서 정리해보았다. > Docker 기반 Airflow 설치 공식문서 https...

[Airflow] Airflow의 개념과 구성, 장단점
1. Airflow란 Airflow는 파이썬으로 작성된 데이터 파이프라인 (ETL) 프레임워크이다. 데이터 파이프라인 스케줄링을 지원한다. 데이터 파이프라인(ETL)의 작성을 쉽게 만들어 준다. 다양한 데이터 소스와 데이터 웨어하우스를 쉽게 통합해 주는 모듈을 제공한

3. airflow-Day1-3
학습주제데이터 파이프라인을 만들 때 고려할 점best practice그 외 좋은 팁학습내용이상내가 만든 데이터 파이프라인은 문제 없다.관리가 어렵지 않다.현실여러가지 이유로 실패함모든 프로그램 이슈: 버그. 코드 5줄만 넘어가도.데이터 소스가 내가 컨트롤러를 갖고 있지

[TIL] 데이터 파이프라인, Airflow (1)
데이터 파이프라인이란?데이터 파이프라인을 만들 때 고려할 점간단한 ETL 작성해보기Airflow 소개Airflow 구성

2. airflow-Day1-2
학습주제 데이터 파이프라인 프로세스 알아보기 학습내용 데이터 워크플로우 , DAG라고도 부름 Directed Acycle Graph 보면 파이브라인에 4개의 테스크가 있고 a 실행. b, c 병렬 실행. d 실행 순으로 보임 그래프로 보이고, 한방향 (dicrec
[내일 출근인데 어떡하지] python 코드에 Airflow 적용하기
데이터 수집 파이프라인을 Airflow 로 구축해 주세요 지금까지는 데이터 수집 파이프라인을 간단히 쉘 스크립트로 만들어 이용했던 Judy, 이번에는 Airflow 를 이용해 보라는 퀘스트를 받았습니다 😵💫 Airflow 란 무엇이고, 어떻게 코드를 작성하고 사

1. airflow-day1-1
학습주제데이터 파이프라인과 Airflow 소개학습내용개념 + 실습 위주 진행AWS EC2 서버에서 우분투 리눅스를 기반으로 직접 하나씩 설치도커를 사용하여 Airflow 설치Backfill - airflow의 장점DAG - 데이터 파이프라인을 지칭하는 용어Airflow

📦 Airflow ( CSV파일을 MySQL에 적재 )
이전에 작성했던 게시물에서는 data라는 폴더에 csv파일로 저장만 했다면 이제 저장된 csv파일을 Airflow에 connection한 MySQL에 적재를 해보겠습니다.
⚙️ Airflow에 알라딘 크롤링 자동화
처음 혼자 연습했던 알라딘의 API를 이용해서 중고책들의 정보를 가져오는 코드를 통해서 매일 같은시간에 데이터를 받아오기 위해서 Airflow에서 간단하게 작업을 수행해보겠습니다. 알라딘의 api를 이용하기 위해서는 TTBKey를 사이트에서 발급 받아오셔야 합니다.

[Airflow] Book Study - 4. Airflow 콘텍스트를 사용하여 태스크 템플릿 작업하기
Datapipelines with Apache Airflow를 기반으로 작성된 포스팅입니다.
Airflow DAG 작성하기
DAG 작성 DAG는 크게 DAG인스턴스를 생성하는 부분, Operator(task)를 생성하는 부분, task간 의존성을 설정하는 부분으로 나뉜다. DAG 인스턴스 생성 DAG 클래스의 인스턴스를 생성해준다. Operator들은 이렇게 생성한 dag 인스턴스를 참조

Airflow 란?
데이터 엔지니어링 직무를 알아보면서 가장 많이 접했던 용어는 '데이터 파이프라인'이었다. 그리고 이 데이터 파이프라인을 설계 하는데 가장 큰 파이를 차지하고 있는 Airflow를 심도있게 학습해야겠다고 생각했다.Apache Airflow 기반의 데이터 파이프라인 (원제