학습주제
데이터 파이프라인과 Airflow 소개
학습내용
개념 + 실습 위주 진행
Backfill - airflow의 장점
DAG - 데이터 파이프라인을 지칭하는 용어
Airflow 고급 기능
현업에서 도움되는 기능을 예제 위주로
Airflow 운영할 때 기억할 것
Extract Transform load
구글 콜랩 위에서 예제 코드 작성 예정
소개 전, 큰 그림을 먼저 소개.
온라인 서비스를 하면 사용자 행동 데이터, 서비스 바깥에서 마케팅, 행동 데이터들을 한군데 모음. (데이터 팀 역할)
데이터 인프라로 데이터를 모으는 과정을 데이터 파이프라인, ETL이라 부르고, airflow에선 DAG라고 부름.
이번 강의의 핵심. 외부 데이터를 데이터 시스템 안으로 가져오는 코드의 작성과 관리에 대해 배움. - airflow
작성, 관리의 의미가 뭘까? -> 이번 강의 때 배움.
데이터 조직이 발전하면, 스파크, 하둡 같은게 들어옴. realtime 카프카, nosql, 카산드라 (머신러닝)
가장 기본이 되는건 데이터 웨어하우스와 ETL 프로세스.
데이터 분석
시각화 툴 - 태블로, 루커, 수퍼셋
과학적인 의사결정
데이터 과학 적용
운영이 중요한 곳이라면 비용을 절감시켜줌
프로덕트 서비스 개선, 사용자 경험 개선, 운영 비용 개선
데이터 적재 프로세스 ETL
ETL 주기적 실행, 순서를 정해주는 프레임워크 Airflow
ETL들이 데이터 시스템 안으로 가져오는 것들 - 데이터 소스
트랜젝션 데이터베이스, 사용자 정보, 상품정보 (프로덕션 DB, Mysql, postgresql)
STripe (신용카드 매출)
Mailchimp (이메일)
Amplitude (사용자 행동 로그, 수집)
RingCentral (CS, 콜센터)
Salesforce (영업 데이터)
요약 테이블 - ELT
ETL - 데이터 엔지니어의 주 업무