1. airflow-day1-1

data_hamster·2023년 6월 4일
0
post-custom-banner

학습주제
데이터 파이프라인과 Airflow 소개

학습내용

개념 + 실습 위주 진행

  1. AWS EC2 서버에서 우분투 리눅스를 기반으로 직접 하나씩 설치
  2. 도커를 사용하여 Airflow 설치

Backfill - airflow의 장점
DAG - 데이터 파이프라인을 지칭하는 용어
Airflow 고급 기능
현업에서 도움되는 기능을 예제 위주로
Airflow 운영할 때 기억할 것


Extract Transform load

구글 콜랩 위에서 예제 코드 작성 예정



소개 전, 큰 그림을 먼저 소개.
온라인 서비스를 하면 사용자 행동 데이터, 서비스 바깥에서 마케팅, 행동 데이터들을 한군데 모음. (데이터 팀 역할)
데이터 인프라로 데이터를 모으는 과정을 데이터 파이프라인, ETL이라 부르고, airflow에선 DAG라고 부름.
이번 강의의 핵심. 외부 데이터를 데이터 시스템 안으로 가져오는 코드의 작성과 관리에 대해 배움. - airflow

작성, 관리의 의미가 뭘까? -> 이번 강의 때 배움.
데이터 조직이 발전하면, 스파크, 하둡 같은게 들어옴. realtime 카프카, nosql, 카산드라 (머신러닝)
가장 기본이 되는건 데이터 웨어하우스와 ETL 프로세스.

  1. 데이터 분석
    시각화 툴 - 태블로, 루커, 수퍼셋
    과학적인 의사결정

  2. 데이터 과학 적용
    운영이 중요한 곳이라면 비용을 절감시켜줌
    프로덕트 서비스 개선, 사용자 경험 개선, 운영 비용 개선


데이터 적재 프로세스 ETL
ETL 주기적 실행, 순서를 정해주는 프레임워크 Airflow
ETL들이 데이터 시스템 안으로 가져오는 것들 - 데이터 소스
트랜젝션 데이터베이스, 사용자 정보, 상품정보 (프로덕션 DB, Mysql, postgresql)
STripe (신용카드 매출)
Mailchimp (이메일)
Amplitude (사용자 행동 로그, 수집)
RingCentral (CS, 콜센터)
Salesforce (영업 데이터)

요약 테이블 - ELT

ETL - 데이터 엔지니어의 주 업무

profile
반갑습니다 햄스터 좋아합니다
post-custom-banner

0개의 댓글