데이터 파이프라인 핵심 가이드 - 01, 02장 최신 데이터 인프라

최세연·2023년 3월 29일
1
post-thumbnail

데이터 파이프라인이란?


다양한 소스에서 새로운 가치를 얻을 수 있는 대상으로 데이터를 옮기고 변환하는 일련의 과정

최신 데이터 인프라


최신 데이터 인프라의 핵심 구성 요소

  • 데이터 소스의 다양성
    • 보통 수십 개의 데이터 소스가 있으며, 이를 통해 분석 작업

  • 클라우드 데이터웨어 하우스와 데이터 레이크
    • 클라우드에서 데이터 파이프라인, 데이터 레이크, 웨어하우스 및 분석 처리 구축 및 배포가 쉬워짐.
    • 데이터웨어 하우스: 사용자가 원하는 질문에 대답할 수 있는 데이터 분석 활동을 지원하기 위해
      서로 다른 시스템의 데이터가 모델링되어 저장되는 데이터베이스
    • 데이터 레이크: 데이터가 저장되지만 데이터 웨어하우스처럼 데이터 구조나 쿼리 최적화가 필요 없는 곳

  • 데이터 수집 도구
    • Singer
    • Stitch
    • Fivetran
    • 추가로 프레임워크를 개발해서 사용하기도 한다.
    • 데이터 수집은 ETL, ELT 프로세스의 추출 및 로드 단계

  • 모델링 및 프레임워크
    • 데이터 변환 vs 데이터 모델링
      • 데이터 변환: ETL, ELT 프로세스에서의 T
      • 데이터 모델링: 보다 구체적인 데이터 변환 유형, 데이터 분석을 위해 데이터를 이해하고 최적화된 형식으로 정형화하고 정의
    • 복잡한 데이터 변환 및 데이터 모델링을 위해서는 dbt와 같이 작업을 위해 특별히 설계된 도구와 프레임워크를 찾는 것이 바람직
  • 워크플로 오케스트레이션 플랫폼
    (= 워크플로 관리 시스템(WMS), 오케스트레이션 플랫폼, 오케스트레이션 프레임워크)
    - 파이프라인에서 작업의 스케줄링 및 흐름을 관리함
    - 아파치 에어플로우
    - Luigi
    - AWS Glue
    - Kubeflow Pipeline (Docker 컨테이너에 구축된 머신러닝을 위해 설계됨)

    • 방향성 비순환 그래프(DAG)
      최신 오케스트레이션 프레임워크는 파이프라인에서 작업의 흐름과 종속성을 그래프로 나타냄.
      몇가지 특정 제약조건이 있다.
      - 파이프라인 단계는 항상 방향성을 가진다.
      - 모든 종속 작업이 완료되어야만 그 다음 작업이 실행된다.
      - 파이프라인 그래프는 비순환 그래프여야한다. (작업은 돌아갈 수 없어 순환할 수 없고 다음으로만 가능)

데이터 쿼리 후 추출 --> 데이터정리 및 변환 --> 정리된 데이터 로딩

profile
오물쪼물 코딩생활 ๑•‿•๑

0개의 댓글