데이터 파이프라인이란?
다양한 소스에서 새로운 가치를 얻을 수 있는 대상으로 데이터를 옮기고 변환하는 일련의 과정
최신 데이터 인프라
최신 데이터 인프라의 핵심 구성 요소
- 데이터 소스의 다양성
- 보통 수십 개의 데이터 소스가 있으며, 이를 통해 분석 작업
- 클라우드 데이터웨어 하우스와 데이터 레이크
- 클라우드에서 데이터 파이프라인, 데이터 레이크, 웨어하우스 및 분석 처리 구축 및 배포가 쉬워짐.
- 데이터웨어 하우스: 사용자가 원하는 질문에 대답할 수 있는 데이터 분석 활동을 지원하기 위해
서로 다른 시스템의 데이터가 모델링되어 저장되는 데이터베이스
- 데이터 레이크: 데이터가 저장되지만 데이터 웨어하우스처럼 데이터 구조나 쿼리 최적화가 필요 없는 곳
- 데이터 수집 도구
- Singer
- Stitch
- Fivetran
- 추가로 프레임워크를 개발해서 사용하기도 한다.
- 데이터 수집은 ETL, ELT 프로세스의 추출 및 로드 단계
- 모델링 및 프레임워크
- 데이터 변환 vs 데이터 모델링
- 데이터 변환: ETL, ELT 프로세스에서의 T
- 데이터 모델링: 보다 구체적인 데이터 변환 유형, 데이터 분석을 위해 데이터를 이해하고 최적화된 형식으로 정형화하고 정의
- 복잡한 데이터 변환 및 데이터 모델링을 위해서는 dbt와 같이 작업을 위해 특별히 설계된 도구와 프레임워크를 찾는 것이 바람직
- 워크플로 오케스트레이션 플랫폼
(= 워크플로 관리 시스템(WMS), 오케스트레이션 플랫폼, 오케스트레이션 프레임워크)
- 파이프라인에서 작업의 스케줄링 및 흐름을 관리함
- 아파치 에어플로우
- Luigi
- AWS Glue
- Kubeflow Pipeline (Docker 컨테이너에 구축된 머신러닝을 위해 설계됨)
- 방향성 비순환 그래프(DAG)
최신 오케스트레이션 프레임워크는 파이프라인에서 작업의 흐름과 종속성을 그래프로 나타냄.
몇가지 특정 제약조건이 있다.
- 파이프라인 단계는 항상 방향성을 가진다.
- 모든 종속 작업이 완료되어야만 그 다음 작업이 실행된다.
- 파이프라인 그래프는 비순환 그래프여야한다. (작업은 돌아갈 수 없어 순환할 수 없고 다음으로만 가능)
데이터 쿼리 후 추출 --> 데이터정리 및 변환 --> 정리된 데이터 로딩