AirFlow, DataHub

김엣취·2025년 2월 10일

etc.

목록 보기
22/23

AirFlow

- 역할

데이터 파이프라인(데이터 수집, 전처리, 모델 만들기, 추론하기 등등 자동화)

- 용어

DAG(Directed Acyclic Graph, 비순환 그래프): AirFlow에서 실행할 작업(Task)들을 순서에 맞게 구성한 워크플로우

INLET: 탱크, 물탱크 또는 저수지에 연결되어 이를 채우는 파이프
OUTLET: 탱크, 물탱크 또는 저수지에 연결되어 이를 비우는 파이프

tank(탱크): 데이터베이스 테이블이나 데이터 처리 중에 사용되는 임시 저장 위치

cistern(물탱크): 중간 결과나 사전 처리된 데이터와 같은 특정 유형의 데이터를 위해 설계된 특수 저장 시스템
(예: 분석이나 보고를 위해 사용되는 중간 결과나 사전 처리된 데이터를 저장하는 데 사용)

reservoir(저수지): 대규모 중앙 집중식 저장 시스템을 의미하며, 방대한 양의 원시(raw) 데이터나 처리된 데이터를 보관하는 데 사용
(예: 데이터 레이크(Data Lake))

데이터 레이크(Data Lake): 정형, 반정형, 비정형 데이터를 원시(raw) 형태로 대량 저장할 수 있는 중앙 집중식 리포지토리

중앙 집중식 리포지토리: 조직 내 다양한 소스에서 생성된 데이터를 단일 위치에 통합하여 저장, 관리, 분석할 수 있는 시스템

- Lineage

각 Airflow 작업(task)에 inlets와 outlets 속성을 정의하여 데이터 흐름을 추적할 수 있게 함.
OpenLineage 기반의 자동 계보 추적 기능을 활용하여 데이터 변환 과정을 시각화 할 수 있음.

DataHub

- 역할

양이 방대하고, 형식이 다양하며, 빠르게 변화하는 데이터 생태계를 위한 메타데이터 관리 플랫폼으로, 데이터 검색, 협업, 거버넌스, 관찰성을 지원하는 오픈 소스 데이터 카탈로그

- 용어

MSA(Micro service Architecture): 독립적 배포가 가능하고, 스스로 돌아 갈 수 있는 작은 서비스 아키텍쳐

GMS(Generalized Metadata Service): 메타데이터 정보를 Persistent Tier에 저장하고, 또 가져오는 역할을 수행

메타데이터(metadata): 데이터를 설명하는 데이터로, 예를 들어 파일의 이름, 크기, 생성 날짜뿐 아니라 데이터셋의 구조(스키마), 출처, 사용 이력 등이 포함됨

거버넌스(Governance): 데이터의 품질, 보안, 규정 준수를 관리하는 기능

관찰성(Observability): 데이터의 흐름과 상태를 추적하여 문제가 발생했을 때 원인을 파악할 수 있도록 함

- 구조

크게 두가지로 나뉨.

1. Application Tier

비즈니스 로직을 처리하는 계층.
데이터 처리, 계산, 유효성 검사 등 애플리케이션의 핵심 기능을 수행

Application 단에서는 DataHub이 MSA 구조로 워크로드를 운영함
frontend와 backend(GMS)로 구성되어있음.

2. Persistent Tier

데이터를 영구적으로 저장하고 관리하는 계층으로, 데이터베이스나 파일 시스템과 상호작용함

0개의 댓글