[data architecture] Data Mesh vs Data Fabric

Hyunjun Kim·2025년 7월 8일
0

Data_Engineering

목록 보기
92/153

1. 데이터 아키텍처의 진화: DWH → Lake → Mesh & Fabric

  • DWH (Data Warehouse): 정형 데이터 기반, 스키마 온 라이트(Schema-on-Write) 방식.
  • Data Lake: 반정형/비정형 데이터 수용, 스키마 온 리드(Schema-on-Read), 확장성 강화.
  • Lakehouse: DWH와 Lake의 장점을 결합한 구조 (ex. Databricks).
  • Data Mesh / Data Fabric: 중앙 집중형의 한계 극복, 조직 및 기술 아키텍처 전환.

비교 요약

항목DWHData LakeData MeshData Fabric
중심 철학통제, 정제된 저장유연성, 확장성분산 소유, 제품 중심통합, 자동화
데이터 유형정형정형 + 비정형전 유형전 유형
구조중앙 집중형중앙 저장도메인 분산가상 통합
기술 스택Teradata, SnowflakeHadoop, S3Kafka, dbtDenodo, Talend, IBM

2. Data Mesh 란?

2.1 개념 및 등장 배경

  • Zhamak Dehghani (ThoughtWorks)가 2019년에 제안한 아키텍처 전략.
  • "데이터는 중앙 조직이 소유할 것이 아니라, 도메인 팀이 제품처럼 관리해야 한다"는 철학.
  • 중앙 집중형 데이터 레이크/웨어하우스의 병목, 비확장성 문제 해결 목적.

2.2 4대 원칙

  1. Domain Ownership
    도메인 팀이 자신들의 데이터를 직접 소유하고 관리.
  2. Data as a Product
    데이터를 자체 품질과 API, SLA를 갖춘 제품(Product)으로 취급.
  3. Self-Serve Data Platform
    데이터 인프라, 파이프라인, 거버넌스 자동화를 통해 팀들이 자율적 데이터 제공 가능.
  4. Federated Governance
    중앙+분산형 혼합 거버넌스 체계 (예: 표준 스키마, lineage, 품질 기준 통일)

2.3 조직 적용 사례 및 구현 포인트

  • Zalando: 유럽 최대 패션 플랫폼, Data Mesh 선도적 도입
  • Netflix: 도메인 중심 로그 처리 및 추천 시스템 운영
  • 구현 고려사항:
    • 팀 별 data product owner 필요
    • data contract, schema registry, observability 필수
    • mesh 구성 기술: Kafka, dbt, Data Catalog

2.4 Data Mesh 이해를 돕는 예시

  • 예시: 쇼핑몰 도메인별 데이터 소유
    • 마케팅팀은 고객 행동 데이터(product views, clicks)를 소유하고,
    • 물류팀은 재고 및 배송 데이터를 관리한다.
    • 각 팀은 자신의 데이터 품질, API 제공, SLA를 책임지며 독립적으로 운영된다.
    • 중앙 IT 조직은 표준, 보안, 거버넌스만 관리하며,
    • 팀 간 데이터는 계약(data contracts)을 통해 상호 연동된다.

3. Data Fabric

3.1 개념 및 구성 요소

  • 다양한 위치·포맷의 데이터를 메타데이터 기반으로 가상 통합하고, 자동화된 연결/분석을 제공하는 지능형 아키텍처
  • Gartner 주도 아키텍처, IBM, Denodo, Talend, Informatica 등 솔루션 기반으로 구현

주요 구성 요소

  • Data Catalog & Metadata Engine
  • Data Virtualization Layer (Presto, Denodo 등)
  • Orchestration & Automation
  • Security & Governance Framework

3.2 메타데이터 기반 통합, 자동화

  • 메타데이터와 ML을 기반으로 사용자의 패턴을 학습 → 관련 데이터 추천, 자동 조인 제안
  • ETL이 아닌 가상 뷰(Virtual View) 방식으로 실시간 분석 가능

3.3 Data Fabric 이해를 돕는 예시

  • 예시: 금융 기관의 데이터 가상 통합
    • 고객 데이터는 CRM 시스템, 거래 데이터는 메인프레임, 리스크 데이터는 클라우드 DB에 분산 저장.
    • Data Fabric 솔루션이 각 시스템을 가상 뷰로 연결해,
    • 분석가는 복잡한 ETL 없이 단일 SQL 쿼리로 모든 데이터에 접근 가능.
    • 자동화된 데이터 연동과 보안 정책 적용으로 효율적 운영.

4. Data Mesh vs Data Fabric

항목Data MeshData Fabric
설계 중심조직과 도메인 소유 구조기술 통합, 자동화
운영 방식각 팀이 제품 소유중앙 플랫폼 가상 통합
기술 종속성낮음 (원칙 기반)높음 (벤더 종속성)
적합 조직자율적인 조직문화, 빠른 실험규제가 많고, 중앙통제가 중요한 조직
도입 난이도조직 변화 필요 → 높음기술 도입 중심 → 중간

5. 아키텍처 선택 가이드

조건권장 아키텍처
데이터팀 중심 운영, 규모가 작음Data Lake 또는 Medallion
팀 간 경계가 명확하고 도메인 중심 문화Data Mesh
다양한 시스템에서 데이터를 자동 수집/통합해야 함Data Fabric
거버넌스와 보안 통제가 우선Data Fabric
유연성과 확장성, 실험 가능성이 중요Data Mesh + Medallion 혼합
profile
Data Analytics Engineer 가 되

0개의 댓글