[data]Data Fabric, Data Mesh

Lempickaa·2025년 9월 8일

graph

목록 보기
4/10

사진 출처 : Two ways: Data Mesh vs. Data Fabric
사진 출처 : Two ways: Data Mesh vs. Data Fabric

data mesh

  • 데이터를 중앙화 하지 않고, 도메인별 팀이 자율적으로 데이터 제품을 운영하는 분산형 데이터 아키텍쳐. 4개의 핵심 원칙이 있음 :

    1) Domain ownership : 각 도메인별 팀이 데이터를 가장 잘 이해하기 때문에 데이터에 대한 통제 권한을 가짐
    2) Data as a product : 데이터를 소프트웨어 제품과 동일하게 관리하고 전략적으로 계획합니다.
    3) Self-serve data platform :데이터메시는 데이터를 분산된 형태로 유지하며, 표준화된 도구를 이용해 각 도메인에서 필요로 하는 데이터는 도메인 내에서 관리하고 저장함.
    4) Federated governance : 각 도메인이 자율적으로 데이터를 관리하고, 필요 시 다른 도메인과 협력할 수 있음. 도메인 팀이 데이터 수명, 주기, 액세스 권한과 정책을 결정함

  • 데이터를 독립적인 도메인으로 다루는 것이 핵심.

  • 데이터 메시 아키텍처는 서로 다른 데이터 소스를 효과적으로 통합하고, 중앙에서 관리되는 데이터 공유 및 거버넌스 지침을 통해 연결함.

  • 데이터를 관리하는 각 업무 부서에서는 공유 데이터에 액세스하는 방법, 액세스하는 사람 및 액세스하는 형식을 제어할 수 있음. 이 때문에 아키텍쳐의 복잡성이 증가한다는 단점이 있음

  • 또한, 데이터 제품이 사용되는 것이 아니라 여러 번 재사용되고 도메인 간에 조합되어야 하는 것이 이상적이나, 서로 다른 의미적 사일로(semantic silos)에 의해 분리된 데이터 제품들을 가로지르는 “의미 차이 (semantic gap)”가 존재

    이에 대한 해결책으로 모든 데이터 제품이 참조할 수 있는 공유된 기업 수준의 온톨로지(shared enterprise ontology)를 정의하는 방법이 있음. 이를 통해 기술적 수준뿐 아니라 의미적 수준에서도 데이터 통합을 보장할 수 있음. 그러나 공유 온톨로지를 구축하고 진화시키는 것은 조직적으로 매우 복잡한 작업이며, 실무에서는 확장 가능하지도 않고, 널리 채택되지도 않는 솔루션으로 귀결되는 경우가 많다는 한계가 있음. (Andrea Giogia, 2025.03)

  • 정리하면, 개별 도메인은 중앙에서 관리되는 표준과 거버넌스 지침에 따라 데이터를 관리할 수는 있지만, 데이터 관리와 연계는 데이터가 생산되는 도메인 팀에서 주관. 데이터 메시 아키텍쳐는 분산된 환경에서 관리되는 데이터를 잘 연계시켜줄 수 있도록 하는 것에 그침.

data fabric

  • 다양한 자료환경(온프레미스, 클라우드, 하이브리드)에 걸쳐 일관된 데이터 통합, 액세스, 거버넌스 제공하는 중앙화된 아키텍쳐
  • 지식 그래프로 구현된 통합 레이어 (intergration layer)는 제품, 고객, 이벤트 등의 주요 엔티티의 golden record로 구성된 master data로, 관계형 DB, NoSQL 등 다양한 환경에 저장되어 있는 데이터에 대한 진입점 역할을 함.즉 지식 그래프는 전체 데이터 사일로를 아우르는 정교한 색인 데이터를 제공하는 역할을 수행함
  • 같은 엔티티에 대해서 여러 소스에서 달리 표현되어도, 이를 수용할 수 있음. 또한, data fabric 접근법은 기존의 레거시 시스템을 크게 수정할 필요가 없다는 장점이 있음. 또한 그래프 모델 역시 유연히 적용할 수 있음.
  • 통합 레이어는 메타데이터를 중심으로 설계되고 자동화됨.
  • 예시 기업 : SAP data intelligence
  • 정리해보면, 중앙집중적 플랫폼에서 전체 데이터 사일로에 존재하는 엔티티에 대한 도메인 온톨로지 + 온톨로지 기반으로 구축된 지식그래프 가지고 있고(Intergration Layer), 해당 지식그래프에 개별 데이터에 대한 접근점을 갖고 있는 모형임. 따라서 데이터에 대한 질의가 전체 사일로에 대해서 의미적으로 수행될 수 있으므로, 이용자는 개별 도메인에 대한 사전 지식, semantic gap 없이 통합된 데이터를 받아볼 수 있다는 강점이 있음
  • 데이터를 연계시킨다는 점에서 mesh랑 비슷해 보이는데, 결정적으로 data fabric은 고객, 사건, 객체, 기관 등의 실제 도메인 엔티티에 대한 온톨로지를 기반으로 통합 레이어를 구성한다는 점에서 구분됨.
  • 개별 데이터에 대한 수정은 data virtualization을 통해 실시간으로 수행되도록 구현함.

    data virtualization : 데이터를 물리적으로 이동하지 않고 실시간 조회 + 가상 레이어 통한 통합 뷰 제공 방식

    • 특징 : 실시간 query federation ==> 복잡한 ETL 없이 접근 가능
    • 예시 : 실시간 대시보드 (레이턴시 최소화 환경에 적합)

참고문헌

profile
무책임한 정보 추구

0개의 댓글