[data]Data Fabric, Data Mesh

Lempickaa·2025년 9월 8일

Data Fabric Data Lakehouse Data Mesh

graph

목록 보기

4/10

사진 출처 : Two ways: Data Mesh vs. Data Fabric

data mesh

데이터를 중앙화 하지 않고, 도메인별 팀이 자율적으로 데이터 제품을 운영하는 분산형 데이터 아키텍쳐. 4개의 핵심 원칙이 있음 :

1) Domain ownership : 각 도메인별 팀이 데이터를 가장 잘 이해하기 때문에 데이터에 대한 통제 권한을 가짐
2) Data as a product : 데이터를 소프트웨어 제품과 동일하게 관리하고 전략적으로 계획합니다.
3) Self-serve data platform :데이터메시는 데이터를 분산된 형태로 유지하며, 표준화된 도구를 이용해 각 도메인에서 필요로 하는 데이터는 도메인 내에서 관리하고 저장함.
4) Federated governance : 각 도메인이 자율적으로 데이터를 관리하고, 필요 시 다른 도메인과 협력할 수 있음. 도메인 팀이 데이터 수명, 주기, 액세스 권한과 정책을 결정함
데이터를 독립적인 도메인으로 다루는 것이 핵심.
데이터 메시 아키텍처는 서로 다른 데이터 소스를 효과적으로 통합하고, 중앙에서 관리되는 데이터 공유 및 거버넌스 지침을 통해 연결함.
데이터를 관리하는 각 업무 부서에서는 공유 데이터에 액세스하는 방법, 액세스하는 사람 및 액세스하는 형식을 제어할 수 있음. 이 때문에 아키텍쳐의 복잡성이 증가한다는 단점이 있음
또한, 데이터 제품이 사용되는 것이 아니라 여러 번 재사용되고 도메인 간에 조합되어야 하는 것이 이상적이나, 서로 다른 의미적 사일로(semantic silos)에 의해 분리된 데이터 제품들을 가로지르는 “의미 차이 (semantic gap)”가 존재

이에 대한 해결책으로 모든 데이터 제품이 참조할 수 있는 공유된 기업 수준의 온톨로지(shared enterprise ontology)를 정의하는 방법이 있음. 이를 통해 기술적 수준뿐 아니라 의미적 수준에서도 데이터 통합을 보장할 수 있음. 그러나 공유 온톨로지를 구축하고 진화시키는 것은 조직적으로 매우 복잡한 작업이며, 실무에서는 확장 가능하지도 않고, 널리 채택되지도 않는 솔루션으로 귀결되는 경우가 많다는 한계가 있음. (Andrea Giogia, 2025.03)
정리하면, 개별 도메인은 중앙에서 관리되는 표준과 거버넌스 지침에 따라 데이터를 관리할 수는 있지만, 데이터 관리와 연계는 데이터가 생산되는 도메인 팀에서 주관. 데이터 메시 아키텍쳐는 분산된 환경에서 관리되는 데이터를 잘 연계시켜줄 수 있도록 하는 것에 그침.

data fabric

다양한 자료환경(온프레미스, 클라우드, 하이브리드)에 걸쳐 일관된 데이터 통합, 액세스, 거버넌스 제공하는 중앙화된 아키텍쳐
지식 그래프로 구현된 통합 레이어 (intergration layer)는 제품, 고객, 이벤트 등의 주요 엔티티의 golden record로 구성된 master data로, 관계형 DB, NoSQL 등 다양한 환경에 저장되어 있는 데이터에 대한 진입점 역할을 함.즉 지식 그래프는 전체 데이터 사일로를 아우르는 정교한 색인 데이터를 제공하는 역할을 수행함
같은 엔티티에 대해서 여러 소스에서 달리 표현되어도, 이를 수용할 수 있음. 또한, data fabric 접근법은 기존의 레거시 시스템을 크게 수정할 필요가 없다는 장점이 있음. 또한 그래프 모델 역시 유연히 적용할 수 있음.
통합 레이어는 메타데이터를 중심으로 설계되고 자동화됨.
예시 기업 : SAP data intelligence
정리해보면, 중앙집중적 플랫폼에서 전체 데이터 사일로에 존재하는 엔티티에 대한 도메인 온톨로지 + 온톨로지 기반으로 구축된 지식그래프 가지고 있고(Intergration Layer), 해당 지식그래프에 개별 데이터에 대한 접근점을 갖고 있는 모형임. 따라서 데이터에 대한 질의가 전체 사일로에 대해서 의미적으로 수행될 수 있으므로, 이용자는 개별 도메인에 대한 사전 지식, semantic gap 없이 통합된 데이터를 받아볼 수 있다는 강점이 있음
데이터를 연계시킨다는 점에서 mesh랑 비슷해 보이는데, 결정적으로 data fabric은 고객, 사건, 객체, 기관 등의 실제 도메인 엔티티에 대한 온톨로지를 기반으로 통합 레이어를 구성한다는 점에서 구분됨.
개별 데이터에 대한 수정은 data virtualization을 통해 실시간으로 수행되도록 구현함.
data virtualization : 데이터를 물리적으로 이동하지 않고 실시간 조회 + 가상 레이어 통한 통합 뷰 제공 방식
- 특징 : 실시간 query federation ==> 복잡한 ETL 없이 접근 가능
- 예시 : 실시간 대시보드 (레이턴시 최소화 환경에 적합)

참고문헌

Lempickaa

무책임한 정보 추구

이전 포스트

[neo4j]csv 데이터 property graph로 변환하기

다음 포스트

[data]Data Fabric, Data Mesh

graph

data mesh

data fabric

참고문헌

[neo4j]csv 데이터 property graph로 변환하기

[neo4j] Enriching Knowledge Graphs with Data Science

0개의 댓글