
사진 출처 : Two ways: Data Mesh vs. Data Fabric
데이터를 중앙화 하지 않고, 도메인별 팀이 자율적으로 데이터 제품을 운영하는 분산형 데이터 아키텍쳐. 4개의 핵심 원칙이 있음 :
1) Domain ownership : 각 도메인별 팀이 데이터를 가장 잘 이해하기 때문에 데이터에 대한 통제 권한을 가짐
2) Data as a product : 데이터를 소프트웨어 제품과 동일하게 관리하고 전략적으로 계획합니다.
3) Self-serve data platform :데이터메시는 데이터를 분산된 형태로 유지하며, 표준화된 도구를 이용해 각 도메인에서 필요로 하는 데이터는 도메인 내에서 관리하고 저장함.
4) Federated governance : 각 도메인이 자율적으로 데이터를 관리하고, 필요 시 다른 도메인과 협력할 수 있음. 도메인 팀이 데이터 수명, 주기, 액세스 권한과 정책을 결정함
데이터를 독립적인 도메인으로 다루는 것이 핵심.
데이터 메시 아키텍처는 서로 다른 데이터 소스를 효과적으로 통합하고, 중앙에서 관리되는 데이터 공유 및 거버넌스 지침을 통해 연결함.
데이터를 관리하는 각 업무 부서에서는 공유 데이터에 액세스하는 방법, 액세스하는 사람 및 액세스하는 형식을 제어할 수 있음. 이 때문에 아키텍쳐의 복잡성이 증가한다는 단점이 있음
또한, 데이터 제품이 사용되는 것이 아니라 여러 번 재사용되고 도메인 간에 조합되어야 하는 것이 이상적이나, 서로 다른 의미적 사일로(semantic silos)에 의해 분리된 데이터 제품들을 가로지르는 “의미 차이 (semantic gap)”가 존재
이에 대한 해결책으로 모든 데이터 제품이 참조할 수 있는 공유된 기업 수준의 온톨로지(shared enterprise ontology)를 정의하는 방법이 있음. 이를 통해 기술적 수준뿐 아니라 의미적 수준에서도 데이터 통합을 보장할 수 있음. 그러나 공유 온톨로지를 구축하고 진화시키는 것은 조직적으로 매우 복잡한 작업이며, 실무에서는 확장 가능하지도 않고, 널리 채택되지도 않는 솔루션으로 귀결되는 경우가 많다는 한계가 있음. (Andrea Giogia, 2025.03)
정리하면, 개별 도메인은 중앙에서 관리되는 표준과 거버넌스 지침에 따라 데이터를 관리할 수는 있지만, 데이터 관리와 연계는 데이터가 생산되는 도메인 팀에서 주관. 데이터 메시 아키텍쳐는 분산된 환경에서 관리되는 데이터를 잘 연계시켜줄 수 있도록 하는 것에 그침.
data virtualization : 데이터를 물리적으로 이동하지 않고 실시간 조회 + 가상 레이어 통한 통합 뷰 제공 방식
- 특징 : 실시간 query federation ==> 복잡한 ETL 없이 접근 가능
- 예시 : 실시간 대시보드 (레이턴시 최소화 환경에 적합)