| 항목 | 데이터 매쉬 | 데이터 패브릭 |
|---|---|---|
| 관점 | 조직/도메인, 운영 모델 중심 | 기술/플랫폼, 통합 레이어 중심 |
| 주요 목표 | 도메인 팀 자율성, 데이터 제품화, 중앙 병목 제거 | 이질적인 소스의 통합·일관된 거버넌스·단일 접근 계층 |
| 데이터 소유권 | 도메인 팀이 소유·운영(분산) | 중앙 플랫폼/데이터팀이 관리(상대적 중앙집중) |
| 기술 초점 | 도메인별 파이프라인, 데이터 제품, 셀프서비스 플랫폼 | 메타데이터, 카탈로그, 통합·오케스트레이션, 자동화 |
| 지연/워크로드 | Batch+Streaming 모두, 도메인별로 선택 (예: Netflix Data Mesh는 실시간 스트리밍 기반) | Batch/Streaming 모두 지원하지만, “한 레이어에서 접근”에 초점 |
| 확장성 | 조직이 커질수록 도메인 단위로 자연스럽게 확장 가능하나, 거버넌스 복잡도 증가 | 기술적으로 수평 확장이 용이하지만, 중앙 레이어가 병목/복잡해질 수 있음 |
| 관계 | “어떻게 조직을 나눠 데이터 제품을 운영할까?”에 답하는 모델 | “어떻게 여러 시스템을 기술적으로 연결·관리할까?”에 답하는 모델 |
데이터 처리
배치 처리
스트리밍 처리 (고정 시간 윈도우 & 슬라이딩 시간 윈도우)
비용 모델
비용 최적화
표 형식 NoSQL 데이터 저장소
SELECT
title,
price
FROM books
WHERE pirce <50.00;
열 기반 데이터베이스에서 쿼리 처리 과정
1. price 열에 가서 조건절에 맞게 필터링
2. 반환되는 행에서 title 컬럼 값들을 뽑아서 필터링 결과로 반환
3. title, price 컬럼만 처리하여 반환
non-table NoSQL
문서형 데이터베이스 : 키-값, 키-배열, 키-객체 쌍으로 구성된 유연한 반정형 형식에 데이터를 저장
snowflake -micro partition :
이점
나중에 다시 보자. 아직은 제대로 이해가 안 간다.
테이블에 저장된 데이터는 자연 차원(날짜, 지리)에 따라 정렬된다. → 쿼리 성능에 큰 영향
snowflake에서는 데이터가 테이블에 삽입되면서 클러스터링 메타데이터가 수집되고 프로세스 중에 생성된 각 마이크로 파티션에 대해 기록된다. 그 다음, 이 클러스터링 정보를 활용하여 쿼리 중 마이크로 파티션의 불필요한 스캔을 방지하고 이러한 열을 참조하는 쿼리의 성능을 크게 가속화한다.
데이터 클러스터링
query pruning : 조건에 맞는 데이터가 없을 것 같은 파티션•파일•컬럼•마이크로 파티션은 아예 읽지 않는 최적화 기법