[data quality] 데이터 정합성 검증, DQ(Data Quality) 모니터링

Hyunjun Kim·2025년 7월 8일
0

Data_Engineering

목록 보기
91/153

1. 데이터 정합성(Data Consistency)이란?

1.1. 정의

동일한 데이터가 여러 위치(테이블, 시스템, DB 등)에 존재할 경우, 해당 값들이 논리적으로 일치하고 모순되지 않음을 보장하는 상태.

예를 들어, 주문 시스템과 배송 시스템 모두에서 고객의 주소가 동일하게 유지되어야 함.

예시

시스템고객명고객 등급주소
CRM 시스템김현준GOLD서울시 강남구
배송 시스템김현준GOLD서울시 강남구

정합성 있음

시스템고객명고객 등급주소
CRM 시스템김현준GOLD서울시 강남구
배송 시스템김현준SILVER서울시 강북구

정합성 없음



1.2. 데이터 정합성이 중요한 이유

이유설명
의사결정 신뢰성 확보잘못된 데이터 기반 의사결정을 방지함
시스템 간 연동 정확성서로 다른 시스템 간 데이터 동기화 필요
규제 준수금융, 의료 등 분야에서 정확한 데이터 유지가 법적 요구사항
고객 신뢰잘못된 정보 제공은 고객 불신으로 이어짐



1.3. 데이터 정합성 검증을 위한 주요 지표 3가지

지표설명
참조 무결성(Referential Integrity)외래키 관계를 유지하고 있는지 확인
예: orders.customer_idcustomers.id에 존재하는지 확인
값 일치율(Value Consistency Rate)두 시스템 간 동일한 key의 값이 얼마나 일치하는지
예: 마스터 DB와 캐시 DB의 고객 등급 비교 시 일치율 97%
데이터 중복률(Duplicate Rate)동일한 데이터가 여러 번 중복되어 존재하는 비율
예: 고객 테이블에서 주민등록번호 기준 중복된 row가 전체의 2%



1.4. 데이터 정합성 vs 데이터 정확성 vs 데이터 무결성

개념설명
정합성(Consistency)서로 다른 데이터 간 논리적 일관성
정확성(Accuracy)실제 값(현실 세계)과 데이터 값이 정확히 일치
무결성(Integrity)데이터가 정의된 규칙(제약 조건)에 맞게 구조적으로 유효함


1.5. 참고 사례

1.5.1 금융권: 운영계(OLTP) ↔ 분석계(DW) 정합성 자동 검증

금융권에서는 매일 정산 시점마다 운영계(OLTP) DB와 분석계(DW) 데이터가 일치하는지 확인하는 스크립트를 자동화함

1.5.2 Sangati – 가벼운 데이터 일관성 체크 도구

  • GitHub: alienfluid/sangati

  • PostgreSQL 기반 마스터 데이터 관리(MDM) 도구로, 외래키 검증, 레코드 수 비교, 중복/이상치 확인 등을 CLI로 수행 가능

  • 예시 기능:

    • "Does the number of records added yesterday match in the production and data warehouse databases?"
    • "Does every user row have an associated company?"
  • 금융 데이터 정산 시점의 OLTP-DW row count 또는 특정 키 기준 일치 여부 검증에 활용 가능.



1.5.3 대형 커머스: 가격/재고 ERP 동기화 모니터링

대형 커머스에서는 매 시간마다 상품 가격/재고가 ERP와 일치하는지 DQ 대시보드로 모니터링함

아카데믹: 가격 이상 탐지 논문

  • "Anomaly Detection for an E-commerce Pricing System" (Walmart 사례)

  • 온라인 가격 업데이트의 이상치(예: 오타, 급등/급락)를 배치 및 스트리밍 방식으로 탐지
    github.com
    arxiv.org

  • 실시간 모니터링 구성 + 이상 알람 기반 리뷰 프로세스.

오픈소스·API 기반 가격 추적 파이프라인

  • 여러 오픈소스 및 상용 API(예: ScrapeHero) 활용 → 경쟁사·ERP 가격/재고 추출
    scrapehero.com
  • 수집 → ETL → KPI 계산 → Grafana 또는 자체 대시보드로 시각화.

DQ·모니터링 도구 및 기술 스택

  • Prometheus + Grafana:

    • 시계열 메트릭 수집 + 알람 트리거 + 대시보드 시각화에 전형적으로 사용됨 .
  • Airbyte / Dagster:

    • ETL 파이프라인에 DQ 테스트 삽입 가능



2. Airflow DAG에서 DQ(Data Quality)모니터링하는 방법

profile
Data Analytics Engineer 가 되

0개의 댓글