Data Quality (1) - 정의와 속성

jihunnit·2025년 10월 14일

data engineering data quality

데이터엔지니어링

목록 보기

4/6

Data Quality란

데이터 품질

Data Quality가 중요한 이유

Data를 대시보드 등을 구성하고 의사결정에 사용하는데 데이터가 잘못됐다면?
Data Quality의 이슈로 인해 ML/DL 모델 학습에 문제가 생긴다면?

이런 이슈를 Data Quality Management를 통해 방지하고자 함

Data Quality 속성

정확성 (Accuracy)
- 데이터에서 잘못된 값, 오타, 왜곡된 정보와 같은 오류를 제거
- 정확성을 측정하고 개선하기 위한 방법
  - 검증 절차(Validation checks)
  - 신뢰할 수 있는 출처로 교차 검증(Cross-referencing with trusted sources)
  - 정기적인 감사(Regular audits)
완전성 (Completeness)
- 데이터셋에 모든 필수 데이터가 존재하고 사용 가능한 정도
- 모든 필요한 속성이 완전히 채워져 있어야 함
- 필수 속성 (Required attributes)
  - 데이터셋이 완전하다고 간주되려면 반드시 값이 입력되어야 함
- 선택 속성 (Optional attributes)
  - 필수는 아니지만 추가적인 인사이트를 제공
일관성 (Consistency)
- 데이터의 일관성. 이를 보장하기 위해 아래와 같은 방법들 활용
- 동기화 프로세스 (Synchronization processes)
  - 한 시스템에서 이루어진 업데이트가 다른 모든 시스템에도 정확히 반영
- 검증 규칙 (Validation rules)
  - 시스템 간 불일치(discrepancy)를 감지하고 해결할 수 있도록 지원합니다.
적시성 (Timeliness)
- 데이터가 필요한 시점에 이용 가능하고 최신 상태인지에 대한 척도
  - 적시에 데이터를 제공함으로써 가장 최신·관련성 높은 정보를 기반으로 의사결정 가능
유효성 (Validity)
- 데이터셋의 값이 정의된 규칙, 표준 및 기대치에 부합하는 정도
- 데이터가 사전에 정해진 기준(타입, 형식,범위, 제약 조건 등)을 준수하도록 보장
고유성 (Uniqueness)
- 각 레코드가 중복되지 않고 고유함
- 이를 보장하기 위해 다음과 같은 방법을 사용
  - 엄격한 검증 규칙 적용(Strict validation rules)
  - 중복 제거 프로세스(Deduplication processes) 활용

Data Quality 관련 도구

Great Expectations (가장 유명한 도구)
Soda (좀 더 sql 친화적?이라고 알고있음)
Deequ (아마존이 개발함)

다음편에서는 Great Expectaion(중에서 gx-core)의 기본 개념 및 구성 등에 대해 다루겠음

jihunnit

인간은 노력하는 한 방황한다

이전 포스트

Apache Spark study(3)

다음 포스트

Data Quality (1) - 정의와 속성

데이터엔지니어링

Data Quality란

Data Quality가 중요한 이유

Data Quality 속성

Data Quality 관련 도구

Apache Spark study(3)

Data Quality (2) - Great Expectations 개요

0개의 댓글