Data Quality란
데이터 품질
Data Quality가 중요한 이유
- Data를 대시보드 등을 구성하고 의사결정에 사용하는데 데이터가 잘못됐다면?
- Data Quality의 이슈로 인해 ML/DL 모델 학습에 문제가 생긴다면?
이런 이슈를 Data Quality Management를 통해 방지하고자 함
Data Quality 속성
-
정확성 (Accuracy)
- 데이터에서 잘못된 값, 오타, 왜곡된 정보와 같은 오류를 제거
- 정확성을 측정하고 개선하기 위한 방법
- 검증 절차(Validation checks)
- 신뢰할 수 있는 출처로 교차 검증(Cross-referencing with trusted sources)
- 정기적인 감사(Regular audits)
-
완전성 (Completeness)
- 데이터셋에 모든 필수 데이터가 존재하고 사용 가능한 정도
- 모든 필요한 속성이 완전히 채워져 있어야 함
- 필수 속성 (Required attributes)
- 데이터셋이 완전하다고 간주되려면 반드시 값이 입력되어야 함
- 선택 속성 (Optional attributes)
-
일관성 (Consistency)
- 데이터의 일관성. 이를 보장하기 위해 아래와 같은 방법들 활용
- 동기화 프로세스 (Synchronization processes)
- 한 시스템에서 이루어진 업데이트가 다른 모든 시스템에도 정확히 반영
- 검증 규칙 (Validation rules)
- 시스템 간 불일치(discrepancy)를 감지하고 해결할 수 있도록 지원합니다.
-
적시성 (Timeliness)
- 데이터가 필요한 시점에 이용 가능하고 최신 상태인지에 대한 척도
- 적시에 데이터를 제공함으로써 가장 최신·관련성 높은 정보를 기반으로 의사결정 가능
-
유효성 (Validity)
- 데이터셋의 값이 정의된 규칙, 표준 및 기대치에 부합하는 정도
- 데이터가 사전에 정해진 기준(타입, 형식,범위, 제약 조건 등)을 준수하도록 보장
-
고유성 (Uniqueness)
- 각 레코드가 중복되지 않고 고유함
- 이를 보장하기 위해 다음과 같은 방법을 사용
- 엄격한 검증 규칙 적용(Strict validation rules)
- 중복 제거 프로세스(Deduplication processes) 활용
Data Quality 관련 도구
- Great Expectations (가장 유명한 도구)
- Soda (좀 더 sql 친화적?이라고 알고있음)
- Deequ (아마존이 개발함)
다음편에서는 Great Expectaion(중에서 gx-core)의 기본 개념 및 구성 등에 대해 다루겠음