Data Quality (1) - 정의와 속성

jihunnit·2025년 10월 14일
0

데이터엔지니어링

목록 보기
4/6

Data Quality란

데이터 품질


Data Quality가 중요한 이유

  • Data를 대시보드 등을 구성하고 의사결정에 사용하는데 데이터가 잘못됐다면?
  • Data Quality의 이슈로 인해 ML/DL 모델 학습에 문제가 생긴다면?

이런 이슈를 Data Quality Management를 통해 방지하고자 함


Data Quality 속성

  • 정확성 (Accuracy)

    • 데이터에서 잘못된 값, 오타, 왜곡된 정보와 같은 오류를 제거
    • 정확성을 측정하고 개선하기 위한 방법
      • 검증 절차(Validation checks)
      • 신뢰할 수 있는 출처로 교차 검증(Cross-referencing with trusted sources)
      • 정기적인 감사(Regular audits)
  • 완전성 (Completeness)

    • 데이터셋에 모든 필수 데이터가 존재하고 사용 가능한 정도
    • 모든 필요한 속성이 완전히 채워져 있어야 함
    • 필수 속성 (Required attributes)
      • 데이터셋이 완전하다고 간주되려면 반드시 값이 입력되어야 함
    • 선택 속성 (Optional attributes)
      • 필수는 아니지만 추가적인 인사이트를 제공
  • 일관성 (Consistency)

    • 데이터의 일관성. 이를 보장하기 위해 아래와 같은 방법들 활용
    • 동기화 프로세스 (Synchronization processes)
      • 한 시스템에서 이루어진 업데이트가 다른 모든 시스템에도 정확히 반영
    • 검증 규칙 (Validation rules)
      • 시스템 간 불일치(discrepancy)를 감지하고 해결할 수 있도록 지원합니다.
  • 적시성 (Timeliness)

    • 데이터가 필요한 시점에 이용 가능하고 최신 상태인지에 대한 척도
      • 적시에 데이터를 제공함으로써 가장 최신·관련성 높은 정보를 기반으로 의사결정 가능
  • 유효성 (Validity)

    • 데이터셋의 값이 정의된 규칙, 표준 및 기대치에 부합하는 정도
    • 데이터가 사전에 정해진 기준(타입, 형식,범위, 제약 조건 등)을 준수하도록 보장
  • 고유성 (Uniqueness)

    • 각 레코드가 중복되지 않고 고유함
    • 이를 보장하기 위해 다음과 같은 방법을 사용
      • 엄격한 검증 규칙 적용(Strict validation rules)
      • 중복 제거 프로세스(Deduplication processes) 활용

Data Quality 관련 도구

  • Great Expectations (가장 유명한 도구)
  • Soda (좀 더 sql 친화적?이라고 알고있음)
  • Deequ (아마존이 개발함)

다음편에서는 Great Expectaion(중에서 gx-core)의 기본 개념 및 구성 등에 대해 다루겠음

profile
인간은 노력하는 한 방황한다

0개의 댓글