[Data Cleaning] 좋은 데이터의 기준

박경민·2023년 1월 21일
0

[DataScience]

목록 보기
15/16
post-thumbnail

01 데이터 퀄리티의 중요성

  • 좋은 알고리즘 + 나쁜 데이터 > 나쁜 결과

  • 데이터의 깔끔한 정도도 코딩의 질을 결정하기도 한다.

  • 좋은 데이터의 기준?

  • 데이터 클리닝 과정도 알아야 함


02 좋은 데이터의 기준: 완결성

완결성 : 필수적인 데이터는 모두 기록되어 있어야 함.
필수항목 + 선택항목에서 필수 항목이 빠지지 말아야 한다는 것.

결측값 : 채워져야 하는데 비어있는 값.
결국 결측값이 없어야 완결성 을 지닌다고 할 수 있음.


03 좋은 데이터의 기준: 유일성

유일성 : 동일한 데이터가 불필요하게 중복되어 있으면 안됨


04 좋은 데이터의 기준: 통일성

통일성: 데이터가 동일한 형식으로 저장되어 있어야 함. (uniformity)

통일성 예시

  • 한글과 영어
  • 금액의 원이 붙느냐 안붙느냐, 쉼표의 여부
  • 시간표기 시 분이냐 시간이냐
    등등..

05 좋은 데이터의 기준: 정확성

정확성: 데이터가 정확해야 함. Accuracy

정확성 예시

  • 키를 측정하는데 한 그룹은 굽이 있고, 한 그룹은 굽이 없는 경우
  • 데이터 수집 시 수집 사이드에서 실수
  • 이상점이 있으면 올바르게 측정된 값인지 확인이 필요
profile
Mathematics, Algorithm, and IDEA for AI research🦖

0개의 댓글