TIL_15 : Enhance quality of Data

JaHyeon Gu·2021년 7월 12일
0

Data Science

목록 보기
15/16
post-thumbnail

🙄 데이터 퀄리티의 중요성


아무리 좋은 알고리즘을 쓰더라도 데이터의 퀄리티가 나쁘면 안좋은 결과로 이어진다.
대부분 주어지는 데이터의 경우 완벽하지 않다.
좋은 결과를 위해 좋은 데이터가 무엇인지를 알아야하고 맘에 안드는 데이터들의 퀄리티를 높이는 방법을 알아야한다.



🙄 좋은 데이터의 기준


  1. 완결성 (Completeness)
    필수적인 데이터는 모두 기록되어 있어야 함
    데이터 완결성은 어떻게 알 수 있을까?
    결측값(채워져야 하는데 비어 있는 값) 이 있는지 확인한다!
    DataFrame에 결측값은 NaN(Not a Number)로 표기됨!
  1. 유일성 (Uniqueness)
    동일한 데이터가 불필요하게 중복되어 있으면 안 됨
    ex) 이메일 인증하기, 주민등록번호 본인 확인, 휴대폰 번호 본인 확인
  1. 통일성 (Conformity)
    데이터가 동일한 형식으로 저장돼 있어야 함
    형식은 데이터 타입, 단위, 포맷 등 다양한 것을 의미
  1. 정확성 (Accuracy)
    데이터가 정확해야 함
    주로 데이터를 모으는 과정에서 문제 발생
    데이터가 정확한지 파악하는 것은 매우 어려움.
    이상점 (Outlier)으로 힌트를 얻을 수 있음.
profile
IWBAGDS

0개의 댓글