좋은 데이터의 기준

타키탸키·2021년 8월 13일
0

데이터 사이언스

목록 보기
14/26
post-thumbnail

🙆‍♀️ 데이터 퀄리티의 중요성

  • 데이터 퀄리티의 중요성
    • 좋은 알고리즘을 사용해도 안 좋은 데이터를 분석하면 안 좋은 결과 도출
    • 잘못된 의사 결정으로 이어질 가능성
    • 예:) 이태원 식당 위치 1번 출구 vs. 4번 출구
      • 1번 출구 앞 연매출: 평균 260000
      • 4번 출구 앞 연매출: 평균 600
      • 알고보니 잘못된 정보 기입으로 단위가 다른 수 포함
  • 가공 되지 않은 실제 데이터
    • 다양한 형식
      • 가격: 쉼표 있는 값, 쉼표 없는 값
    • 코딩 과정이 복잡해진다
    • 예상치 못한 결과 or 오류 발생
  • 데이터 클리닝
    • 좋은 데이터의 기준 알기
    • 데이터 퀄리티 높이기

🙆‍♀️ 좋은 데이터의 기준: 완결성

  • 완결성(Completeness)
    • 필수적인 데이터는 모두 기록되어 있어야 한다
    • 예:) 회원 가입 - 필수 항목, 선택 항목
    • 필수 항목 중 공백이 있으면 완결성 없는 데이터셋
  • 데이터 완결성의 기준
    • 결측값 확인
      • 결측값: 채워져야 하는데 비어 있는 값
    • Pandas DataFrame의 결측값
      • NaN(Not a Number)
    • 결측값 처리를 통한 데이터 클리닝

🙆‍♀️ 좋은 데이터의 기준: 유일성

  • 유일성(Uniqueness)
    • 동일한 데이터가 불필요하게 중복되어 있으면 안된다
  • 유일성을 충족하지 않으면 발생하는 문제
    • 중복 데이터 중 하나의 데이터만 수정하면 정확성이 떨어진다
    • 예시
      • 이메일 인증하기
      • 주민등록번호 본인 확인
      • 휴대폰 번호 본인 확인

🙆‍♀️ 좋은 데이터의 기준: 통일성

  • 통일성(Conformity)
    • 데이터가 동일한 형식으로 저장되어 있어야 한다
    • 형식
      • 데이터 타입
      • 단위
      • 포맷
  • 사례
    • 출발지: 한글 / 영어
    • 금액: 단위 유무, 쉼표 유무
    • 예상 소요시간: 시간 단위
    • 그 외
      • 단위: kg, lb(파운드)
      • 날짜 표기: 2021년 8월 13일, 2021-08-13
      • 띄어쓰기 유무

🙆‍♀️ 좋은 데이터의 기준: 정확성

  • 정확성(Accuracy)
    • 데이터가 정확해야 한다
    • 주로 데이터를 모으는 과정에서 발생
      • 키 잴 때, 신발을 신는다(3cm/10cm)
      • 인간적인 실수
      • 잘못된 정보 수집
  • 데이터가 정확한지 확인하는 방법
    • 이상점(Outlier)
      • 다른 값들과 심하게 동떨어진 값
      • 올바르게 측정된 값인지 확인
* 출처: 코드잇 '데이터 사이언스 입문'
profile
There's Only One Thing To Do: Learn All We Can

0개의 댓글