타키탸키
로그인
타키탸키
로그인
좋은 데이터의 기준
타키탸키
·
2021년 8월 13일
팔로우
0
데이터
데이터 사이언스
0
데이터 사이언스
목록 보기
14/26
🙆♀️ 데이터 퀄리티의 중요성
데이터 퀄리티의 중요성
좋은 알고리즘을 사용해도 안 좋은 데이터를 분석하면 안 좋은 결과 도출
잘못된 의사 결정으로 이어질 가능성
예:) 이태원 식당 위치 1번 출구 vs. 4번 출구
1번 출구 앞 연매출: 평균 260000
4번 출구 앞 연매출: 평균 600
알고보니 잘못된 정보 기입으로 단위가 다른 수 포함
가공 되지 않은 실제 데이터
다양한 형식
가격: 쉼표 있는 값, 쉼표 없는 값
코딩 과정이 복잡해진다
예상치 못한 결과 or 오류 발생
데이터 클리닝
좋은 데이터의 기준 알기
데이터 퀄리티 높이기
🙆♀️ 좋은 데이터의 기준: 완결성
완결성(Completeness)
필수적인 데이터는 모두 기록되어 있어야 한다
예:) 회원 가입 - 필수 항목, 선택 항목
필수 항목 중 공백이 있으면 완결성 없는 데이터셋
데이터 완결성의 기준
결측값 확인
결측값: 채워져야 하는데 비어 있는 값
Pandas DataFrame의 결측값
NaN(Not a Number)
결측값 처리를 통한 데이터 클리닝
🙆♀️ 좋은 데이터의 기준: 유일성
유일성(Uniqueness)
동일한 데이터가 불필요하게 중복되어 있으면 안된다
유일성을 충족하지 않으면 발생하는 문제
중복 데이터 중 하나의 데이터만 수정하면 정확성이 떨어진다
예시
이메일 인증하기
주민등록번호 본인 확인
휴대폰 번호 본인 확인
🙆♀️ 좋은 데이터의 기준: 통일성
통일성(Conformity)
데이터가 동일한 형식으로 저장되어 있어야 한다
형식
데이터 타입
단위
포맷
사례
출발지: 한글 / 영어
금액: 단위 유무, 쉼표 유무
예상 소요시간: 시간 단위
그 외
단위: kg, lb(파운드)
날짜 표기: 2021년 8월 13일, 2021-08-13
띄어쓰기 유무
🙆♀️ 좋은 데이터의 기준: 정확성
정확성(Accuracy)
데이터가 정확해야 한다
주로 데이터를 모으는 과정에서 발생
키 잴 때, 신발을 신는다(3cm/10cm)
인간적인 실수
잘못된 정보 수집
데이터가 정확한지 확인하는 방법
이상점(Outlier)
다른 값들과 심하게 동떨어진 값
올바르게 측정된 값인지 확인
* 출처: 코드잇 '데이터 사이언스 입문'
타키탸키
There's Only One Thing To Do: Learn All We Can
팔로우
이전 포스트
새로운 인사이트 발견하기
다음 포스트
데이터 클리닝
0개의 댓글
댓글 작성