ep5. 데이터 정제 10계명

서대철·2023년 8월 28일
0

1. 오탈자를 찾아라.
가장 단순하지만 가장 골치 아픈 문제가 될 수 있다.

2. 오류와 수정 내용을 문서화하라.

3. 필드값을 확인하라.
스트링 데이터에 연산하려다 오류나면 짜증난다.

4. 결측값을 무시하지 마라.
결측값의 비율이 어떻게 되는가? 결측이 체계적인가/결측의 패턴이 있는가(비무작위 결측)?

5. 데이터의 전부를 보라.
문제값은 어디서 어떻게 튀어나올지 모른다.

6. 비즈니스 목표를 기억하라.
우선순위가 낮은 작업에 너무 많은 시간을 쏟지 마라.

7. 오류의 원천을 찾아라.
어디서 문제가 발생하는가?

8. 시스템을 파악하라.
왜 문제가 발생하는가?

9. 작업 전 백업하라.

10. 클리닝에 소요되는 시간을 무시하지 마라.

0개의 댓글