본론에 들어가기 앞서 EDA는 명확하게 "어떠한 방법"이라고 정의하기 어려운 과정이다.
이유인 즉슨
1) 탐색 이라는 단어가 갖는 의미가 광범위하기 때문
2) 방법 이 한가지로 규정되어 있지 않기 때문
이다.
장님이 코끼리를 만진다고 가정해보자.
이미지 출처 : https://t1.daumcdn.net/cfile/blog/121399414FFD16CF28?original
부분적으로 판단한다면 부위별로 우스운 답변이 도출될 것이나, 모든 부위를 만져본다면 코끼리 라는 결론에 다다를 수 있을 것이다.
즉, 데이터를 통해 Insight(통찰)에 다다르기 위해선 다각도, 다방면에서 탐색적 데이터 분석을 통한 이해가 필요하다.
"그래도 대표적으로 시행해야하는 절차가 있지 않을까요?"
라고 묻는다면, 기본적으로 아래의 과정을 소개해 주고 싶다.
- 1) 결측치(Missing Value) 가 있는지 확인 하는 것
- 2) 이상치(Outlier) 가 있는지 확인하는 것
- 3) 데이터 타입(dtypes)을 확인하는 것
- 4) 행과 열의 수를 확인하는 것 (shape)
- 5) 기존 데이터를 통해 새로운 데이터를 생성 하는 것
- 6) 결측치를 채우는 것 (fillna)
이 외에도 데이터에 대해 파악할 수 있는 모든 행위가 포함된다.
이미지 출처 : https://www.forbes.com/sites/gilpress/2016/03/23/data-preparation-most-time-consuming-least-enjoyable-data-science-task-survey-says/?sh=26a5b3b46f63
위 지표를 보면 60%(연두색)를 전처리를 포함한 EDA가 차지하고 있으며, 여담으로 데이터 분석가, 과학자들이 가장 고통스러워 하는 단계이다.
수학문제집을 푸는것은 재밌지만, 개념을 배우는 고통스러운 수업이 선행되어야 하는 느낌과 비슷하다고 볼 수 있지 않을까?
"나는 분석스킬을 가지고 있는데, 분석은 커녕 대부분의 시간을 확인작업에 쓰고있네..."라는 자괴감
고통스러울지언정, 양질의 분석결과를 얻기 위해 감내하자.
데이터의 상태를 확인하고, 적절한 전처리를 해주며 어떻게 분석을 진행할지 설계하는 과정으로 받아들이자.
그래야 깨끗한 데이터를 통해 정확한 결과를 얻을 수 있을테니 말이다.
(Garbage in, Garbage out 방지)