탐색적 데이터 분석으로 불리며, 데이터 초기 분석 단계로 데이터를 수집했을 때 이를 다양한 각도에서 관찰하고 이해하는 과정이다.
EDA의 방법은 크게 2가지 (Graphic, Non-Graphic) 으로 나눠질 수 있다.
1) Graphic : 차트 혹은 그림 등을 이용하여 데이터를 확인하는 방법이다.
2) Non-Graphic : 그래픽적인 요소를 사용하지 않는 방법으로 주로 Summary Statistics를 통해 데이터를 확인한다.
noise를 제거하거나 inconsistency를 보정하는 과정을 의미한다.
#isnull #dropna
여러개로 나누어져 있는 데이터들을 분석하기 편하게 하나로 합치는 과정을 의미한다.
#merge #concat
데이터의 형태를 변환하는 작업으로, scaling이라고 부르기도 한다.
#normalize
데이터를 의미있게 줄이는 것을 의미하며, dimension reduction과 유사한 목적을 갖는다.
#pca
데이터에 대한 도메인 지식을 활용하여 데이터셋에 존재하는 Feature들을 재조합하여 새로운 Feature를 만들어 내는 과정이다.
좋은 데이터셋은 사용자가 이해하기 쉽고, 데이터 분석에 즉시 활용 가능한 데이터라고 생각한다.
먼저 사용자가 이해하기 쉬우려면 raw 데이터에 대한 상세 설명, 유형 등 속성정보를 포함한 필수 메타데이터가 정리되어 있어야 한다.
공공데이터 포털 사이트나 캐글 사이트에 있는 데이터셋이 잘 정리되어 있다고 느껴졌다.
다음으로 데이터 분석에 즉시 활용 가능하려면 데이터 전처리를 통해 중복된 데이터나 비어있는 값이 없고, 단위가 통일되어 있는지 등 점검하여 다루기 쉬운 형태로 변환시켜야 한다.
이를 갖춘다면 데이터로부터 목적에 맞게 필요한 인사이트를 얻을 수 있을 것이다.