- EDA(=탐색적 데이터 분석)란 수집한 데이터를 분석하기 전에 데이터 특성을 관찰하고 이해하는 단계이다.
수집한 데이터에 대해 잘 모르는 상태에서 무작정 분석을 할 수는 없다. 본격적인 분석 전에 데이터를 파악하는 시간이 필요하고, 이 과정에는 시각화 같은 도구를 통해 패턴을 발견하거나 데이트의 특이성을 확인하는 등이 포함된다.
EDA의 방법은 여러 가지가 있으며, 다양한 EDA를 진행하면서 나만의 방식을 연구해보면 좋겠다.
❗EDA와 preprocessing의 차이?
: EDA는 알고리즘을 돌리기 전에 비용을 줄이기 위해 체크하는 과정
: 전처리는 수집 데이터를 사용 전에 정제하고 가공하여 변환하는 과정
⚫ preprocessing 에는 cleaning, integration, transformation, reduction 과정이 있다.
▪️ cleaning : noise 제거, inconsistency 보정하는 과정 (결측치, Binning, Regression 등)
▪️ Integration : 데이터들을 분석하기 편하게 하나로 합치는 과정 (concat, merge 등)
▪️ Transformation : 데이터의 형태를 변환하는 작업. 즉, scaling (normalize 등)
▪️ Reduction : 데이터를 의미있게 줄이는 것 (PCA 등)
어떤 방식으로 EDA를 할 것인지는 2가지로 결정할 수 있다.
1. EDA의 타켓(데이터)가 일변량인지 다변량인지.
2. 시각화를 할 것인지, 비시각화를 할 것인지.
! 참고로 일변량과 다변량은 EDA를 통해 파악하려는 변수가 하나인지 여러개인지로 나뉜다.
일변량은 데이터를 설명하고 그 안에서 패턴을 찾는 것이 목적이라면
다변량은 여러 변수들간에 관계를 파악하는 것이 목적이다.
Uni-variate Non Graphic
Uni-variate Graphic
Multi-variate Graphic
Multi-variate Non Graphic