EDA (Exploratory Data Analysis) 개념 및 종류

yuns_u·2021년 7월 11일
5
post-custom-banner

EDA의 정의

EDA(Exploratory Data Analysis)란, 탐색적 데이터 분석을 의미한다.
데이터 분석에 있어서 매우 중요한, 초기 분석의 단계이자 해야하는 일이다.
데이터에 대한 일종의 견적을 내는 일이라고 비유할 수 있겠다.
주어진 데이터의 특성을 알아야 내가 이 데이터로 해결하고자 하는 문제를 해결할 수 있는 방법을 찾아볼 수 있기 때문이다.

간략하게 설명하자면

EDA란
주어진 데이터(들)에서

  • 시각화 같은 도구를 통해서 패턴을 발견하거나
  • 데이터의 특이성을 확인하거나
  • 통계와 그래픽 (혹은 시각적 표현)을 통해서 가설을 검정하는 과정 등
    을 하여 주어진 데이터에 대해 알아보는 것을 EDA라고 한다.

EDA의 목적

Goals of EDA
1. approach to understanding data using visualization and statiscal tools
2. access and validate assumptions. In which future inferences will be based.
3. understand data before performing and intelligent hypothesis

  1. 시각화 및 통계 도구를 사용하여 데이터를 이해할 수 있다.
  2. 도출하고자 하는 결과의 기본이 되는 가정에 접근하고 가정을 검증할 수 있다.
  3. 가설을 세우기 전에 데이터를 이해합니다.

궁극적인 목적
develop intuition of our dataset and how it came into existence

By examine our data, we can ;

  • generate better hypothesis.
  • determine which variables have the most predictive power.
  • select appropriate statistic tools to build our predictive models.

EDA의 대상

EDA의 "타겟"이라고 할 수 있는 데이터는 2가지로 분류할 수 있다.

⭐️ Univariate(일변량)

EDA를 통해 한 번에 파악하려는 변수가 1개.
데이터를 설명하고 그 안에 존재하는 패턴을 찾는 것이 주요 목적.

⭐️ Multi-variate(다변량)

EDA를 통해 한 번에 파악하려는 변수가 여러 개.
여러 변수들간의 관계를 보는 것이 주요 목적.

여러 변수를 동시에 확인하기 전에 개별 데이터를 먼저 파악하는 것이 오류에 대처하기 용이해보인다.

EDA의 종류

EDA의 방법은 크게 2가지로 분류할 수 있다.

⭐️ Graphic(시각화)

차트 혹은 그림 등을 이용하여 데이터를 확인하는 방법

⭐️ Non-Graphic(비시각화)

그래픽적인 요소를 사용하지 않는 방법으로, 주로 Summary Statistics를 통해 데이터를 확인하는 방법

데이터를 그래프로 표현하게 되면 한눈에 데이터를 파악할 수 있으므로 graphic한 EDA를 통해 대략적인 형태를 파악할 수 있다. 반면에 정확한 값이 필요하다면 non-graphic한 EDA를 통해 파악할 수 있을 것이다.

EDA의 유형

위에서 설명한 대상과 종류에 따라 4개로 나눌 수 있다.
각 유형을 아래처럼 정리해보았다.

Uni-Non Graphic(일변량 비시각화) :
주어진 데이터의 Distribution을 확인하는 것이 주목적.
Uni-Graphic(일변량 시각화) :
주어진 데이터를 전체적으로 살펴보는 것이 주목적.
Multi-Non Graphic(다변량 비시각화) :
주어진 둘 이상의 변수간 관계를 확인하는 것이 주목적.
Multi-Graphic(다변량 시각화) :
주어진 둘 이상의 변수간 관계를 전체적으로 살펴보는 것이 주목적.

⭐️ Uni - Non Graphic

주어진 데이터의 Distribution을 확인하는 것이 주목적인 EDA 유형.

Numeric data의 경우 summary statistics를 제일 많이 활용한다.
summary statistics는 요약된 통계자료 같다.

  • Center (Mean, Median, Mod)
  • Spread (Variance, SD, IQR, Range)
  • Modality (Peak)
  • Shape (Tail, Skewness, Kurtosis)
  • Outliers
    등을 확인할 수 있다.

Categorical data의 경우 occurence, frequency, tabulation등을 할 수 있습니다.

⭐️ Uni - Graphic

주어진 데이터를 전체적으로 살펴보는 것이 주목적인 EDA 유형.

Histogram 혹은 Pie chart, Stem-leaf plot, Boxplot, QQplot 등을 사용할 수 있다.

그러나 만약 값들이 너무 다양하다면, Binning, Tabulation등을 활용 할 수도 있다.

❓QQplot?
데이터의 분포와 이론상 분포가 잘 일치하는가를 확인 할 수 있는 방법.

❓Binning?
❓Tabulation?

⭐️ Multi - Non Graphic

주어진 둘 이상의 변수간 관계(Relationship)를 확인하는 것이 주목적인 EDA 유형.

Cross-Tabulation
Cross-Statistics (Correlation, Covariance)
등을 사용한다.

Categorical data는 행과 열을 바꾸는 Cross-Tabulation을 적용 할 수 있다.

한편 Numerical Feature들의 경우 Cross Statistics를 통해 EDA를 할 수도 있다.
(원래는 색상이 없는 table이지만, 색상을 넣어 heat map처럼 적용도 가능하다고 한다.)

⭐️ Multi - Graphic

Category dataNumeric data로 Multi-Graphic으로 EDA하면 Boxplots, Stacked bar, Parallel Coordinate, Heatmap 등으로 나타낼 수 있다.

Numeric dataNumeric data로 Multi-Graphic으로 EDA하면 Scatter Plot 등으로 나타낼 수 있다.

profile
💛 공부 블로그 💛
post-custom-banner

0개의 댓글