EDA (Exploratory Data Analysis)

박민예·2022년 1월 10일
0

탐색적 데이터 분석(EDA: Exploratory Data Analysis)

1. 정의

데이터를 다양한 각도에서 관찰하고, 이해하는 모든 과정으로, 데이터 분석에 있어서 매우 중요한 초기 분석 단계이다. 다음과 같은 방법들을 통해 지료를 직관적으로 바라본다.

  • 시각화와 같은 도구를 통해서 패턴 발견
  • 데이터의 특이성 확인
  • 통계와 그래픽(혹은 시각적 표현)을 통해서 가설을 검정하는 과정
  • 데이터 분석을 통해 인사이트 도출

2. 필요한 이유

1) 데이터의 분포(Distribution)와 값(Value)을 다양한 관점에서 바라봄으로써 데이터가 가지고 있는 현상을 이해하고, 데이터의 잠재적인 문제를 발견할 수 있다. 이를 통해, 본격적인 분석에 들어가기에 앞서 데이터의 수집을 결정할 수 있다.

2) 데이터를 다양한 각도에서 살펴보는 과정을 통해 문제정의 단계에서 발견하지 못했던 다양한 패턴을 발견하고, 이를 바탕으로 기존의 가설을 수정하거나 새로운 가설을 설정할 수 있다.

3) 탐색적 데이터 분석의 최종적 목표는 데이터를 이해하는 것이다. 데이터 이해를 통해 적절한 통계 도구를 제시하고 추가 자료수집을 위한 기반이 되기도 한다.

3. 과정

탐색적 데이터 분석은 한번에 완벽한 결론에 도달하는 것이 아니라, 아래와 같은 방법을 반복하여 데이터를 이해하고 탐구하는 과정이다.

(1) 데이터에 대한 질문 & 문제 만들기
(2) 데이터를 시각화하고, 변환하고, 모델링하여 그 질문 & 문제에 대한 답을 찾아보기
(3) 찾는 과정에서 배운것을 토대로 다시 질문을 다듬고 또 다른 질문 & 문제 만들기

이러한 과정을 기반으로 데이터에서 흥미있는 패턴이 발견될 때까지, 더 찾는 것이 불가능하다고 판단될 때까지 도표, 그래프 등의 시각화, 요약 통계를 이용하여 전체적인 데이터를 살펴보고 개별 속성의 값을 관찰한다. 데이터에서 발견되는 이상치를 찾아내 전체 데이터 패턴에 끼치는 영향을 관찰하고, 속성 간의 관계에서 패턴을 발견한다.

1) 전체적인 데이터 분석

  • 분석의 목적과 변수가 무엇이 있는지 확인
  • 데이터 항목의 개수, 속성 목록, NAN 값, 각 속성이 가지는 데이터형 등을 확인
  • 데이터 가공 과정에서 데이터의 오류나 누락이 없는지 데이터의 head와 tail을 확인
  • 데이터를 구성하는 각 속성값이 예측한 범위와 분포를 갖는지 확인. 만약 그렇지 않다면, 이유가 무엇인지 확인

2) 이상치(Outlier) 분석

  • 개별 데이터를 관찰하여 전체적인 추세와 특이사항을 관찰(데이터가 많다고 특정 부분만 보게 되면 이상치가 다른 부분에서 나타날 수도 있으므로 앞, 뒤, 무작위로 표본을 추출해서 관찰)
  • 적절한 요약 통계 지표를 사용
    • 데이터의 중심을 알기 위해서는 평균, 중앙값, 최빈값을 사용
    • 데이터의 분산도를 알기 위해서는 범위, 분산 등을 이용
  • 시각화를 통해 데이터의 개별 속성에 어떤 통게 지표가 적절한지 결정
  • 이외에도 기계학습의 K-means 기법, Static based detection, Deviation based method, Distance based Detection 기법을 이용하여 이상치를 발견할 수 있다

3) 속성간의 관계 분석
속성간의 관계에 초점을 맞추어, 개별 속성 관찰에서 찾아내지 못했던 속성들의 조합, 패턴 발견

  • 상관계수를 통한 상관관계 확인
  • 그래프를 통해 시각화하여 속성간의 관계 분석(히트맵, 산점도, Box plot, 파이차트 등)

4. EDA 방법 / 대상

1) EDA 방법

  • Graphic : 차트 혹은 그림 등을 이용하여 데이터를 확인하는 방법
  • Non-Graphic : 그래픽적인 요소를 사용하지 않는 방법으로, 주로 Summary Statistics를 통해 데이터를 확인하는 방법

2) EDA 대상(타겟)

  • Univariate(일변량) : 변수가 1개, 데이터를 설명하고 그 안에 존재하는 패턴을 찾는것이 주요 목적
  • Multi-variate(다변량) : 변수가 여러개, 여러 변수들간의 관계를 보는 것이 주요 목적

5. EDA 유형

1) Uni-Non Graphic(일변량 비시각화)
주어진 데이터의 Distribution을 확인하는 것이 주목적

  • Numeric data의 경우: summary statistics를 제일 많이 활용하는데 이에는, Center (Mean, Median, Mode), Spread (Variance, SD, IQR, Range), Modality (Peak), Shape (Tail, Skewness, Kurtosis), Outliers 등을 확인한다.
  • Categorical data의 경우: occurence, frequency, tabulation등을 할 수 있다.

2) Uni-Graphic(일변량 시각화)
주어진 데이터를 전체적으로 살펴보는 것이 주목적

  • Histogram 혹은 Pie chart, Stem-leaf plot, Boxplot, QQplot 등을 사용

3) Multi-Non Graphic(다변량 비시각화)
주어진 둘 이상의 변수간 관계를 확인하는 것이 주목적

  • Cross-Tabulation, Cross-Statistics (Correlation, Covariance)등을 사용

4) Multi-Graphic(다변량 시각화)
주어진 둘 이상의 변수간 관계를 전체적으로 살펴보는 것이 주목적

  • Category & Numeric : Boxplots, Stacked bar, Parallel Coordinate, Heatmap
  • Numeric & Numeric : Scatter Plot
profile
🔥오늘도 노력하고 있지요😁

0개의 댓글