탐색적 데이터 분석EDA(Exploratory Data Analysis)

Seung Joo·2021년 5월 6일
0

🤔EDA란 데이터 분석의 초기단계

  • 시각화 도구로 패턴을 발견
  • 데이터 특이성 확인
  • 통계와 그래픽(시각적 표현)을 통해서 가설을 검정

❗️EDA의 방법

  • Graphic : 차트 또는 그림 등을 이용하여 데이터를 확인하는 방법
  • Non-Graphic : 그래픽적인 요소를 사용하지 않고, 주로 Summary Statistics를 통해 데이터를 확인하는 방법

EDA의 타겟(data) 또한 2가지 (Univariate, Multi-variate)로 나눠짐

  • multi-variate 의 경우 변수의 상관관계를 보는 것이 주요 목적

📄Uni - Non Graphic

sample Data의 Distibution을 확인하는 것이 주 목적

Numeric data 의 경우

  • summary statistics
  • Center (Mean, Median, Mod)
  • Spread (Variance, SD, IQR, Range)
  • Modality (Peak)
  • Shape (Tail, Skewness, Kurtosis)
  • Outliers

Categorical data의 경우 occurence, Frequency, tabulation등을 활용할 수 있다.

📊Uni – Graphic

Histogram 혹은 Pie chart, Stem-leaf plot, Boxplot, QQplot 등을 사용한다.
만약 값이 너무 다양하다면, Binning, Tabulation등을 활용 할 수도 있다.

🔨Data Preprocessing

  • Cleaning
    noise 제거, inconsistency를 보정하는 과정
    오류를 다듬는 과정이라고 보면 됨

  • Missing Values
    Ignore the tuple (결측치가 있는 데이터 삭제)
    Manual Fill (수동으로 입력)
    Global Constant (“Unknown”)
    Imputation (All mean, Class mean, Inference mean, Regrssion 등)

  • Noisy data
    큰 방향성에서 벗어난 random error, variance를 포함하는 데이터

  • Intergration
    여러개로 나누어져 있는 데이터들을 분석하기 편하게 하나로 합치는 과정

  • Transformation
    데이터의 형태를 변환하는 작업, Scaling이라고 부르기도 함

  • Reduction
    데이터를 의미있게 줄이는 것

profile
조금씩 천천히

0개의 댓글