Exploratory Data Analysis(EDA)

jieuni·2020년 3월 26일
0

EDA

데이터 분석의 초기 단계에서 중요, outlier를 탐지하여 data quality를 높인다던지 test assumption이 맞는지 판단하는데 도움이 된다.

  1. Numerical Summaries of Data

    • Descriptive statistics
    • Not visual
    • Summary statistics
      • mean median
        • mean : 평균값이 data의 중심을 나타내는데 항상 좋은 것은 아니다.
        • median : 데이터 분포가 치우쳐있을 때, 정규분포의 형태를 따르지만 outlier가 있을 때, 정렬하는 연산 오래 걸리고 이론적으로 분석하기 어렵다.
      • mode: the most common value
      • variance, standard deviation
      • quartiles
      • Number of distinct values for a categorical variable
  2. Graphical Summaries of Data

    • Visualization

Exploring numeric variables

  • Measuring the central tendency : 수치적인 변수를 요약할 때 가장 대표로 많이 쓰이는 것들은 중심값이다.

  • Measuring spread : 아래 위로 얼마나 퍼져 있는지

    Percentiles

  • IQR : 얼마나 벌어져 있는지

Visualizing numeric variables

  1. Boxplot : 수치형 변수의 분포를 요약해서 그리는 방법

    • x축 : categorical variable
    • y축 : real-valued or integer variable -> 분포를 보고 싶은 변수
    • 장점 : 그룹간의 분포 비교에 매우 유용
    • 단점 : 요약해서 그리기 때문에 자세하지 않다.
  2. Histogram : 수치형 변수의 분포를 자세하게 그리는 방법

    • x축 : values of the variable
    • y축 : frequency(counts for each bin)
    • 장점 : 한 변수에 대해 효과적으로 볼 수 있다. smooth하게 그릴 수 있다.
    • 단점 : sample 수가 적다면 bin이 비어있을 수도 있다.
      bin size의 효과

      -> 튜닝을 잘 하는것이 중요하다

Exploring categorical variable

범주형 변수는 table로 그리는 경우가 많다.

  • Measuring the central tendency

Exploring relationships betwenn variables

  • Scatter plots, two-way cross-tabulation(contingency table)

0개의 댓글