Descriptive Statistics

Dayne·2024년 11월 27일

Descriptive Statistics for Exploring Data

Visualization for quantitative data

  • pie chart: easy to recognize a ratio to total
  • dot plot: better to compare a frequency of two categories
    • eg. comparing the number of cars sold in each European companies (y-axis: countries, x-axis: number of cars sold)

Visualization for qualitative data

  • bar graph: frequency를 나타냄
  • histogram: bar graph의 x-axis를 일정한 구간으로 만들어 plot

Box plot

  • 다섯가지 숫자를 표현하기 때문에 히스토그램보다는 정보가 적다. 하지만, data를 그룹화하며 각 그룹의 box plot을 한 번에 그림으로써 그룹간 비교가 쉽다. 예를 들어, 자동차의 miles per gallon을 나타내는 데이터를 number of cylinders를 기준으로 그룹을 나누고 (자동차 실린더 개수는 typical 하게 정해져있기 때문에 네 그룹? 정도로 나뉜다.) 각 그룹의 box plot을 그릴 수 있다. 이를 통해 실린더 개수가 많을수록 자동차의 miles per gallon이 줄어든다는 경향을 알 수 있다.
  • Inter quartile range (IQR): distance between the first quartile and the third quartile

Scatter plot

  • pair data를 나타내기에 가장 적합하다. 예를 들어 (income, years of education) 쌍 데이터를 나타낼 수 있다. 그러면 이 두 variable의 관계를 파악하기 쉽다.

Mean vs median

  • mean과 standard deviation은 data를 summarize 해준다.
  • mean은 extreme values (outliers)에 민감하다. data에 extreme value가 존재하거나 distribution이 skewed되어있다면 median을 사용하는 게 좋다.

Statistical analysis

  • providing context is important
  • “Small multiples” visualization technique를 활용해야한다. (우리 뇌는 이러한 방식으로 정보를 인코딩하는 데 익숙하다.)
    • eg.temperature of box plot for every month (time series)
profile
훗날 나를 위한 기록

0개의 댓글