Descriptive Statistics for Exploring Data
Visualization for quantitative data
- pie chart: easy to recognize a ratio to total
- dot plot: better to compare a frequency of two categories
- eg. comparing the number of cars sold in each European companies (y-axis: countries, x-axis: number of cars sold)
Visualization for qualitative data
- bar graph: frequency를 나타냄
- histogram: bar graph의 x-axis를 일정한 구간으로 만들어 plot
Box plot
- 다섯가지 숫자를 표현하기 때문에 히스토그램보다는 정보가 적다. 하지만, data를 그룹화하며 각 그룹의 box plot을 한 번에 그림으로써 그룹간 비교가 쉽다. 예를 들어, 자동차의 miles per gallon을 나타내는 데이터를 number of cylinders를 기준으로 그룹을 나누고 (자동차 실린더 개수는 typical 하게 정해져있기 때문에 네 그룹? 정도로 나뉜다.) 각 그룹의 box plot을 그릴 수 있다. 이를 통해 실린더 개수가 많을수록 자동차의 miles per gallon이 줄어든다는 경향을 알 수 있다.
- Inter quartile range (IQR): distance between the first quartile and the third quartile
Scatter plot
- pair data를 나타내기에 가장 적합하다. 예를 들어 (income, years of education) 쌍 데이터를 나타낼 수 있다. 그러면 이 두 variable의 관계를 파악하기 쉽다.
Mean vs median
- mean과 standard deviation은 data를 summarize 해준다.
- mean은 extreme values (outliers)에 민감하다. data에 extreme value가 존재하거나 distribution이 skewed되어있다면 median을 사용하는 게 좋다.
Statistical analysis
- providing context is important
- “Small multiples” visualization technique를 활용해야한다. (우리 뇌는 이러한 방식으로 정보를 인코딩하는 데 익숙하다.)
- eg.temperature of box plot for every month (time series)