[statistics] 시각화(Box / hist / bar)

박경국·2021년 12월 9일
0

Statistics

목록 보기
3/16
post-thumbnail

1. Boxplot

  • 백분위수를 이용해 데이터의 분산을 시각화하는 방법
  • 상자의 오른쪽(Q3)과 왼쪽(Q1)은 각각 75%, 25% 백분위수를 나타낸다.
  • 사분위범위(IQR)은 Q3 - Q1이며, 데이터의 절반이 이 상자의 범위(-0.8 ~ 0.8) 안에 존재한다는 것을 의미한다.
  • 수염으로 데이터 전체의 범위를 나타내주며, 수염 바깥에 있는 데이터들을 일반적으로 이상치라고 부른다.
  • boxplot은 일반적으로 분포들을 서로 비교하기 위해 사용한다.

2. Histogram

  • 히스토그램을 이해하기 전에 먼저 도수분포표를 알면 좋다.
  • 도수분포표는 각 구간마다 몇 개의 변수가 존재하는지를 보여주기 위해 사용한다.
  • 도수분포표는 데이터의 범위를 일정 구간으로 나누어서 그 안에 데이터를 기입하는 방식으로 만든다.
  • 만약 구간의 크기가 너무 크면 분포를 나타내는 중요한 특징을 놓칠 수 있으며, 반대로 구간이 너무 작아도, 결과가 너무 쪼개져 있어서 더 큰 그림을 보기 어렵다.
  • 히스토그램은 이 도수분포료를 시각화하는 방법이다.
  • x축에 구간들을 표시하고, y축에 해당 구간별 데이터의 개수를 표시한다.
  • 히스토그램은 1) 그래프에 빈 구간들이 있을 수 있으며, 2) 구간은 동일한 크기를 갖고, 3) 구간의 수는 사용자가 결정할 수 있고, 4) 빈 구간이 있지 않은 이상, 막대 사이는 공간 없이 서로 붙어 있다.

3. Barplot

  • barplot은 범주형 자료를 보여줄 때 주로 사용한다.
  • x축 위에 각 범주들을 놓고, y축은 각 범주에 해당하는 횟수나 비율을 표시한다.
  • barplot은 히스토그램과 매우 유사하지만, barplot에서 x축은 각 변수의 서로 다른 범주들을 나타내는 반면, 히스토그램의 x축은 연속적으로 나타낼 수 있는 하나의 변수 값을 의미한다.
  • 히스토그램에서 막대들은 일반적으로 서로 붙어 있고, 중간에 틈이 있으면 그 부분에 해당하는 값들이 존재하지 않는다는 것을 의마한다. 반면 barplot에서 막대들은 서로 떨어져 있다.

0개의 댓글