도표와 그래프로 데이터 해석

박준영·2020년 9월 1일
0

통계학정리(책)

목록 보기
2/2

데이터 해석의 출발점은 데이터를 효율적으로 정리, 요약해 특징을 확인하는 것이다. 그 방법으로 도표나 그래프가 있고 수치를 활용할 수 있다. 도표나 그래프는 데이터의 대략적인 분포를 파악하는데 도움이 된다.

도수분포표(Frequency Table)

  • 단변량데이터의 크기에 따라 몇 개의 계급으로 분류하고 각 계급에 속하는 데이터 수를 도수라 한다. 이렇게 데이터를 계급과 도수로 표현하는 것을 도수분포라 하고 도수분포를 표로 만들면 도수분포표이다.

히스토그램(Histogram)

  • 도수분포표를 막대그래프(Bar Chart)로 표현한 것이다.
  • 가로축 : 계급값
  • 세로축 : 도수
  • 히스토그램 그래프의 해석방법은
    1. 꼭대기 개수
    2. 중심의 위치
    3. 흩어진 정도
    4. 형상
    5. 이상점
  • 길이가 가장 긴 막대를 분포의 중심으로 흩어진 정도를 확인하는 정도이다.

5수 요약과 상자수염그림

  • 5수 요약(5 Summary)란 데이터를 오름차순으로 정렬 시 작은 쪽 부터 25%, 50%, 75% 의 값을 사분위수라 하고 각각 1사분위수(Q1), 2사분위수(Q2), 3사분위수(Q3)라 한다. 2사분위수의 경우엔 데이터의 중앙값을 의미한다.
  • 이렇게 최솟값, 사분위수, 최댓값을 5수 요약이라 한다.
  • Q3와 Q1사이에는 데이터 중심이 포함되어 있다. 따라서 Q3-Q1은 사분위 범위라 부르고 이 값은 중앙값이 어느 정도에 퍼져 있는지에 대한 정보를 준다.

시계열 그래프

  • 시계열 데이터는 시점순으로 나열된 데이터이기 때문에 순서를 바꿔 나열하면 정보를 완전히 잃게된다. 따라서 크기순으로 나열하는 도수분포표나 히스토그램으로 시계열 데이터를 표현할 수 없다.
  • 시계열 그래프의 해석방법은
    1. 트렌드가 유무
    2. 흩어진 정도가 일정한가를 주목

산점도

  • 산점도는 연속변량 중 두 변량의 관계를 시각적으로 파악하는데 사용한다. 이때 점의 변화에 따라 상관관계를 파악할 수 있다.

0개의 댓글