[세상에서 가장 쉬운 통계학 입문] -도수분포표와 히스토그램

Sooyeon·2023년 11월 14일
0

정리하며 읽기

목록 보기
16/50
post-thumbnail

[세상에서 가장 쉬운 통계학 입문] 을 읽고 -도수분포표와 히스토그램


도수분포표와 히스토그램 : 데이터의 특징을 돋보이게 하는 도구

1.통계를 사용하는 이유

  • 통계를 사용하는 이유
    데이터 자체로는 아무것도 알 수 없기 때문
  • 다양한 수치로 나타나는 것 => 전문용어로 분포
    분포가 생기는 이유
    그 수치들이 결정된 이면에 어떤 불확실성이 움직이고 있기 때문이다.
    불확실이라는 말로 표현한다고해도,여기에는 고유한 특징이나 반복되는것이 있다.

=> 그 고유한 특징이나 반복되는 것을 분포의 특성
=> 데이터 (현실 그 자체)로부터 그 분포의 특징이나 반복되는 것을 이끌어내기 위한 방법으로 통계라는 방법이 필요해짐

  • 통계에서 사용되는 것은 축약이라고 부르는 방법이다.
    축약
    데이터를 어떤 기준으로 정리정돈해서 의미있는 정보만 추출하는 것
    축약의 방법
    1.그래프를 만들어서 그 특징을 파악할 수 있도록 한다.
    2.숫자 하나로 특징을 대표하도록 한다 => 이는 통계량이라고 한다.

2.히스토그램 만들기

  • 데이터를 그래프로 만들 때 가장 많이 쓰이는 그래프는 히스토그램
    =>이것을 만들기 위해서는 도수분포표라는 표를 만들어야 하는데,
    만드는 방법은 다음과 같다.
# 도수분포표를 만드는 방법 

1단계: 데이터 중에서 최대값과 최소값을 찾는다

2단계:최대값부터 최소값까지 포함되도록하여 구간을 자르기 좋은 대강의 범위를 만들고,
그 범위 내에서 5-8개정도의 작은 구간들로 자른다. => 이것을 '계급'이라고 한다.

3단계: 각 `계급`을 대표하는 `수치`를 정한다. 
일반적으로 가장 가운데 값을 선택하는 경우가 많다.
=> 이것을 `계급값`이라고 한다. 

4단계: 각 계급에 들어가 있는 데이터의 총 개수를 센다
=> 이것을 `도수`라고 한다.

5단계: 각 계급의 도수가 전체에서 차지하는 비율을 계산한다.
=> 이것을 `상대도수`라고한다. 
=> 상대도수는 합하면 1이 된다. 

6단계 어느 계급까지의 도수를 모두 합한다.
=> 이것을 `누적도수`라고 한다. 
=> 최종 누적도수는 데이터의 총 개수와 일치한다. 

# 막대그래프로 나타내는 방법 

1단계: 가로축에 계급값을 같은 간격으로 둔다.
2단계: 각 계급값 위에 막대를 세우는데, 막대 높이는 그 계급값에 속한 계급도수로 한다. 
=>상대 도수도 가능 
=> 이렇게 만든 막대그래프를 히스토그램이라고 한다. 

=> 도수분포표를 만드는 축약과정에서,데이터의 세부적인 수치들을 희생시키지만
이 희생으로 데이터의 분포와 그 이면에 있는 특징들이 돋보이게 된다

=> 얻을 수 있는 정보
1.어느 한곳에 집중되어 있는지
2.이 집중된 곳을 기준으로,데이터의 분포에는 어느 한 곳을 축으로 좌우 대칭성이 있다.


0개의 댓글