[세상에서 가장 쉬운 통계학 입문] 을 읽고 -도수분포표와 히스토그램
도수분포표와 히스토그램 : 데이터의 특징을 돋보이게 하는 도구
1.통계를 사용하는 이유
통계
를 사용하는 이유
데이터 자체로는 아무것도 알 수 없기 때문
- 다양한 수치로 나타나는 것 => 전문용어로
분포
분포가 생기는 이유
그 수치들이 결정된 이면에 어떤불확실성
이 움직이고 있기 때문이다.
불확실
이라는 말로 표현한다고해도,여기에는 고유한특징
이나반복되는것
이 있다.=> 그 고유한 특징이나 반복되는 것을
분포의 특성
=> 데이터 (현실 그 자체)로부터 그 분포의 특징이나 반복되는 것을 이끌어내기 위한 방법으로통계
라는 방법이 필요해짐
- 통계에서 사용되는 것은
축약
이라고 부르는 방법이다.
축약
데이터를 어떤 기준으로 정리정돈해서 의미있는 정보만 추출하는 것
축약의 방법
1.그래프를 만들어서 그 특징을 파악할 수 있도록 한다.
2.숫자 하나로 특징을 대표하도록 한다 => 이는통계량
이라고 한다.
2.히스토그램 만들기
- 데이터를 그래프로 만들 때 가장 많이 쓰이는 그래프는
히스토그램
=>이것을 만들기 위해서는 도수분포표라는 표를 만들어야 하는데,
만드는 방법은 다음과 같다.# 도수분포표를 만드는 방법 1단계: 데이터 중에서 최대값과 최소값을 찾는다 2단계:최대값부터 최소값까지 포함되도록하여 구간을 자르기 좋은 대강의 범위를 만들고, 그 범위 내에서 5-8개정도의 작은 구간들로 자른다. => 이것을 '계급'이라고 한다. 3단계: 각 `계급`을 대표하는 `수치`를 정한다. 일반적으로 가장 가운데 값을 선택하는 경우가 많다. => 이것을 `계급값`이라고 한다. 4단계: 각 계급에 들어가 있는 데이터의 총 개수를 센다 => 이것을 `도수`라고 한다. 5단계: 각 계급의 도수가 전체에서 차지하는 비율을 계산한다. => 이것을 `상대도수`라고한다. => 상대도수는 합하면 1이 된다. 6단계 어느 계급까지의 도수를 모두 합한다. => 이것을 `누적도수`라고 한다. => 최종 누적도수는 데이터의 총 개수와 일치한다. # 막대그래프로 나타내는 방법 1단계: 가로축에 계급값을 같은 간격으로 둔다. 2단계: 각 계급값 위에 막대를 세우는데, 막대 높이는 그 계급값에 속한 계급도수로 한다. =>상대 도수도 가능 => 이렇게 만든 막대그래프를 히스토그램이라고 한다.
=> 도수분포표를 만드는 축약과정에서,데이터의 세부적인 수치들을 희생시키지만
이 희생으로 데이터의 분포와 그 이면에 있는 특징들이 돋보이게 된다=> 얻을 수 있는 정보
1.어느 한곳에 집중되어 있는지
2.이 집중된 곳을 기준으로,데이터의 분포에는 어느 한 곳을 축으로 좌우 대칭성이 있다.