통계학은 크게 두 부분으로 이루어져 있다. 하나는 '기술 통계'라고 부르는 부분이고, 또 하나는 '추리 통계' 라고 부르는 부분이다.
기술 통계 : 관측을 통해 얻은 데이터에서 그 데이터의 특징을 뽑아내기 위한 기술
추리 통계 : 통계학 방법과 확률 이론을 섞은 것으로 '전체를 파악할 수 없을 정도의 큰 대상' 이나 '아직 일어나지 않은, 미래에 일어날 일' 에 관해 추측하는 것
데이터를 다영한 수치로 나타내는 것을 '분포' 라고 한다.
분포의 특징이나 반복되는 것을 이끌어내기 위한 방법을 '통계' 라고 한다
통계에서 사용되는 것은 '축약' 이라고 부르는 방법이다.
축약은 '데이터로 나열되어 있는 많은 숫자를 어떤 기준으로 정리정돈해서 의미있는 정보만 추출' 하는 것을 의미하는 말로, 크게 다음과 같은 두 가지 방법이 있다.
이 대표하는 숫자를 '통계량' 이라고 한다.
데이터 자체를 만들 때 가장 많이 쓰이난 그래프는 '히스토그램' 으로, 쉽게 말하면 '막대그래프' 다. 이것을 만들기 위해서는 먼저 도수분포표라는 표를 만들어야 하는데, 만드는 방법은 다음과 같다.
# 여대생 80명의 키(cm)
151 154 158 162
154 152 151 167
...
169 162 162 156
150 153 143 156
계급 | 계급값 | 도수 | 상대도수 | 누적도수 |
---|---|---|---|---|
141-145 | 143 | 1 | 0.0125 | 1 |
146-150 | 148 | 6 | 0.075 | 7 |
151-155 | 153 | 19 | 0.2375 | 26 |
156-160 | 158 | 30 | 0.375 | 56 |
161-165 | 163 | 18 | 0.225 | 74 |
166-170 | 168 | 6 | 0.075 | 80 |
우선, 중요한 것은 이렇게 도수분포표를 만들면 잃어버리는 정보가 있다는 점이다. 바로 '데이터에 나타나 있던 수치들 자체' 다.
예를 들어, 도표 1-2의 제4계급인 156부터 160까지의 범위를 보면. 도수를 통해 30개의 데이터가 있다는 것을 알 수 있지만, 그 30개의 데이터의 세부적인 수치는 알 수 없다.
하지만 이런 희생을 감수하는 대신에 귀중한 정보를 얻을 수 있다. 도수 칸을 보면 키가 작은 계급부터 차례대로 1, 16, 19, 30, 18, 6 이란 수치가 나와 있는데, 이 수치로 다음과 같은 데이터의 특징을 발견할 수 있다.
성인 여성들의 키에대한 특징을 정리하면
이러한 특징들은 데이터 자체를 그냥 보았을 때는 몰랐던 정보다. 축약은 데이터의 세부적인 수치들을 희생시키지만, 이 희생으로 데이터의 분포와 그 이면에 있는 특징들이 돋보이게 된다.
이렇게 만든 막대그래프를 히스토그램 이라고 한다.
이 히스토그램을 보면 앞에서 도수분포표를 통해 알게 된 특징을 더욱 명확하게 알 수 있다.
막대의 높이는 가운데 세 막대가 높고 양쪽 바깥의 막대는 낮다. 데이터 분포가 좌우대칭에 가까운 특성도 찾아볼 수 있다.
위 히스토그램을 보고 '정확히 키가 158cm인 여대생이 30명 있다' 이렇게 해석하면 현실을 정확하게 나타낼 수는 없지만 여기서 우리는 '데이터에 잠재되어 있는 특징' 을 알 수 있다.