고지마 히로유키 - 세상에서 가장 쉬운 통계학 입문
💡 통계량은 데이터를 요약한 수치
데이터의 특징을 꺼내기 위한 기술인 '축약'의 방법으로 도수분포표와 히스토그램이 있다. 도수분포표나 히스토그램은 데이터의 특징을 이끌어내고 그 특징을 이해시틸 수 있는 훌륭한 방법이지만 몇 가지 단점이 있다.
- 그래프를 보고 데이터의 특징을 생각할 때 사람에 따라서 받아들이는 인상이 제각각 이라는 점이다.
- 히스토그램으로 나타난 '형태' 가 얼마나 높은가 하는 것은 말로 잘 표현할 수 없다. 그래서 데이터로 부터 추출한 성질을 통해서 어떠한 과학적인 결론이나 비즈니스 상의 전략을 세우기 위해 통일된 의견을 도출하기가 상당히 어려울 수 있다.
- 도수분포표나 히스토그램은 상당히 많은 공간을 필요로 한다.
- 학술적인 논문이나 조사보고서 등에서는 무의미하게 공간을 채우게되어 별로 바람직하지 않다.
이러한 표나 그래프가 가진 두 가지의 단점을 극복하기 위해서 또 하나의 '축약' 방법이 발명되었다. 바로 '통계량' 이다.
통계량은 '데이터의 특징을 하나의 숫자로 요약' 한 것이다. 그래서 '데이터의 어떠한 특징을 요약하고 싶은가' 에 따라서 여러가지 통계량이 개발되었다.
구체적으로 '평균값', '분산', '표준편차' 가 있다.
💡 평균값
평균값은 '데이터의 합계를 데이터 총 개수로 나누기'해서 얻은 값이다.
도수분포표에서의 평균값
(계급값 * 상대도수) 를 계산해 합계를 구하면 평균값이 나온다
계급 | 계급값 | 도수 | 상대도수 | 계급값 * 상대도수 |
---|
141-145 | 143 | 1 | 0.0125 | 1.7875 |
146-150 | 148 | 6 | 0.075 | 11.1 |
151-155 | 153 | 19 | 0.2375 | 36.3375 |
156-160 | 158 | 30 | 0.375 | 59.25 |
161-165 | 163 | 18 | 0.225 | 36.675 |
166-170 | 168 | 6 | 0.075 | 12.6 |
| | | 평균 | 157.75 |
하지만 도수분포표는 데이터의 특징을 추출하기 위해 데이터의 정보 일부를 버리므로 정확한 평균값을 구하기는 어렵지만 '거의 같다'고 해도 지나치지 않을 정도의 차이다.
실제로 위 도수분포표를 통해 얻은 평균 : 157.75 와 실제 평균 : 157.575 는 실용적으로 받아들일 수 있는 범위에 속하는 차이다.
이것은 도수분포표를 만드는 것이 평균이라는 통계량에는 별로 큰 영향을 주지 않는다는 것을 의미한다.
💡 평균값은 어떻게 이해해야 하는가?
핵심은 '데이터는 수치적으로 널리 퍼져있지만, 그 널리 퍼져있는 것 중에 하나의 수를 모든 데이터를 대표하는 수로 뽑은 것'
평균값을 통해 알수 있는 데이터의 특성을 살펴보자
- '데이터들은 평균값 주변에 분포되어 있다.'
- '많이 나타나는 데이터는 평균값에 주는 영향력이 크다.'
- 히스토그램이 좌우대칭일 경우, 평균값은 대칭이 되는 축에 자리한다.
📌요점 정리
- 도수분포표에서 평균값 계산 = (계급값 * 상대도수)의 합계
- 히스토그램을 지렛대라고 가정했을 때 평균값은 균형을 이루는 지점이다.
- 평균값의 성질
참고 : 평균을 구하는 여러가지 방법
두 수 x, y 의 평균을 구한다고 가정하자
1. 산술평균 : 2x+y
2. 상승평균, 기하평균 : xy
3. 제곱평균 : 2x2+y2
4. 조화평균 : x1+y12
이러한 평균은 모두 x와 y사이에 존재하는 어느 하나의 수를 선택하는 작업이다. 이 중 어느 방법이 더 'x와 y를 대표하는 알맞은 하나의 수를 구하는 방법인다' 하는 것은 '데이터를 가지고 무엇을 알고 싶은가' 에 따라 결정된다.
'덧셈의 의미로 본질은 유지하고자 한다면' 산술평균
'성장률 등을 다루면서 곱셈의 의미로 본질을 유지하고자 한다면' 기하평균
'속도를 다룬다면' 제곱평균
예를 들어, 두 시험의 점수가 10점과 90점일 때의 평균을 구한다고 해보자
산술평균 : 2(10+90) = 50
기하평균 : 10×90 = 30
제곱평균 : 2100+8100 = 64.03
조화평균 : 101+9012 = 18
위 평균을 가지고 다양한 이야기를 할 수 있다. 만약 두 점수가 모두 나의 점수일 때 부모님에게 성적을 말할 때 가장 높은 제곱평균을 이용해 이야기할 수 있고 두 점수가 나와 친구의 점수일 떼 조화평균을 이용해 시험이 너무 어려웠다고 말할 수도 있다.