[통계학 입문] 평균값의 역할

·2023년 6월 17일
0

[통계학 입문]

목록 보기
2/4
고지마 히로유키 - 세상에서 가장 쉬운 통계학 입문

💡 통계량은 데이터를 요약한 수치

데이터의 특징을 꺼내기 위한 기술인 '축약'의 방법으로 도수분포표와 히스토그램이 있다. 도수분포표나 히스토그램은 데이터의 특징을 이끌어내고 그 특징을 이해시틸 수 있는 훌륭한 방법이지만 몇 가지 단점이 있다.


  1. 그래프를 보고 데이터의 특징을 생각할 때 사람에 따라서 받아들이는 인상이 제각각 이라는 점이다.
  • 히스토그램으로 나타난 '형태' 가 얼마나 높은가 하는 것은 말로 잘 표현할 수 없다. 그래서 데이터로 부터 추출한 성질을 통해서 어떠한 과학적인 결론이나 비즈니스 상의 전략을 세우기 위해 통일된 의견을 도출하기가 상당히 어려울 수 있다.
  1. 도수분포표나 히스토그램은 상당히 많은 공간을 필요로 한다.
  • 학술적인 논문이나 조사보고서 등에서는 무의미하게 공간을 채우게되어 별로 바람직하지 않다.

이러한 표나 그래프가 가진 두 가지의 단점을 극복하기 위해서 또 하나의 '축약' 방법이 발명되었다. 바로 '통계량' 이다.

통계량은 '데이터의 특징을 하나의 숫자로 요약' 한 것이다. 그래서 '데이터의 어떠한 특징을 요약하고 싶은가' 에 따라서 여러가지 통계량이 개발되었다.

구체적으로 '평균값', '분산', '표준편차' 가 있다.



💡 평균값

평균값은 '데이터의 합계를 데이터 총 개수로 나누기'해서 얻은 값이다.

도수분포표에서의 평균값

(계급값 * 상대도수) 를 계산해 합계를 구하면 평균값이 나온다

계급계급값도수상대도수계급값 * 상대도수
141-14514310.01251.7875
146-15014860.07511.1
151-155153190.237536.3375
156-160158300.37559.25
161-165163180.22536.675
166-17016860.07512.6
평균157.75

하지만 도수분포표는 데이터의 특징을 추출하기 위해 데이터의 정보 일부를 버리므로 정확한 평균값을 구하기는 어렵지만 '거의 같다'고 해도 지나치지 않을 정도의 차이다.

실제로 위 도수분포표를 통해 얻은 평균 : 157.75 와 실제 평균 : 157.575 는 실용적으로 받아들일 수 있는 범위에 속하는 차이다.

이것은 도수분포표를 만드는 것이 평균이라는 통계량에는 별로 큰 영향을 주지 않는다는 것을 의미한다.


💡 평균값은 어떻게 이해해야 하는가?

핵심은 '데이터는 수치적으로 널리 퍼져있지만, 그 널리 퍼져있는 것 중에 하나의 수를 모든 데이터를 대표하는 수로 뽑은 것'

평균값을 통해 알수 있는 데이터의 특성을 살펴보자

  1. '데이터들은 평균값 주변에 분포되어 있다.'
  2. '많이 나타나는 데이터는 평균값에 주는 영향력이 크다.'
  3. 히스토그램이 좌우대칭일 경우, 평균값은 대칭이 되는 축에 자리한다.



📌요점 정리

  1. 도수분포표에서 평균값 계산 = (계급값 * 상대도수)의 합계
  2. 히스토그램을 지렛대라고 가정했을 때 평균값은 균형을 이루는 지점이다.
  3. 평균값의 성질

참고 : 평균을 구하는 여러가지 방법
두 수 x, y 의 평균을 구한다고 가정하자

1. 산술평균 : x+y2\frac{x+y}{2}
2. 상승평균, 기하평균 : xy\sqrt{xy}
3. 제곱평균 : x2+y22\sqrt{\frac{x^2+y^2}{2}}
4. 조화평균 : 21x+1y\frac{2}{\frac{1}{x}+\frac{1}{y}}

이러한 평균은 모두 x와 y사이에 존재하는 어느 하나의 수를 선택하는 작업이다. 이 중 어느 방법이 더 'x와 y를 대표하는 알맞은 하나의 수를 구하는 방법인다' 하는 것은 '데이터를 가지고 무엇을 알고 싶은가' 에 따라 결정된다.

'덧셈의 의미로 본질은 유지하고자 한다면' 산술평균
'성장률 등을 다루면서 곱셈의 의미로 본질을 유지하고자 한다면' 기하평균
'속도를 다룬다면' 제곱평균

예를 들어, 두 시험의 점수가 10점과 90점일 때의 평균을 구한다고 해보자
산술평균 : (10+90)2\frac{(10+90)}{2} = 50
기하평균 : 10×90\sqrt{10 \times 90} = 30
제곱평균 : 100+81002\sqrt\frac{100 + 8100}{2} = 64.03
조화평균 : 2110+190\frac{2}{\frac{1}{10}+\frac{1}{90}} = 18
위 평균을 가지고 다양한 이야기를 할 수 있다. 만약 두 점수가 모두 나의 점수일 때 부모님에게 성적을 말할 때 가장 높은 제곱평균을 이용해 이야기할 수 있고 두 점수가 나와 친구의 점수일 떼 조화평균을 이용해 시험이 너무 어려웠다고 말할 수도 있다.
profile
개발하고싶은사람

0개의 댓글