평균값이라는 것은 데이터의 분포 중에서 하나의 수를 꺼낸 것에 불과하며, 데이터가 그 주변에 어느 정도 퍼져 있는지, 또는 흩어져 있는지는 알 수 없다.
- 버스 운행 상황 🚍
A버스 : 도착시간표 보다 2분 늦거나 2분 빨리온다.
B버스 : 도착시간표 보다 10분 늦거나 10분 빨리온다.어느 버스든지 도착시간의 평균값만 봤을 때는 시간표대로 운행하는 버스라고 가정할 수 있다.
하지만 이 버스들이 도착하는 시간의 '평균값'만으로 버스를 이용할지 결정할 수 있을까?
A버스에 대한 '2분'과 B버스에 대한 '10분'이라는 것은 버스가 시간표에 맞지 않게 도착하는 시간들이나 불규칙한 상태를 나타내는 통계량이나고 생각할 수 있다.
버스를 이용할지의 여부를 결정하는 데는 평균값보다 불규칙한 상태의 통계량을 아는것이 중요 하다
32 | 27 | 29 | 34 | 33 |
---|
+1 | -4 | -2 | +4 | +3 |
---|
+1 | -4 | -2 | +4 | +3 |
---|
5 개의 편차를 축약하고, 하나의 수로 대표시킬려면 어떻게 해야할까?
단순히 편차들을 산술평균으로 구하면 0이 되버린다. 이것은 우리들이 바라는 통계량으로 적절하지 않다.
이 경우에는 '제곱평균'을 사용하면 된다. '제곱평균'은 평균을 구하고 싶은 수치들을 각각 제곱하고 모두 합하여 총 개수로 나눈 뒤에 루트를 하는 방법이다.
=
= 6.8
우선 루트를 하지 않은 상태를 분산(Variance) 이라고 한다. 분산은 데이터가 퍼져있는 상태를 평가할 수 있는 통계량이다.
그러나 이 분산을 그냥 '흩어져 있는 상태 그대로 나타내는 것'에서 멈추면 두 가지 문제점이 생긴다.
분산에서 루트를 한 수치는 = 약 2.61 이다. 이렇게 되면 편차들의 평균값으로 느낄 수 있고, 또한 단위도 확실히 '분'으로 돌아왔다. 이 통계량은 '표준편차(Standard Deviation)' 라고 한다.
버스 도착시간 데이터의 표준편차 정리하면 다음과 같다.
'버스는 평균적으로 시간표보다 1분 늦게 도착하지만, 실제 도착시간은 정해진 시간보다 전후로 대략 2.6분 정도 다를 수 있다고 생각해도 좋다'
즉, '평균값'이 데이터의 분포를 대표하는 수치지만, 표준편차는 그 대표값을 기점으로 해서 데이터가 대략 어느 정도 멀리까지 위치해 있는지를 나타내는 통계량이라고 할 수 있다.
평균값은 (계급값 상대도수) 이다. 그러므로 (계급값 평균) 을 통해 '계급값의 편차' 를 구할 수 있다. 분산을 구하는 방법은 다음과 같다.
의 합계 = 분산
평균값 계산
(데이터 총합) (데이터 총 개수)
편차 계산
편차 = (데이터 수치) - 평균값
분산 계산
분산 = 편차제곱의 총합 데이터 총 개수
표준편차의 계산
표준편차 = = 편차의 제곱평균
표준편차의 의미
평균값은 분포하고 있는 데이터 중에서 대표적인 수로 꺼낸 것이다. 데이터들은 보통 평균값을 기점으로 앞뒤에 널리 퍼져있다. 그러나 데이터의 불균형은 평균만으로는 알 수 없다. 퍼져 있거나 흩어져있는 정도를 평가하는 것이 표준편차이다. 표준편차는 데이터들의 평균값에서 떨어져있는 것을 평균화하는 것이다.