[통계학 입문] 분산과 표준편차

·2023년 6월 22일
0

[통계학 입문]

목록 보기
3/4
고지마 히로유키 - 세상에서 가장 쉬운 통계학 입문

💡 불규칙한 통계량

평균값이라는 것은 데이터의 분포 중에서 하나의 수를 꺼낸 것에 불과하며, 데이터가 그 주변에 어느 정도 퍼져 있는지, 또는 흩어져 있는지는 알 수 없다.

  1. 버스 운행 상황 🚍
    A버스 : 도착시간표 보다 2분 늦거나 2분 빨리온다.
    B버스 : 도착시간표 보다 10분 늦거나 10분 빨리온다.

    어느 버스든지 도착시간의 평균값만 봤을 때는 시간표대로 운행하는 버스라고 가정할 수 있다.

하지만 이 버스들이 도착하는 시간의 '평균값'만으로 버스를 이용할지 결정할 수 있을까?

A버스에 대한 '2분'과 B버스에 대한 '10분'이라는 것은 버스가 시간표에 맞지 않게 도착하는 시간들이나 불규칙한 상태를 나타내는 통계량이나고 생각할 수 있다.

버스를 이용할지의 여부를 결정하는 데는 평균값보다 불규칙한 상태의 통계량을 아는것이 중요 하다


### 💡 분산으로 이해하는 불규칙한 통계량
아래 7시 30분에 도착하는 버스가 5일 동안 도착한 시간(분) 표를 살펴보자
3227293433
평균값 7시 31분과 비교한 표를
+1-4-2+4+3
도착시간의 '편차'
+1-4-2+4+3

5 개의 편차를 축약하고, 하나의 수로 대표시킬려면 어떻게 해야할까?

단순히 편차들을 산술평균으로 구하면 0이 되버린다. 이것은 우리들이 바라는 통계량으로 적절하지 않다.
이 경우에는 '제곱평균'을 사용하면 된다. '제곱평균'은 평균을 구하고 싶은 수치들을 각각 제곱하고 모두 합하여 총 개수로 나눈 뒤에 루트를 하는 방법이다.

(+1)2+(4)2+(2)2+(+3)2+(+2)22{\frac{(+1)^2+(-4)^2+(-2)^2+(+3)^2+(+2)^2}{2}}

= 1+16+4+16+95\frac{1+16+4+16+9}{5}
= 6.8

우선 루트를 하지 않은 상태를 분산(Variance) 이라고 한다. 분산은 데이터가 퍼져있는 상태를 평가할 수 있는 통계량이다.

그러나 이 분산을 그냥 '흩어져 있는 상태 그대로 나타내는 것'에서 멈추면 두 가지 문제점이 생긴다.

  1. '흩어져 있는 상태를 나타내는 수치로는 너무크다'
    편차의 수치는 각각 ±4\pm4 정도인데 분산은 6.8 이기 때문에 값이 상당히 크다.
  2. '단위가 바뀐다'
    원래 데이터는 '분' 단위였는데 분산에서는 제곱을 했기 때문에 '2{분^2}'이라는 단위가 돼버린다.

분산에서 루트를 한 수치는 6.8\sqrt{6.8} = 약 2.61 이다. 이렇게 되면 편차들의 평균값으로 느낄 수 있고, 또한 단위도 확실히 '분'으로 돌아왔다. 이 통계량은 '표준편차(Standard Deviation)' 라고 한다.

💡 표준편차의 이미

버스 도착시간 데이터의 표준편차 정리하면 다음과 같다.

  1. 버스는 평균적으로 시간표보다 1분 늦는 버스다.
  2. 그러나 버스의 도착시간은 언제나 1분이 아니라 제각각이다.
  3. 버스가 도착하는 시간의 불규칙성, 시간표와 맞지 않아서 확실하지 않은 상태를 측정하는 것이 표준편차다.

표준편차 2.6을 통해 무엇을 알 수 있을까?

'버스는 평균적으로 시간표보다 1분 늦게 도착하지만, 실제 도착시간은 정해진 시간보다 전후로 대략 2.6분 정도 다를 수 있다고 생각해도 좋다'

즉, '평균값'이 데이터의 분포를 대표하는 수치지만, 표준편차는 그 대표값을 기점으로 해서 데이터가 대략 어느 정도 멀리까지 위치해 있는지를 나타내는 통계량이라고 할 수 있다.


💡 도수분포표로 표준편차를 구하는 방법

평균값은 (계급값 ×\times 상대도수) 이다. 그러므로 (계급값 - 평균) 을 통해 '계급값의 편차' 를 구할 수 있다. 분산을 구하는 방법은 다음과 같다.

(계급값평균)2×(상대도수)\sqrt({계급값 - 평균})^2\times(상대도수)의 합계 = 분산




📌요점 정리

  • 평균값 계산
    (데이터 총합) ÷\div (데이터 총 개수)

  • 편차 계산
    편차 = (데이터 수치) - 평균값

  • 분산 계산

    분산 = 편차제곱의 총합 ÷\div 데이터 총 개수

  • 표준편차의 계산

    표준편차 = (분산)\sqrt(분산) = 편차의 제곱평균

  • 표준편차의 의미

    평균값은 분포하고 있는 데이터 중에서 대표적인 수로 꺼낸 것이다. 데이터들은 보통 평균값을 기점으로 앞뒤에 널리 퍼져있다. 그러나 데이터의 불균형은 평균만으로는 알 수 없다. 퍼져 있거나 흩어져있는 정도를 평가하는 것이 표준편차이다. 표준편차는 데이터들의 평균값에서 떨어져있는 것을 평균화하는 것이다.

profile
개발하고싶은사람

0개의 댓글