[수학] 표준편차

장브로·2024년 1월 3일
0

표준편차

자료의 값들이 얼마나 흩어져 있는지를 하나의 수치로 나타내는 방법. "Standard Deviation" 약어로는 SD 또는 StDev라고 쓴다. 관찰값들이 얼마나 떨어져있는지 수치로 나타내는 방법이다. 이것을 산포도라고 한다. 간단하게 생각해보면 어떤 데이터의 집단이 있을때 관찰값에서 평균(mean) 혹은 중앙값(median)을 뺀것인 편차(deviation)가 가장 간단할 것 같은데, 모든 값을 더한 후 데이터의 수로 나눈 값인 평균을 관찰값에서 모두 빼버리면 언제나 0이될수 밖에 없다. 예를들어 [3,6,9] 인 값들의 평균 6, 각 편차는 -3,0,3, 이를 대표할 편차의 평균이나 합은 0으로 의미가 없다.

그러므로 절대값을 이용하거나, 제곱을 이용할수 있겠는데 절대값을 이용하면 미분이 불가능하여 각 편차를 제곱한 것들의 평균인값을 "분산(variance)" 이라고 하고, 비대해진 이 값을 다시 루트를 씌워 구한 값을 표준 편차라고 한다. Standard Deviation의 S자를 기호로 Σ\Sigma, σ\sigma라고 쓰고 시그마라고 읽는다. 추가로 분산은 당연히 σ2σ^2이라고 쓴다. 모집단 전체의 분산에서 루트를 씌운것은 모 표준편차, 표본 분산에 루트를 씌운것은 표본 표준편차라고 한다.

표본 크기 nn, 표본평균 xˉ\bar{x}, 표본 xnx^n
표본 분산 s2=Σ(xnxˉ)2n1{s^2}=\frac{\Sigma(x^n- \bar{x})^2 }{n - 1}
표본 표준편차 s=s2=Σ(xnxˉ)2n1s= \sqrt s^2= \frac{\sqrt \Sigma(x^n- \bar{x})^2}{n - 1}

참고_
https://www.youtube.com/watch?v=naJQNDMbViY

profile
이제 진짜 개발하려구요!

0개의 댓글