[확률과 통계] 분산과 표준편차

Kyeongmin·2024년 8월 3일
0

수학

목록 보기
23/30

본 글은 칸아카데미의 미적분 - 확률과 통계에 대해서 공부하고 정리한 글입니다.


1. 모집단의 분산과 표준편차

먼저 분산과 표준편차의 공식에 대해서 살펴보자.
평균은 μ\mu, 분산은 σ2\sigma^2, 표준편차는 σ\sigma로 나타내는데 이는 모집단에 대한 통계치를 의미한다.

분산  σ2  =  1Ni=1N(xiμ)2표준편차  σ  =  σ2  =  1Ni=1N(xiμ)2\begin{aligned} 분산\; \sigma^2 \;&=\; \frac{1}{N} \sum_{i=1}^{N} (x_i - \mu)^2 \\ 표준편차\; \sigma \;&=\; \sqrt{\sigma^2} \;=\;\sqrt{\frac{1}{N} \sum_{i=1}^{N} (x_i - \mu)^2} \end{aligned}

모집단은 주어진 모든 샘플을 말하는데,
현실 세계에서 모든 샘플을 이용해서 통계치를 구하는 것은 어려운 일이다.

2. 표본집단의 분산과 표준편차

모수(모집단의 분산/표준편차 등)을 구하는 것은 어렵기 때문에
우리는 모집단에서의 일부 표본만을 이용해 분산과 표준편차를 구한 뒤, 이를 통해 모수를 추정한다.

이를 표본평균 xˉ\bar{x} , 표본분산 S2\text{S}^2, 표본표준편차 S\text{S} 와 같이 나타내고 구하는 방법은 아래와 같다.

표본  분산  S2  =  1n1i=1n(xixˉ)2표본  표준편차  S  =  S2  =  1n1i=1n(xixˉ)2\begin{aligned} 표본\;분산\; \text{S}^2 \;&=\; \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2 \\ 표본\;표준편차\; \text{S} \;&=\; \sqrt{\text{S}^2} \;=\;\sqrt{\frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2} \end{aligned}

모집단과 표본집단에서 구했던 값들을 정리하면 아래와 같고, 각각 모수와 통계량이라고도 부른다.

모수 (Population parameter)통계량 (Statistics)
평균μ\muxˉ\bar{x}
분산σ2\sigma^2S2\text{S}^2
표준편차σ\sigmaS\text{S}

2-1. 표본집단의 통계량에서의 n-1

여기서 한가지 특이한 점은,
모집단에서는 N으로 나누지만 표본집단에서는 n-1로 나눈다는 것이다.
(N은 모집단 전체 개수를 의미하고, n은 표본집단의 표본 개수를 의미한다.)

이는 표본 분산과 표본 표준편차는 결국 모집단의 분산과 표준편차를 더 정확하게 추정하기 위함인데,
표본집단의 통계량을 구할 때 n, n-1을 사용했을 때 각각의 기댓값을 구해보면 이유를 알 수 있다.

E(Sn2)  =  E(1ni=1n(xixˉ)2)  =  n1nσ2E(Sn12)  =  E(1n1i=1n(xixˉ)2)  =  σ2\begin{aligned} E(\text{S}_n^2) \;&=\; E\left(\frac{1}{n} \sum_{i=1}^n (x_i - \bar{x})^2\right) \;=\; \frac{n-1}{n} \sigma^2 \\\,\\ E(\text{S}_{n-1}^2) \;&=\; E\left(\frac{1}{n-1} \sum_{i=1}^n (x_i - \bar{x})^2\right) \;=\; \sigma^2 \end{aligned}

위와 같이 통계량을 n-1로 나눴을때의 기댓값이 모수와 같기 때문에,
우리가 통계량을 구할때 n이 아닌 n-1을 사용하는 것이다.

3. 공분산

공분산은 두 변수 간의 선형 관계를 나타내는 통계량이며, X와 Y의 공분산은 Cov(X,Y)\text{Cov}(X,Y)로 표현한다.
이러한 공분산의 부호를 통해 두 변수가 양의 선형관계인지 음의 선형관계인지 알 수 있다.
(단, 공분산의 크기가 크다 해서 선형관계가 강하다는 것은 아니며 이는 상관계수를 통해서 알 수 있다.)

• 양의 공분산: 두 변수가 함께 증가하거나 함께 감소하는 경향이 있는 경우
• 음의 공분산: 한 변수가 증가할 때 다른 변수가 감소하는 경향이 있는 경우
• 공분산이 0에 가까운 경우: 두 변수 간에 선형 관계가 거의 없는 경우

공분산의 수식은 아래와 같다.
(아래는 표본에 대한 공분산이고 표본인 경우 n-1, 모집단인 경우 N을 사용한다)

Cov(X,Y)=1n1i=1n(XiXˉ)(YiYˉ)\text{Cov}(X, Y) = \frac{1}{n-1} \sum_{i=1}^{n} (X_i - \bar{X})(Y_i - \bar{Y})

4. 상관계수

상관계수(Correlation Coefficient)는 두 변수 간의 선형 관계의 강도와 방향을 나타내는 통계량이며,
상관계수는 기호는 rr\,이고, 1r1-1 \leq r \leq 1 범위의 값을 가진다.

또한 상관계수의 값을 확인함으로써 아래의 의미를 파악할 수 있다.

• 1: 완벽한 양의 선형 관계 (한 변수가 증가할 때 다른 변수도 일정하게 증가)
• 0: 선형 관계가 없음 (두 변수 간에 선형적 관계가 존재하지 않음)
• -1: 완벽한 음의 선형 관계 (한 변수가 증가할 때 다른 변수는 일정하게 감소)

보통 상관계수는 피어슨 상관계수를 사용하며, 아래의 식을 통해서 계산할 수 있다.

r  =  1n1i=1n(xixˉsx    yiyˉsy)  =  Cov(X,Y)sx  sy\begin{aligned} r \;&=\; \frac{1}{n-1}\sum_{i=1}^{n} \left(\frac{x_i-\bar{x}}{s_x} \;\cdot\; \frac{y_i-\bar{y}}{s_y} \right) \\\,\\ \;&=\; \frac{\text{Cov}(X,Y)}{s_x\;s_y} \end{aligned}
profile
개발자가 되고 싶은 공장장이🛠

0개의 댓글