[확률과 통계] 분산과 표준편차

Kyeongmin·2024년 8월 3일

목록 보기

23/30

본 글은 칸아카데미의 미적분 - 확률과 통계에 대해서 공부하고 정리한 글입니다.

1. 모집단의 분산과 표준편차

먼저 분산과 표준편차의 공식에 대해서 살펴보자.
평균은 $\mu$ , 분산은 $\sigma^2$ , 표준편차는 $\sigma$ 로 나타내는데 이는 모집단에 대한 통계치를 의미한다.

\begin{aligned} 분산\; \sigma^2 \;&=\; \frac{1}{N} \sum_{i=1}^{N} (x_i - \mu)^2 \\ 표준편차\; \sigma \;&=\; \sqrt{\sigma^2} \;=\;\sqrt{\frac{1}{N} \sum_{i=1}^{N} (x_i - \mu)^2} \end{aligned}

모집단은 주어진 모든 샘플을 말하는데,
현실 세계에서 모든 샘플을 이용해서 통계치를 구하는 것은 어려운 일이다.

2. 표본집단의 분산과 표준편차

모수(모집단의 분산/표준편차 등)을 구하는 것은 어렵기 때문에
우리는 모집단에서의 일부 표본만을 이용해 분산과 표준편차를 구한 뒤, 이를 통해 모수를 추정한다.

이를 표본평균 $\bar{x}$ , 표본분산 $\text{S}^2$ , 표본표준편차 $\text{S}$ 와 같이 나타내고 구하는 방법은 아래와 같다.

\begin{aligned} 표본\;분산\; \text{S}^2 \;&=\; \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2 \\ 표본\;표준편차\; \text{S} \;&=\; \sqrt{\text{S}^2} \;=\;\sqrt{\frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2} \end{aligned}

모집단과 표본집단에서 구했던 값들을 정리하면 아래와 같고, 각각 모수와 통계량이라고도 부른다.

	모수 (Population parameter)	통계량 (Statistics)
평균	$\mu$	$\bar{x}$
분산	$\sigma^2$	$\text{S}^2$
표준편차	$\sigma$	$\text{S}$

2-1. 표본집단의 통계량에서의 n-1

여기서 한가지 특이한 점은,
모집단에서는 N으로 나누지만 표본집단에서는 n-1로 나눈다는 것이다.
(N은 모집단 전체 개수를 의미하고, n은 표본집단의 표본 개수를 의미한다.)

이는 표본 분산과 표본 표준편차는 결국 모집단의 분산과 표준편차를 더 정확하게 추정하기 위함인데,
표본집단의 통계량을 구할 때 n, n-1을 사용했을 때 각각의 기댓값을 구해보면 이유를 알 수 있다.

\begin{aligned} E(\text{S}_n^2) \;&=\; E\left(\frac{1}{n} \sum_{i=1}^n (x_i - \bar{x})^2\right) \;=\; \frac{n-1}{n} \sigma^2 \\\,\\ E(\text{S}_{n-1}^2) \;&=\; E\left(\frac{1}{n-1} \sum_{i=1}^n (x_i - \bar{x})^2\right) \;=\; \sigma^2 \end{aligned}

위와 같이 통계량을 n-1로 나눴을때의 기댓값이 모수와 같기 때문에,
우리가 통계량을 구할때 n이 아닌 n-1을 사용하는 것이다.

3. 공분산

공분산은 두 변수 간의 선형 관계를 나타내는 통계량이며, X와 Y의 공분산은 $\text{Cov}(X,Y)$ 로 표현한다.
이러한 공분산의 부호를 통해 두 변수가 양의 선형관계인지 음의 선형관계인지 알 수 있다.
(단, 공분산의 크기가 크다 해서 선형관계가 강하다는 것은 아니며 이는 상관계수를 통해서 알 수 있다.)

• 양의 공분산: 두 변수가 함께 증가하거나 함께 감소하는 경향이 있는 경우
• 음의 공분산: 한 변수가 증가할 때 다른 변수가 감소하는 경향이 있는 경우
• 공분산이 0에 가까운 경우: 두 변수 간에 선형 관계가 거의 없는 경우

공분산의 수식은 아래와 같다.
(아래는 표본에 대한 공분산이고 표본인 경우 n-1, 모집단인 경우 N을 사용한다)

\text{Cov}(X, Y) = \frac{1}{n-1} \sum_{i=1}^{n} (X_i - \bar{X})(Y_i - \bar{Y})

4. 상관계수

상관계수(Correlation Coefficient)는 두 변수 간의 선형 관계의 강도와 방향을 나타내는 통계량이며,
상관계수는 기호는 $r\,$ 이고, $-1 \leq r \leq 1$ 범위의 값을 가진다.

또한 상관계수의 값을 확인함으로써 아래의 의미를 파악할 수 있다.

• 1: 완벽한 양의 선형 관계 (한 변수가 증가할 때 다른 변수도 일정하게 증가)
• 0: 선형 관계가 없음 (두 변수 간에 선형적 관계가 존재하지 않음)
• -1: 완벽한 음의 선형 관계 (한 변수가 증가할 때 다른 변수는 일정하게 감소)

보통 상관계수는 피어슨 상관계수를 사용하며, 아래의 식을 통해서 계산할 수 있다.

\begin{aligned} r \;&=\; \frac{1}{n-1}\sum_{i=1}^{n} \left(\frac{x_i-\bar{x}}{s_x} \;\cdot\; \frac{y_i-\bar{y}}{s_y} \right) \\\,\\ \;&=\; \frac{\text{Cov}(X,Y)}{s_x\;s_y} \end{aligned}

Kyeongmin

개발자가 되고 싶은 공장장이🛠

이전 포스트

[미적분] 적분법

다음 포스트