본 글은 칸아카데미의 미적분 - 확률과 통계 에 대해서 공부하고 정리한 글입니다.
1. 모집단의 분산과 표준편차
먼저 분산과 표준편차의 공식에 대해서 살펴보자.
평균은 μ \mu μ , 분산은 σ 2 \sigma^2 σ 2 , 표준편차는 σ \sigma σ 로 나타내는데 이는 모집단에 대한 통계치를 의미한다.
분산 σ 2 = 1 N ∑ i = 1 N ( x i − μ ) 2 표준편차 σ = σ 2 = 1 N ∑ i = 1 N ( x i − μ ) 2 \begin{aligned} 분산\; \sigma^2 \;&=\; \frac{1}{N} \sum_{i=1}^{N} (x_i - \mu)^2 \\ 표준편차\; \sigma \;&=\; \sqrt{\sigma^2} \;=\;\sqrt{\frac{1}{N} \sum_{i=1}^{N} (x_i - \mu)^2} \end{aligned} 분 산 σ 2 표 준 편 차 σ = N 1 i = 1 ∑ N ( x i − μ ) 2 = σ 2 = N 1 i = 1 ∑ N ( x i − μ ) 2
모집단은 주어진 모든 샘플을 말하는데,
현실 세계에서 모든 샘플을 이용해서 통계치를 구하는 것은 어려운 일이다.
2. 표본집단의 분산과 표준편차
모수(모집단의 분산/표준편차 등)을 구하는 것은 어렵기 때문에
우리는 모집단에서의 일부 표본만을 이용해 분산과 표준편차를 구한 뒤, 이를 통해 모수를 추정한다.
이를 표본평균 x ˉ \bar{x} x ˉ , 표본분산 S 2 \text{S}^2 S 2 , 표본표준편차 S \text{S} S 와 같이 나타내고 구하는 방법은 아래와 같다.
표본 분산 S 2 = 1 n − 1 ∑ i = 1 n ( x i − x ˉ ) 2 표본 표준편차 S = S 2 = 1 n − 1 ∑ i = 1 n ( x i − x ˉ ) 2 \begin{aligned} 표본\;분산\; \text{S}^2 \;&=\; \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2 \\ 표본\;표준편차\; \text{S} \;&=\; \sqrt{\text{S}^2} \;=\;\sqrt{\frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2} \end{aligned} 표 본 분 산 S 2 표 본 표 준 편 차 S = n − 1 1 i = 1 ∑ n ( x i − x ˉ ) 2 = S 2 = n − 1 1 i = 1 ∑ n ( x i − x ˉ ) 2
모집단과 표본집단에서 구했던 값들을 정리하면 아래와 같고, 각각 모수와 통계량이라고도 부른다.
모수 (Population parameter) 통계량 (Statistics) 평균 μ \mu μ x ˉ \bar{x} x ˉ 분산 σ 2 \sigma^2 σ 2 S 2 \text{S}^2 S 2 표준편차 σ \sigma σ S \text{S} S
2-1. 표본집단의 통계량에서의 n-1
여기서 한가지 특이한 점은,
모집단에서는 N으로 나누지만 표본집단에서는 n-1로 나눈다는 것이다.
(N은 모집단 전체 개수를 의미하고, n은 표본집단의 표본 개수를 의미한다.)
이는 표본 분산과 표본 표준편차는 결국 모집단의 분산과 표준편차를 더 정확하게 추정하기 위함인데,
표본집단의 통계량을 구할 때 n, n-1을 사용했을 때 각각의 기댓값을 구해보면 이유를 알 수 있다.
E ( S n 2 ) = E ( 1 n ∑ i = 1 n ( x i − x ˉ ) 2 ) = n − 1 n σ 2 E ( S n − 1 2 ) = E ( 1 n − 1 ∑ i = 1 n ( x i − x ˉ ) 2 ) = σ 2 \begin{aligned} E(\text{S}_n^2) \;&=\; E\left(\frac{1}{n} \sum_{i=1}^n (x_i - \bar{x})^2\right) \;=\; \frac{n-1}{n} \sigma^2 \\\,\\ E(\text{S}_{n-1}^2) \;&=\; E\left(\frac{1}{n-1} \sum_{i=1}^n (x_i - \bar{x})^2\right) \;=\; \sigma^2 \end{aligned} E ( S n 2 ) E ( S n − 1 2 ) = E ( n 1 i = 1 ∑ n ( x i − x ˉ ) 2 ) = n n − 1 σ 2 = E ( n − 1 1 i = 1 ∑ n ( x i − x ˉ ) 2 ) = σ 2
위와 같이 통계량을 n-1로 나눴을때의 기댓값이 모수와 같기 때문에,
우리가 통계량을 구할때 n이 아닌 n-1을 사용하는 것이다.
3. 공분산
공분산은 두 변수 간의 선형 관계를 나타내는 통계량이며, X와 Y의 공분산은 Cov ( X , Y ) \text{Cov}(X,Y) Cov ( X , Y ) 로 표현한다.
이러한 공분산의 부호를 통해 두 변수가 양의 선형관계인지 음의 선형관계인지 알 수 있다.
(단, 공분산의 크기가 크다 해서 선형관계가 강하다는 것은 아니며 이는 상관계수를 통해서 알 수 있다.)
• 양의 공분산: 두 변수가 함께 증가하거나 함께 감소하는 경향이 있는 경우
• 음의 공분산: 한 변수가 증가할 때 다른 변수가 감소하는 경향이 있는 경우
• 공분산이 0에 가까운 경우: 두 변수 간에 선형 관계가 거의 없는 경우
공분산의 수식은 아래와 같다.
(아래는 표본에 대한 공분산이고 표본인 경우 n-1, 모집단인 경우 N을 사용한다)
Cov ( X , Y ) = 1 n − 1 ∑ i = 1 n ( X i − X ˉ ) ( Y i − Y ˉ ) \text{Cov}(X, Y) = \frac{1}{n-1} \sum_{i=1}^{n} (X_i - \bar{X})(Y_i - \bar{Y}) Cov ( X , Y ) = n − 1 1 i = 1 ∑ n ( X i − X ˉ ) ( Y i − Y ˉ )
4. 상관계수
상관계수(Correlation Coefficient)는 두 변수 간의 선형 관계의 강도와 방향을 나타내는 통계량이며,
상관계수는 기호는 r r\, r 이고, − 1 ≤ r ≤ 1 -1 \leq r \leq 1 − 1 ≤ r ≤ 1 범위의 값을 가진다.
또한 상관계수의 값을 확인함으로써 아래의 의미를 파악할 수 있다.
• 1: 완벽한 양의 선형 관계 (한 변수가 증가할 때 다른 변수도 일정하게 증가)
• 0: 선형 관계가 없음 (두 변수 간에 선형적 관계가 존재하지 않음)
• -1: 완벽한 음의 선형 관계 (한 변수가 증가할 때 다른 변수는 일정하게 감소)
보통 상관계수는 피어슨 상관계수를 사용하며, 아래의 식을 통해서 계산할 수 있다.
r = 1 n − 1 ∑ i = 1 n ( x i − x ˉ s x ⋅ y i − y ˉ s y ) = Cov ( X , Y ) s x s y \begin{aligned} r \;&=\; \frac{1}{n-1}\sum_{i=1}^{n} \left(\frac{x_i-\bar{x}}{s_x} \;\cdot\; \frac{y_i-\bar{y}}{s_y} \right) \\\,\\ \;&=\; \frac{\text{Cov}(X,Y)}{s_x\;s_y} \end{aligned} r = n − 1 1 i = 1 ∑ n ( s x x i − x ˉ ⋅ s y y i − y ˉ ) = s x s y Cov ( X , Y )