본 글은 칸아카데미의 확률과 통계 에 대해서 공부하고 정리한 글입니다.
이전 글 에서 표본 통계량을 다루며,
현실적인 어려움으로 모수를 알 수 없으니 표본을 통해 모수를 추정하기 위한 것이 표본통계량이라고 말했다.
다만, 임의추출한 표본 은 모집단 이 아니기 때문에 표본통계량 도 모수 를 추정하는데에 오차가 발생하게 된다.
본문에서 다룰 신뢰구간과 오차범위는 이러한 오차를 설명하는 방법이다.
1. 신뢰구간
신뢰구간(Confidence Interval) 은,
우리가 구한 표본통계량이 특정 범위 이내에 모수를 포함할 확률(신뢰수준, Confidence Level) 을 통해
표본통계량이 가지는 오차의 정도를(=표본통계량의 표준편차) 설명하기 위해 사용된다.
신뢰구간 예시 및 해석의 올바른 예
야구에서 타구의 평균 속도에 대해 95 % 95\% 9 5 % 의 신뢰구간 ( 110 , 120 ) (110, 120) ( 1 1 0 , 1 2 0 ) 을 만들었습니다.
✅ 모평균이 95% 확률로 신뢰구간 이내에 존재한다.
❎ 다른 표본의 평균도 95% 확률로 해당 신뢰구간 이내에 존재한다.
❎ 표본의 95%도 신뢰구간 이내에 존재한다.
1-1. 신뢰구간 계산
신뢰구간은 다음과 같은 식을 사용하여 계산된다.
아래에서 Statistic \text{Statistic} Statistic = 표본통계량, Critical Value \text{Critical Value} Critical Value = 임계값, σ Statistic = SE \sigma_{_{\text{Statistic}}}=\;\text{SE} σ Statistic = SE 를 의미한다.
신뢰구간 = Statistic ± Critical Value ( z ∗ or t ∗ ) × σ Statistic \begin{aligned} \text{신뢰구간} \;&=\; \text{Statistic} \;\pm\; \text{Critical Value}(z^* \;\text{or}\; t^*) \;\times\; \sigma_{_{\text{Statistic}}} \end{aligned} 신뢰구간 = Statistic ± Critical Value ( z ∗ or t ∗ ) × σ Statistic
표본통계량 글에서 기술했듯이,
표본통계량의 종류에 따라 표준오차 SE를 구하는 공식이 다르기 때문에 아래와 같이 구할 수 있다.
1️⃣ 모비율의 신뢰구간
아래 수식에서 p p p = 모비율, p ^ \hat p p ^ = 표본비율 이다. ( p ≈ p ^ ) (p \approx \hat p) ( p ≈ p ^ )
신뢰구간 = p ^ ± z ∗ × p ( 1 − p ) n \begin{aligned} \text{신뢰구간} \;&=\; \hat p \pm z^* \times \sqrt{\frac{p(1-p)}{n}} \end{aligned} 신뢰구간 = p ^ ± z ∗ × n p ( 1 − p )
2️⃣ 모평균의 신뢰구간
아래 수식에서 σ \sigma σ = 모표준편차, S S S = 표본표준편차 이다.
신뢰구간 = x ˉ ± z ∗ × σ n … 모표준편차를 아는 경우 = x ˉ ± z ∗ × S n … 모표준편차를 모르는 경우 ( n ≥ 30 ) = x ˉ ± t ∗ × S n … 모표준편차를 모르는 경우 ( n < 30 ) \begin{aligned} \text{신뢰구간} \;&=\; \bar{x} \pm z^* \times \frac{\sigma}{\sqrt{n}} \quad \dots \quad \text{모표준편차를 아는 경우} \\\,\\ \;&=\; \bar{x} \pm z^* \times \frac{S}{\sqrt{n}} \quad \dots \quad \text{모표준편차를 모르는 경우} \; (n \ge 30) \\\,\\ \;&=\; \bar{x} \pm t^* \times \frac{S}{\sqrt{n}} \quad \dots \quad \text{모표준편차를 모르는 경우} \; (n \lt 30) \end{aligned} 신뢰구간 = x ˉ ± z ∗ × n σ … 모표준편차를 아는 경우 = x ˉ ± z ∗ × n S … 모표준편차를 모르는 경우 ( n ≥ 3 0 ) = x ˉ ± t ∗ × n S … 모표준편차를 모르는 경우 ( n < 3 0 )
만약 모표준편차를 모르는 경우, 표본표준편차를 통해 모수를 추정하고 대체하여 사용할 수 있으며,
이때 표본의 크기에 따라 임계값은 t 통계량을 사용해야한다. (이 부분은 마지막 챕터에서 다루겠다.)
🧠 신뢰구간과 표본크기
위의 식에서 알 수 있듯이, 신뢰구간은 표본크기와 반비례한다.
모비율 / 모표준편차는 우리가 알 수 없거나 이미 정해져있는 값이기 때문에
신뢰구간을 좁히고 싶다면 표본의 크기를 늘리는 방법 을 고려해볼 수 있다.
1-2. 신뢰구간 예제
표본의 크기는 100일때 표본평균은 50이고 모표준편차가 10인 경우, 95% 신뢰구간을 계산해보자.
각각 기호로 나타내면 아래와 같고,
x ˉ = 50 , n = 100 , σ = 10 , z ∗ = 1.96 \bar{x} = 50 \;,\; n=100 \;,\; \sigma=10 \;,\; z^*=1.96 x ˉ = 5 0 , n = 1 0 0 , σ = 1 0 , z ∗ = 1 . 9 6
신뢰구간은 다음과 같이 구할 수 있다.
신뢰구간 = 50 ± 1.96 × 10 100 = 50 ± 1.96 × 1 = 50 ± 1.96 \text{신뢰구간} \;=\; 50 \pm 1.96 \times \frac{10}{\sqrt{100}} \;=\; 50 \pm 1.96 \times 1 \;=\; 50 \pm 1.96 신뢰구간 = 5 0 ± 1 . 9 6 × 1 0 0 1 0 = 5 0 ± 1 . 9 6 × 1 = 5 0 ± 1 . 9 6
따라서 신뢰구간은 [ 48.04 , 51.96 ] \;[48.04,\; 51.96]\; [ 4 8 . 0 4 , 5 1 . 9 6 ] 이다.
2. 오차범위
신뢰구간과 오차범위는 의미만 조금 다를 뿐, 같은 수식을 통해서 구하기 때문에
신뢰구간에서 언급한 내용이나, 오차범위에서 언급한 내용은 모두에게 적용됨을 참고하길 바란다.
위에서 말한 신뢰수준/신뢰구간을 신뢰수준/오차범위로 표현할 수도 있다.
신뢰수준 / 신뢰구간 : 95% 확률로 (33%, 53%) 구간 이내에 모수가 존재한다.
신뢰수준 / 오차범위 : 95% 확률로 10% 오차범위 이내에서 43%가 모수이다.
같은 방법을 통해 구해진 같은 값을 가지고, 표현을 다르게 할 뿐 결국 의미는 동일하다.
🧠 오차범위와 표본크기
만약 우리가 신뢰수준 95%에 오차범위를 ±2% 이내로 하고 싶다고 가정해보자.
이때 우리는 오차범위를 ±2% 이내로 하기 위한 최소 표본 크기를 구할 수 있다.
오차범위은 아래의 식을 통해 구할 수 있고,
신뢰수준이 95%로 정해져있기 때문에 임계값(z ∗ z^* z ∗ ) = 1.96이다.
오차범위 2 % ≥ z ∗ × p ( 1 − p ) n ⋯ 1.96 × p ( 1 − p ) n 2 196 = 1 98 ≥ p ( 1 − p ) n \begin{aligned} \text{오차범위} \;\;2\% \;&\geq\; z^* \times \sqrt{\frac{p(1-p)}{n}} \quad\cdots\quad 1.96 \times \sqrt{\frac{p(1-p)}{n}} \\\;\\ \frac{2}{196} = \frac{1}{98}\;&\geq\; \sqrt{\frac{p(1-p)}{n}} \end{aligned} 오차범위 2 % 1 9 6 2 = 9 8 1 ≥ z ∗ × n p ( 1 − p ) ⋯ 1 . 9 6 × n p ( 1 − p ) ≥ n p ( 1 − p )
최소 표본 크기를 구하기 위해서, 모비율 p p p 로 이루어진 분모가 최댓값이라고 가정하자.
이때의 모비율 p = 0.5 p\;=\;0.5 p = 0 . 5 이다.
1 98 ≥ 0.5 ( 1 − 0.5 ) n = 0.25 n 1 9 8 2 ≥ 0.25 n 4 9 8 2 = 1 2401 ≥ 1 n 2401 ≤ n \begin{aligned} \frac{1}{98}\;&\geq\; \sqrt{\frac{0.5(1-0.5)}{n}} \;=\; \sqrt{\frac{0.25}{n}} \\\;\\ \frac{1}{98^2}\;&\geq\;\frac{0.25}{n} \\\;\\ \frac{4}{98^2} \;=\; \frac{1}{2401} \;&\geq\;\frac{1}{n} \\\;\\ 2401 \;&\leq\;n \end{aligned} 9 8 1 9 8 2 1 9 8 2 4 = 2 4 0 1 1 2 4 0 1 ≥ n 0 . 5 ( 1 − 0 . 5 ) = n 0 . 2 5 ≥ n 0 . 2 5 ≥ n 1 ≤ n
즉, 신뢰수준 95%에서 오차범위 2% 이내가 되려면 최소 표본 크기는 2401 개 임을 알 수 있다.
3. 신뢰구간의 조건
위와 같이 구해진 신뢰구간이 유효하기 위해서는 다음 3가지 조건을 만족해야한다.
1️⃣ 임의성 : 표본은 임의추출 혹은 무작위 실험으로부터 구해져야 한다.
2️⃣ 일반성 : 표본 분포가 정규 분포 형태를 따라야 한다.
- 모비율의 신뢰구간 추정 시, 모집단이 정규 분포이거나 표본이 각각 10개 이상
- 모평균의 신뢰구간 추정, 모집단이 정규 분포이거나 표본 크기 n n n 이 30 이상
(단, 표본 크기 n n n 이 30 미만인 경우는 임계값 t ∗ t^* t ∗ 를 사용함으로써 일반성 만족할 수 있음)
3️⃣ 독립성 : 모든 관측값은 독립이어야 하며, 비복원추출이라면 표본 크기가 모집단의 10% 이내어야 한다.
4. t-통계량을 이용한 신뢰구간 추정
위에서 다뤘던 신뢰구간의 공식을 다시 살펴보자.
모평균을 추정하기 위해 신뢰구간을 계산하는데, 이때 모표준편차가 사용된다.
실제로 모평균을 모르는데 모표준편차는 알고 있는 상황이 없기 때문에 표본표준편차를 대신 사용한다.
신뢰구간 = x ˉ ± z ∗ × σ n ≈ x ˉ ± z ∗ × S n \begin{aligned} \text{신뢰구간} \;&=\; \bar{x} \pm z^* \times \frac{\sigma}{\sqrt{n}} \;\approx\; \bar{x} \pm z^* \times \frac{S}{\sqrt{n}} \end{aligned} 신뢰구간 = x ˉ ± z ∗ × n σ ≈ x ˉ ± z ∗ × n S
다만 위와 같이 표본표준편차와 임계값 z ∗ z^* z ∗ 를 사용하여 신뢰구간을 계산하면,
실제 신뢰구간보다 과소평가되어 계산되는 경우가 발생한다.
이를 방지 하기 위해 임계값 z ∗ z^* z ∗ 대신 아래와 같이 임계값 t ∗ t^* t ∗ 를 사용한다.
신뢰구간 = x ˉ ± t ∗ × S n ⋯ (모표준편차를 모르는 경우) \begin{aligned} \text{신뢰구간} \;&=\; \bar{x} \pm t^* \times \frac{S}{\sqrt{n}} \quad \cdots \quad \text{(모표준편차를 모르는 경우)} \end{aligned} 신뢰구간 = x ˉ ± t ∗ × n S ⋯ ( 모표준편차를 모르는 경우 )
t-통계량의 경우 자유도의 개념이 추가 되는데,
표본집단의 표준편차 를 구할 때 n이 아닌 n-1로 나누는 것과 같이 t-통계량에서의 자유도 또한 n-1 이다.