[Data Analysis] 평균 추정과 신뢰구간

송아지·2024년 9월 27일

Data Analysis

목록 보기

6/10

1. 평균과 분산, 표준편차

한 집단을 설명하기 위해, 대푯값으로 평균을 계산했을 경우, 값들이 평균으로부터 얼마나 벗어나 있는지를 나타내는 값(이탈도)
$분산 = \frac{\sum (x-\bar{x})^2}{n}$
$표준편차 = \sqrt{\frac{\sum (x-\bar{x})^2}{n}}$

2. 모집단과 표본

전국 모든 학생의 평균 몸무게를 조사할 때 조사하는 방법은 두 가지
전수조사
- 전체(모집단)조사
- 장점 : 정확함
- 단점 : 시간과 비용이 많이 들어감
표본조사
- 추출 방식 : 많은 수, 무작위
- 장점 : 적절한 비용과 시간
- 단점 : 오차 존재
표본 평균을 이용하여 모평균 추정
- 추정치에 오차 존재 -> 표준오차(SE)
- 표본 평균 $\bar{X}$ -> 모평균( $\mu$ )
- 표본 분산( $s^2$ ) -> 모분산(표준 편차)( $\sigma^2$ )

2-1. 중심극한정리(Central Limit Theorem)

표본평균들의 분포는 정규분포에 가까움
- 표본의 데이터 수가 30개 이상일 경우, 이 분포들의 평균은 모평균의 근사
- 표본의 크기(n)이 증가할수록 정규분포 모양이 중심(Central)에 가까워지는(Limit) 좁은 형태가 됨.

2-2. 표준오차(Standard Error, SE)

$\mu$ 와 $\bar{X}$ 의 차이
$\bar{X}$ 분포의 표준편차 -> 표준오차
표준 오차 = $\frac{s}{\sqrt{n}}$

2-3. 신뢰구간

표준오차를 바탕으로 95% 의 신뢰구간을 구할 수 있음
$\bar{X} - 1.96 \times SE \sim \bar{X} + 1.96 \times SE ~$
95% 신뢰구간의 의미
- 신뢰구간 내에 모평균이 포함될 확률 95%
- 표본을 100번 정도 뽑으면 95번 정도는 95% 신뢰구간 안에 모평균을 포함

데이터 분석가&엔지니어를 희망하는 취준생

이전 포스트

[Data Analysis] 이변량분석-숫자->숫자

다음 포스트

[Data Analysis] 이변량분석-범주->숫자

0개의 댓글