[Data Analysis] 평균 추정과 신뢰구간
1. 평균과 분산, 표준편차
- 한 집단을 설명하기 위해, 대푯값으로 평균을 계산했을 경우, 값들이 평균으로부터 얼마나 벗어나 있는지를 나타내는 값(이탈도)
분산=n∑(x−xˉ)2
표준편차=n∑(x−xˉ)2
2. 모집단과 표본
- 전국 모든 학생의 평균 몸무게를 조사할 때 조사하는 방법은 두 가지
- 전수조사
- 전체(모집단)조사
- 장점 : 정확함
- 단점 : 시간과 비용이 많이 들어감
- 표본조사
- 추출 방식 : 많은 수, 무작위
- 장점 : 적절한 비용과 시간
- 단점 : 오차 존재
- 표본 평균을 이용하여 모평균 추정
- 추정치에 오차 존재 -> 표준오차(SE)
- 표본 평균Xˉ -> 모평균(μ)
- 표본 분산(s2) -> 모분산(표준 편차)(σ2)
2-1. 중심극한정리(Central Limit Theorem)
- 표본평균들의 분포는 정규분포에 가까움
- 표본의 데이터 수가 30개 이상일 경우, 이 분포들의 평균은 모평균의 근사
- 표본의 크기(n)이 증가할수록 정규분포 모양이 중심(Central)에 가까워지는(Limit) 좁은 형태가 됨.
2-2. 표준오차(Standard Error, SE)
- μ와 Xˉ의 차이
- Xˉ 분포의 표준편차 -> 표준오차
표준 오차 = ns
2-3. 신뢰구간
- 표준오차를 바탕으로 95% 의 신뢰구간을 구할 수 있음
Xˉ−1.96×SE∼Xˉ+1.96×SE
- 95% 신뢰구간의 의미
- 신뢰구간 내에 모평균이 포함될 확률 95%
- 표본을 100번 정도 뽑으면 95번 정도는 95% 신뢰구간 안에 모평균을 포함