[Data Analysis] 평균 추정과 신뢰구간

송아지·2024년 9월 27일

Data Analysis

목록 보기
6/10

1. 평균과 분산, 표준편차

  • 한 집단을 설명하기 위해, 대푯값으로 평균을 계산했을 경우, 값들이 평균으로부터 얼마나 벗어나 있는지를 나타내는 값(이탈도)
    분산=(xxˉ)2n분산 = \frac{\sum (x-\bar{x})^2}{n}
    표준편차=(xxˉ)2n표준편차 = \sqrt{\frac{\sum (x-\bar{x})^2}{n}}

2. 모집단과 표본

  • 전국 모든 학생의 평균 몸무게를 조사할 때 조사하는 방법은 두 가지
  • 전수조사
    • 전체(모집단)조사
    • 장점 : 정확함
    • 단점 : 시간과 비용이 많이 들어감
  • 표본조사
    • 추출 방식 : 많은 수, 무작위
    • 장점 : 적절한 비용과 시간
    • 단점 : 오차 존재
  • 표본 평균을 이용하여 모평균 추정
    • 추정치에 오차 존재 -> 표준오차(SE)
    • 표본 평균Xˉ\bar{X} -> 모평균(μ\mu)
    • 표본 분산(s2s^2) -> 모분산(표준 편차)(σ2\sigma^2)

2-1. 중심극한정리(Central Limit Theorem)

  • 표본평균들의 분포는 정규분포에 가까움
    • 표본의 데이터 수가 30개 이상일 경우, 이 분포들의 평균은 모평균의 근사
    • 표본의 크기(n)이 증가할수록 정규분포 모양이 중심(Central)에 가까워지는(Limit) 좁은 형태가 됨.

2-2. 표준오차(Standard Error, SE)

  • μ\muXˉ\bar{X}의 차이
  • Xˉ\bar{X} 분포의 표준편차 -> 표준오차
    표준 오차 = sn\frac{s}{\sqrt{n}}

2-3. 신뢰구간

  • 표준오차를 바탕으로 95% 의 신뢰구간을 구할 수 있음
    Xˉ1.96×SEXˉ+1.96×SE \bar{X} - 1.96 \times SE \sim \bar{X} + 1.96 \times SE ~
  • 95% 신뢰구간의 의미
    • 신뢰구간 내에 모평균이 포함될 확률 95%
    • 표본을 100번 정도 뽑으면 95번 정도는 95% 신뢰구간 안에 모평균을 포함
profile
데이터 분석가&엔지니어를 희망하는 취준생

0개의 댓글