통계 뿌시기 - 헷갈리는 개념 (중심극한정리, 표본/표준오차)

수수수수퍼노인·2025년 9월 17일

TIL 내일배움캠프

통계 뿌시기

목록 보기

6/11

" 중심극한정리 "

중심극한정리

모집단에서 표본을 추출하여 평균을 구하는 과정을 반복하다보면, 표본의 크기가 충분히 클 때 표본평균들의 분포는 정규분포에 가까워짐

중요성

모집단의 분포와 상관없이 모집단의 평균에 대한 추론이 가능

유의할 점

표본 ≉ 정규분포, 표본평균들 ≈ 정규분포

필수 조건

표본들이 서로 독립이어야 함
모집단의 평균과 분산이 유한해야 함
표본 크기가 충분히 커야 함

예시

주사위 던지기
- 주사위 1개 : 1,2,3,4,5,6 균등하게 나옴 → 정규분포 아님
- 주사위 30개 : 대부분 3~4에 몰림 → 정규분포에 가까움
- 주사위 100개 : 거의 항상 3~5 근처 → 더욱 정규분포에 가까움

오해할 만한 사항

오해 1: 표본이 정규분포를 따른다
- 표본은 그대로, 표본평균의 분포가 정규분포를 따름
오해 2: 많이 반복하면 정규분포가 된다
- 표본의 크기가 클수록 정규분포에 가까워짐
- 반복 횟수는 분포 모양에 영향을 주지 않음
오해 3: 표본의 모든 통계량이 정규분포를 따른다
- 표본의 평균 또는 합계에만 적용됨
오해 4: 표본의 크기가 30개면 무조건 충분하다
- 30은 경험적 기준일 뿐, 개별 데이터의 분포에 따라 충분한 표본의 크기는 달라짐
  - 대칭 분포 : 2~30개도 충분히 큼
  - 심하게 치우친 분포 : 100개 이상 필요
  - 이상치가 많은 분포 : 수백 개 필요할 수도 있음

활용

신뢰구간 계산, 가설검정 등

" 표본오차와 표준오차 "

표본오차(Sampling Error)

특정 표본의 통계량과 모집단의 모수 간의 실제 차이

예시

모집단 평균 키 : 170cm
표본 평균 키 : 168cm
표본 오차 : -2cm

특징

모집단의 모수를 알아야만 계산 가능 (현실적으로 불가능)
표본마다 다른 값을 가짐
우연에 의해 발생하는 실제 오차

표준오차(Standard Error, SE)

표본 통계량(주로 표본평균)들의 모평균에 대한 표준편차

동일한 크기의 표본을 무한히 추출했을 때, 그 표본평균들이 얼마나 퍼져있는지를 나타냄

계산방법

문제 : 실제로는 표본을 한 번만 뽑기 때문에 일일히 계산 불가능
해결 : 중심극한정리에 의해 증명된 공식 사용
- SE = σ/√n (σ: 모집단 표준편차, n: 표본 크기)
- SE = s/√n (s: 표본 표준편차, n: 표본 크기)
  - 모집단의 표준편차를 모를 때
계산식
- 독립인 이유 : 표본이 무작위랜덤추출이기 때문

활용 (신뢰구간 계산)

1,000명의 학생 중 100명의 표본 조사
- 표본 평균 : 73점
- 표본 표준편차 : 10점
- 표준 오차 = 10/√100 = 1점
해석
- 만약 100명씩 여러 번 추출한다면, 그 평균들의 표준편차가 약 1점
- 95% 신뢰구간 : 73 ± Z * SE = 73 ± Z = 약 71~75점
- 실제 모집단 평균이 71~75점 구간에 있을 확률이 95%

표본 오차와 표준 오차의 핵심 차이점

표본 오차는 실제 발생한 오차
- 표준 오차는 오차의 기대되는 변동성
표본 오차의 값은 표본마다 다름
- 표준 오차의 값은 표본의 개수가 동일하면 고정된 값
표본 오차를 구하기 위해서는 모집단의 모수가 필요
- 표준 오차는 표본만으로 추정 가능
표본 오차는 실제 통계에서 활용되지 않음 (모수를 알아야만 구할 수 있기 때문)
- 표준 오차는 신뢰구간, 가설검정 등에 활용됨

요약

표본 오차 : "이번에 뽑은 표본이 실제와 얼마나 빗나갔나"
표준 오차 : "표본을 여러 번 뽑는다면 평균적으로 얼마나 빗나갈 것으로 예상되는가"

수수수수퍼노인

화이팅구리

이전 포스트

통계 뿌시기 - 상관관계

다음 포스트

통계 뿌시기 - 라이브세션 1

1개의 댓글

april846300

2025년 9월 17일

형광펜이 다시 또 늘었다..!

답글 달기