본 글을 이화여자대학교 송종우 교수님의 러닝패킷: 통계의 기초 강의를 정리한 것입니다.
러닝패킷: 통계의 기초
1) 모집단 (population)
어떤 연구에서 실제 관심 있는 집단, 전체를 연구하기 어려움
예) 모든 인간, 전국의 모든 근로자, 전국의 모든 유권자 등
2) 표본 (sample)
모집단의 일부분, 실제로 연구자가 자료를 수집하여 연구하는 부분
표본추출이 잘 되어야 연구전체가 의미 있어진다.
3) 모수 (parameter)
모집단의 특성을 나타내는 숫자
미지의 고정된 상수
예) 만 20세 성인 남자의 '평균키'
평균키는 알 수 없지만, 랜덤한 값이 아니다.
4) 통계량 (statistics)
표본의 특성을 나타내는 숫자
표본에 따라 다른 값을 갖는 확률변수
모수를 추정하는데 사용
1) 통계량의 표본분포
확률변수인 통계량의 확률분포
모집단에서 표본의 크기가 n(정해진 숫자)인 모든 표본이 뽑혔다고 가정할때, 각 표본에서 계산된 통계량이 가지는 값들의 분포
이론적인 분포, 실제 관측하는 분포가 아니다.
2) 표본평균 (X - bar) 의 분포
평균이 m이고 표준편차가 s인 모집단에서 표본크기 n인 표본을 많이 추출했다고 가정
이 때, 어떤 표본에서의 평균은 m보다 크고, 어떤 표본에서의 평균은 m보다 작아지면서 표본분포가 생성될것이다.
3) 표본 평균의 평균
m
표본 평균의 평균은 모집단의 평균과 같다.
4) 표본 평균의 표준편차
s / 루트 n
표본 평균의 표준편차는 모집단의 표준편차보다 작으며
표본의 크기가 증가함에 따라 1/루트n의 비율로 줄어든다.
1) 그래프
표본 평균의 표본 분포는 정규분포를 따른다.
평균은 같다. 하지만, 표준편차는 더 작다.
2) 예시
정리
s / 루트 n
사용한다.모집단의 분포가 무엇이든지 상관없이 표본 평균의 분포는 근사적으로 정규분포를 따른다.
예)
필요한 표본의 크기는 모집단의 형태에 따라 다르다.
모집단이 정규분포와 많이 다를 수록 표본의 크기는 더 많이 필요하다.
n = 25 ~ 40 이면 적당하다.