모집단은 데이터분석의 대상 전체를 가르킨다. 따라서 모집단의 성질을 알 수 있다면 분석 대상을 이해와 설명할 수 있고 예측도 가능하다. 모집단의 성질에는 모평균, 모분산 등이 있고 이를 통틀어 모수라고 한다.
모수를 알기 위해서는 어떤 과정을 거쳐야 할까?
모수를 파악하는 방법으로 전수조사가 있다. 모집단의 크기가 유한할 때 선택할 수 있는 방법이다. 전수조사는 모든 대상을 측정하므로 '분석할 데이터 = 모집단'이다. 따라서 관측한 데이터를 요약하기만 해도 모수를 알 수 있는 것이다.
그런데 전수조사는 현실적인 어려움이 많이 따른다. 왜냐하면 전수조사에는 비용과 시간이 매우 많이 들기 때문이다. 보통 분석 대상이 되는 모집단은 그 크기가 유한하다고 하더라도 요소의 수가 매우 많아 전수조사를 하기란 쉽지 않다. 더욱이 무한모집단이라면 전수조사는 불가능하다.
위와같이 전수조사는 현실적인 어려움이 따른다. 그래서 모수를 추정하는 데에 사용되는 또 다른 방법으로는 표본조사가 있다. 표본조사는 모집단의 일부(=표본)을 분석하여 모집단 전체 성질을 추론하는 추론통계가 사용된다. 표본조사의 주요 용어는 아래와 같다.
현실에서 표본조사가 사용되는 예시로는 선거 출구조사, 시청률 등이 있다.
모집단에서 추출한 표본의 요소 개수는 유한하다. 표본크기란 표본에 포함되는 요소의 개수를 의미하고 보통 으로 표기한다.
이와 더불어 '샘플 수'는 추출된 표본의 개수이다.
예를 들어 10대 30명, 20대 30명을 뽑았다면 각각 표본크기는 30이고, 샘플 수는 2이다.
표본의 크기는 모집단의 성질을 추정할 때 확실성이나 가설검정의 결과에 영향을 미친다.