데이터분석의 대상 전체를 모집단이라고 한다. 예를 들어 한국인 남성의 키를 분석하고 싶다면, 한국인 남성 전부를 모집단으로 설정한다. 앞서 살펴본 예시 중 고혈압 환자를 대상으로 한 신약 연구에서는 신약 복용자가 포함된 모집단과 위약 복용자가 포함된 모집단 2개를 설정해야한다.
데이터분석의 설계 단계에서는 분석의 목적과 대상을 설정해야 한다. 그 중 분석 대상에 기초하여 모집단을 설정해야한다. 그런데 중요한 점은 분석에서 알고자 하는 대상이 전체라고 하더라도 관측이 불가능하다면 모집단으로 설정하지 말아야 한다는 것이다. 예를 들어 어떠한 이유로 20세 이하인 고혈압 환자 데이터는 구할 수 없다고 한다면, 모집단은 20세 이상 고혈압 환자로 설정하는 것이 맞다.
모집단은 설정하기에 따라 그 크기가 달라진다. 모집단의 크기란 모집단에 포함되는 요소(element) 수를 의미한다. 모집단의 크기에 따라 유한모집단과 무한모집단으로 나눌 수 있다.
유한모집단은 모집단에 한정된 요소만이 포함된 경우이다. 보통 유한모집단을 설정할 때에는 전수조사를 한다. 예를 들어 A반 40명과 B반 30명 학생들을 대상으로 한 연구에는 70명이 모집단이 된다.
다른 예로는 한국인 전체를 모집단으로 설정하는 것이 있다. 하지만, 인구수는 원칙적으로는 유한모집단이지만 전국민을 대상으로 어떤 것을 조사하는 것은 시간과 비용이 많이 들고, 시간이 지남에 따라 인구수는 계속해서 변하기 때문에(출생/사망) 엄밀히 이야기하면 인구는 유한모집단으로 설정하기 어렵다.
무한모집단은 모집단에 포함된 요소의 개수가 무한한 경우이다. 예를 들어 고혈압 환자를 대상으로 한 신약 연구에서, 약을 복용할 환자들은 미래에도 계속 있을 것이므로 무한모집단이다.
무한모집단은 원소가 무한하므로 모든 요소를 전부 조사하는 것이 불가능하다.(마치 위에서 예를 든 전체 인구를 모집단으로 설정하는 것과 같음)