모집단(population) : 분석 대상 전체 집합
표본(sample) : 모집단의 일부
전수조사 : 모집단 자료 전체 조사 및 분석하여 정보 추출(선거 투표)
표본조사 : 표본을 통해 모집단의 정보(평균, 표준편차 등)를 추정, 검정(여론조사)
최종 분석에는 전체 데이터를 사용하더라도, 분석 모델이 완성될 때까지는 표본 데이터를 활용하는 것이 경제적, 시간적으로 유리하다.
일반적으로 최소 200개 이상의 표본이 확보되면 분석 가능
통계적으로 변수 하나당 최소 30개의 관측치가 필요
(ex. 20개의 변수를 사용하는 예측 모델에선, 최소 600개의 표본 관측치를 가지고 테스트를 진행)
예측 및 분류 모델링 단계 : 먼저 적절한 표본을 추출해서 진행한 후, 전체 프로세스가 완성됐을 때 전체 데이터를 이용하여 최종 모델 성능을 확인하고 예측 및 분류하는 것이 좋다.
표본 조사를 통한 모집단의 크기 유추 방법
ex) 길고양이 100마리를 통한 모집단 수 추정 방법
만약 두 번째 포획에서 n이 10마리라면 총 길고양이(N)는 1,000마리라고 추정
- 표본 오차(sampling error) : 모집단과 표본의 자연 발생적인 변동
(1,000개의 모집단에서 999개의 표본이라 하더라도 평균과 분산은 약간의 차이가 난다.)
- 비표본 오차(non-sampling error) : 자연 발생적인 표본 오차를 제외한 변동
- 편향(bias) : 표본에서 나타나는 모집단과의 체계적인 차이. 비표본 오차.
표본 추출 과정에서 발생되는 편향
표본추출편향(sample selection bias) : 체계적인 경향이 개입되어 모집단에서 편향된 표본만 추출
ex) 루스벨트 대통령 선거 당시, 전화번호부를 통한 주소를 이용하여 여론조사 실시. 다만, 당시 전화 보급은 대중화 전으로, 전화기가 있는 부유한 가정 위주로 여론조사 표본이 이뤄졌고, 가난한 사람에게 인기 있는 루스벨트에게 불리한 예측 발생
가구편향(household bias) : 모집단의 부분 집단 단위에서 하나의 관측치씩 추출하는 경우, 크고 적은 집단이, 작고 많은 집단보다 적게 추출되는 경우
ex) 각 가구의 집 전화를 통해 여론조사를 실시할 경우, 가족구성원이 많은 가정의 사람이, 적은 가정의 사람보다 추출 확률이 줄어 전체적인 표본 균형이 맞지 않는다.
무응답편향(non-response bias) : 설문에 응답하지 않는 사람들과 응답하는 사람들 사이에 체계적인 차이가 있는 경우
ex) 지지 정당 설문의 경우, 시간적 여유에 의해 설문에 응하거나 응하지 않는 사람들 간에 지지하는 정당 차이가 있다면 표본에 편향 발생
응답편향(response bias) : 설문 형식의 문제, 응답자의 심리적 이슈에 의해 표본이 영향을 받는 경우
ex) 출구조사에서, 설문자의 사회적 시선 및 여론 분위기 때문에 답변에 일부러 거짓을 말하여 편향 발생(브래들리 효과)
표본 편향은 확률화(randomization) 등의 방법을 통해 해결 가능
- 확률화 : 모집단으로부터 편향이 발생하지 않는 표본을 추출하는 방법
- 확률표본(random sample) : 확률화를 통해 추출한 표본
모집단에서 표본이 추출될 확률이 동등한지 여부에 따라 확률추출과 비확률추출로 구분
추출된 표본을 다시 모집단에 되돌려 놓고 추출할지, 빼고 추출할지에 따라 복원추출과 비복원추출로 구분
모델 A
모델 B
1) 데이터 수집 단계에서 표본 추출
ex) 선거 여론조사를 위한 대상자 선정, 기업 시장조사를 위한 설문조사 표본
2) 보유하고 있는 대용량 데이터에서 표본 추출
ex) 기업이 가지고 있는 몇 천만 건의 고객 정보데이터, 웹 로그 데이터와 같은 빅데이터에서 분석 모델링을 위한 적절한 크기의 표본데이터 추출
데이터 수집 단계에서의 표본 추출
1) 모집단 확정(조사대상의 전체 집합을 구체적으로 정의)
↓
2) 표본 프레임 결정(모집단에 포함되는 조사 대상 목록 설정) ex. A회사 직원이 모집단이면, 인사 시스템의 임직원 목록
↓
3) 표본 추출방법 결정(확률표본추출과 비확률표본추출, 복원과 비복원 추출 중 방법 선택)
↓
4) 표본크기 결정(조사 유형, 시간, 예산 등을 고려하여 표본 크기 결정)
↓
5) 표본추출(선정된 조사 대상 추출)
보유하고 있는 대용량 데이터에서 표본 추출
모집단과 표본프레임이 이미 결정되어 있다.
모집단이 분석 목적에 맞게 세팅되어 있는지 확인. 아니면 표본추출은 의미가 없다.
거의 대부분의 경우 확률 표본추출방법 사용(모든 분석 대상이 무작위로 추출될 확률을 미리 알 수 있을 때)
따라서, 표본의 통계량을 통한 모집단 모수 추론이 가능. 편향을 최대한 제거할 수 있어 표본의 신뢰도가 높다.
데이터 수집 단계에서의 표본 추출 : 표본프레임 설정이 어려워 확률 표본추출방법을 사용할 수 없는 경우가 있다.
확률 표본추출방법으로는 단순 임의 추출방법, 계층적 표본추출방법, 층화 표본추출방법, 군집 표본추출방법 등이 있다.
■ 단순 임의 추출방법
■ 계층적 표본추출방법
■ 층화 표본추출방법
■ 군집 표본추출방법
■ 복원추출과 비복원추출
1) 복원추출법(sampling with replacement; SWR)
2) 비복원추출법(sampling withour replacement; SWOR)
추출하려는 표본의 양이 모집단에 비해 작으면 복원 및 비복원 추출에 차이는 거의 없다.
하지만, 모집단의 크기가 별로 크지 않거나 추출 표본이 20% 이상으로 많은 경우 복원추출 방식이 편향을 더 줄일 수 있다.
ex) 총 10개의 관측치가 들어있는 모집단에서 4개를 복원추출 할 경우, 순서표본의 개수
10 x 10 x 10 x 10 =
비복원추출을 할 경우,
10 x 9 x 8 x 7 = 10P4 = 5040