모집단과 표본추출

최진호·2023년 4월 16일
0

2.1 모집단과 표본, 전수조사와 표본조사

모집단(population) : 분석 대상 전체 집합
표본(sample) : 모집단의 일부

전수조사 : 모집단 자료 전체 조사 및 분석하여 정보 추출(선거 투표)
표본조사 : 표본을 통해 모집단의 정보(평균, 표준편차 등)를 추정, 검정(여론조사)

2.2 표본조사 이유와 데이터과학 적용 방법

  • 최종 분석에는 전체 데이터를 사용하더라도, 분석 모델이 완성될 때까지는 표본 데이터를 활용하는 것이 경제적, 시간적으로 유리하다.

  • 일반적으로 최소 200개 이상의 표본이 확보되면 분석 가능

  • 통계적으로 변수 하나당 최소 30개의 관측치가 필요
    (ex. 20개의 변수를 사용하는 예측 모델에선, 최소 600개의 표본 관측치를 가지고 테스트를 진행)

  • 예측 및 분류 모델링 단계 : 먼저 적절한 표본을 추출해서 진행한 후, 전체 프로세스가 완성됐을 때 전체 데이터를 이용하여 최종 모델 성능을 확인하고 예측 및 분류하는 것이 좋다.

  • 모집단에 대한 정확한 파악이 불가능하거나, 자동차 충격 테스트와 같은 파괴적인 조사를 할 경우에도 표본조사가 필요하다.

표본 조사를 통한 모집단의 크기 유추 방법
ex) 길고양이 100마리를 통한 모집단 수 추정 방법

  • 왼쪽 : 전체 모집단(N) 중에서 첫 포획 후 표식을 남긴 100마리 길고양이
  • 오른쪽 : 두 번째로 포획한 100마리 길고양이 중 표식이 있는 길고양이(n)

만약 두 번째 포획에서 n이 10마리라면 총 길고양이(N)는 1,000마리라고 추정

  • 이러한 관찰법을 포획-재포획(capture-recapture) 또는 관찰-재관찰(sight-resight) 법이라 한다.

2.3 편향의 종류

  • 표본 오차(sampling error) : 모집단과 표본의 자연 발생적인 변동
    (1,000개의 모집단에서 999개의 표본이라 하더라도 평균과 분산은 약간의 차이가 난다.)
  • 비표본 오차(non-sampling error) : 자연 발생적인 표본 오차를 제외한 변동

  • 편향(bias) : 표본에서 나타나는 모집단과의 체계적인 차이. 비표본 오차.

표본 추출 과정에서 발생되는 편향

  • 표본추출편향(sample selection bias) : 체계적인 경향이 개입되어 모집단에서 편향된 표본만 추출
    ex) 루스벨트 대통령 선거 당시, 전화번호부를 통한 주소를 이용하여 여론조사 실시. 다만, 당시 전화 보급은 대중화 전으로, 전화기가 있는 부유한 가정 위주로 여론조사 표본이 이뤄졌고, 가난한 사람에게 인기 있는 루스벨트에게 불리한 예측 발생

  • 가구편향(household bias) : 모집단의 부분 집단 단위에서 하나의 관측치씩 추출하는 경우, 크고 적은 집단이, 작고 많은 집단보다 적게 추출되는 경우
    ex) 각 가구의 집 전화를 통해 여론조사를 실시할 경우, 가족구성원이 많은 가정의 사람이, 적은 가정의 사람보다 추출 확률이 줄어 전체적인 표본 균형이 맞지 않는다.

  • 무응답편향(non-response bias) : 설문에 응답하지 않는 사람들과 응답하는 사람들 사이에 체계적인 차이가 있는 경우
    ex) 지지 정당 설문의 경우, 시간적 여유에 의해 설문에 응하거나 응하지 않는 사람들 간에 지지하는 정당 차이가 있다면 표본에 편향 발생

  • 응답편향(response bias) : 설문 형식의 문제, 응답자의 심리적 이슈에 의해 표본이 영향을 받는 경우
    ex) 출구조사에서, 설문자의 사회적 시선 및 여론 분위기 때문에 답변에 일부러 거짓을 말하여 편향 발생(브래들리 효과)

표본 편향은 확률화(randomization) 등의 방법을 통해 해결 가능

  • 확률화 : 모집단으로부터 편향이 발생하지 않는 표본을 추출하는 방법
  • 확률표본(random sample) : 확률화를 통해 추출한 표본
  • 모집단에서 표본이 추출될 확률이 동등한지 여부에 따라 확률추출과 비확률추출로 구분

  • 추출된 표본을 다시 모집단에 되돌려 놓고 추출할지, 빼고 추출할지에 따라 복원추출과 비복원추출로 구분

2.4 인지적 편향 종류

  • 인지적 편향 : 분석가의 성향이나 상황에 따라 비논리적인 추론을 내리는 패턴

2.4.1 확증 편향(confirmation bias)

  • 자신이 믿고 있는 대로 정보를 선택적으로 받아들이고 임의로 판단하는 편향
  • 데이터 마사지 : 데이터의 통계량은 조건에 따라 다양하게 나오기에, 자신의 판단에 대한 확신을 더해주는 방향으로만 데이터 조정
  • 가설에 유리한 방향으로 정보 수집, 해석은 명백한 오류이며 분석의 신뢰성을 떨어뜨린다.
  • 두 명 이상의 분석가가 크로스 체크, 블라인드 분석 수행

2.4.2 기준점 편향(anchoring bias)

  • 처음 접하는 정보에 지나치게 매몰되는 편향
  • 다른 분석 결과를 무시하거나 과소평가
  • 생각의 틀을 만들어, 합리적인 결정 방해

2.4.3 선택 지원 편향(choice-supportive-bias)

  • 의사결정을 내리는 순간 선택의 긍정적인 부분에 대해 생각하고, 반대되는 증거를 무시하는 편향
  • 확증편향과 유사한 개념
  • 확증편향 : 기존의 상식과 고정관념으로 정보과 근거를 선택적으로 수용
  • 선택 지원 편향 : 정보를 통해 의사결정이 이루어진 순간부터 편향성

2.4.4 분모 편향(denominator bias)

  • 분자에만 집중하여 현황을 왜곡하여 판단하는 편향
    ex) 전체 인구 분모를 고려하면, 2차 세계대전이 아닌, 안록산의 난이 가장 많은 사상자를 발생시킨 것으로 드러난다.

  • 비율도 분모 편향 영향을 받는다.
    ex) 1990년대 평균 예금 금리 10% 안팎, 2010년대 금리 2.5%.
    1990년대가 훨씬 좋아보이지만, 1990년대 물가상승률은 6%, 2010년대 물가상승률은 0.5%.

2.4.5 생존자 편향(survivorship bias)

  • 선택 과정을 통해 필터링된 일부의 정보만으로 잘못된 판단을 내리는 편향
    ex) 2차 세계대전 당시, 전장에서 돌아온 전투기들의 총탄 자국을 분석하여 보강. 날개와 꼬리 부분에 외상이 많아 보강하려고 하였으나, 조종석과 엔진 부분이 치명적이라서 전투기들이 귀환하지 못했기에 그 부분을 보완.

2.5 머신러닝 모델의 편향과 분산

  • 편향 : 예측값이 정답과 일정하게 차이나는 정도
  • 분산 : 주어진 데이터 포인트(ex.평균)에 대한 모델 예측의 가변성

모델 A

  • 정답과 예측값과의 차이가 크다(편향이 크다)
  • 예측값이 일정한 패턴을 나타낸다(예측값의 변동성이 적다. 분산이 작다)

모델 B

  • 정답과 예측값이 완벽히 일치한다(편향이 매우 작다)
  • 예측값이 들쑥날쑥하여 다른 정답 값이 주어지면 모델 A보다 예측값과의 차이가 더 커질 수도 있다(분산이 크다)

  • 편향과 분산은 트레이드오프 관계
  • 모델의 복잡도가 상승할수록, 편향 ↓, 분산 ↑

2.6 표본 편향을 최소화하기 위한 표본 추출 방법

  • 실제 데이터 분석 업무에서 표본추출은 자주 수행하는 작업

1) 데이터 수집 단계에서 표본 추출
ex) 선거 여론조사를 위한 대상자 선정, 기업 시장조사를 위한 설문조사 표본

2) 보유하고 있는 대용량 데이터에서 표본 추출
ex) 기업이 가지고 있는 몇 천만 건의 고객 정보데이터, 웹 로그 데이터와 같은 빅데이터에서 분석 모델링을 위한 적절한 크기의 표본데이터 추출

  • 기업의 데이터 분석 실무에서는 두 번째 상황의 표본추출이 더 많다.

데이터 수집 단계에서의 표본 추출
1) 모집단 확정(조사대상의 전체 집합을 구체적으로 정의)

2) 표본 프레임 결정(모집단에 포함되는 조사 대상 목록 설정) ex. A회사 직원이 모집단이면, 인사 시스템의 임직원 목록

3) 표본 추출방법 결정(확률표본추출과 비확률표본추출, 복원과 비복원 추출 중 방법 선택)

4) 표본크기 결정(조사 유형, 시간, 예산 등을 고려하여 표본 크기 결정)

5) 표본추출(선정된 조사 대상 추출)


보유하고 있는 대용량 데이터에서 표본 추출

  • 모집단과 표본프레임이 이미 결정되어 있다.

  • 모집단이 분석 목적에 맞게 세팅되어 있는지 확인. 아니면 표본추출은 의미가 없다.

  • 거의 대부분의 경우 확률 표본추출방법 사용(모든 분석 대상이 무작위로 추출될 확률을 미리 알 수 있을 때)
    따라서, 표본의 통계량을 통한 모집단 모수 추론이 가능. 편향을 최대한 제거할 수 있어 표본의 신뢰도가 높다.

  • 데이터 수집 단계에서의 표본 추출 : 표본프레임 설정이 어려워 확률 표본추출방법을 사용할 수 없는 경우가 있다.

  • 확률 표본추출방법으로는 단순 임의 추출방법, 계층적 표본추출방법, 층화 표본추출방법, 군집 표본추출방법 등이 있다.

단순 임의 추출방법

  • 제비뽑기, 로또 당첨 번호.
  • 모집단의 모든 구성단위가 표본으로 선정될 확률이 동일.
  • 모집단에 대한 사전지식이 없을 때 유용
  • 가장 쉽고 빠르기 때문에 일반적으로 사용

계층적 표본추출방법

  • 모든 구성단위에 일련번호를 부여한 뒤, 일정한 간격으로 표본을 선택하는 방법
  • 1,000개의 모집단에서 100개의 표본을 추출하는 경우, 10번, 20번, 30번...을 추출
  • 모집단 전체에 걸쳐 등간격으로 공평하게 표본 추출
  • 모집단 배열에 일정한 주기성이 있는 경우 표본의 대표성이 결여될 수 있다.

층화 표본추출방법

  • 모집단이 특정한 기준으로 분류가 가능할 때 사용
  • A 기업의 고객을 구매등급별로 나눈 후, 각 등급에서 일정수의 표본을 무작위로 추출
  • 모집단을 특정 기준에 따라 소집단(strata)으로 나누려면 모집단에 대한 사전지식 및 분류 기준에 대한 충분한 근거 필요
  • 단순 임의 추출방법의 표본 편중 위험을 보완한다.

군집 표본추출방법

  • 층화처럼 모집단을 특정한 기준으로 분류한 뒤, 그 중 하나의 소집단을 선택하여 분석
  • 하나의 소집단을 전체 및 일부로 표본추출한다.
  • 모집단이 방대하여 표본추출이 쉽지 않을 때 유용
  • 특정 기준으로 분류된 하나의 소집단만을 사용하기에 전체 모집단의 모수를 반영하지 못할 수도 있다.

복원추출과 비복원추출

1) 복원추출법(sampling with replacement; SWR)

  • 모집단에서 추출된 표본을 되돌려 넣고 다음 표본 추출
  • 동일한 표본이 중복돼서 선택될 수 있다
  • 표본공간은 독립적으로 변화가 없다(모집단에서 A 표본을 한 번 뽑았다고 해서 다시 A 표본이 추출될 확률이 줄어들지 않는다.)

2) 비복원추출법(sampling withour replacement; SWOR)

  • 모집단에서 추출된 표본을 되돌려 넣지 않고 다음 표본 추출
  • 표본 추출 행위는 표본공간을 바꾸는 종속사건

추출하려는 표본의 양이 모집단에 비해 작으면 복원 및 비복원 추출에 차이는 거의 없다.

하지만, 모집단의 크기가 별로 크지 않거나 추출 표본이 20% 이상으로 많은 경우 복원추출 방식이 편향을 더 줄일 수 있다.

ex) 총 10개의 관측치가 들어있는 모집단에서 4개를 복원추출 할 경우, 순서표본의 개수
10 x 10 x 10 x 10 = 10410^4

비복원추출을 할 경우,
10 x 9 x 8 x 7 = 10P4 = 5040

profile
beginner

0개의 댓글