표본편향과 선택편향

Kiwoong Park·2023년 5월 17일
0

랜덤표본추출이란?

대상이 되는 모집단에서 선택 가능한 원소들을 무작위로 뽑는 과정을 의미하며, 각 추첨과정에서 모든 원소는 동일한 확률로 뽑게 되는 것.
이 결과로 얻은 샘플을 단순랜덤표본
단순랜덤표본에서 뽑은 표본을 다시 모집단에 넣고 다음번에도 중복하여 뽑을 수 있도록 하는 것을 복원추출(with replacement),
뽑은 표본을 다시 모집단에 넣지 않고, 다음 표본을 뽑는 것을 비복원추출(without replacement)라고 함.

품질 > 양

샘플 기반의 추정이나 모델링에서 데이터 품질은 데이터 양보다 더욱 중요함. 데이터 품질이란 완결성, 형식의 일관성, 깨끗함(전문가의 판단, 산업의 특성에 필요한 데이터, 데이터 소요에 명확한 기준을 가진 데이터 등) 및 각 데이터의 정확성을 의미함

데이터 품질이 잘못됬을 때의 예시
1936년 미대선에서 알프레드 랜던이 프랭클린 루스벨트를 제치고 대선에서 승리할 것이라고 예측했던 리터러리 다이제스트의 설문조사
당시 주요 언론 매체였던 리터러리 다이제스트는 전체 구독자 외에 추가 명단까지 작성하여 총 1,000만명이 넘는 사람들을 대상으로 설문 조사를 실시했다. 그리고 랜던의 압도적인 승리를 예측.
반면 갤럽 조사의 창업자인 조지 갤럽은 2,000명을 대상으로 하는 격주 여론 조사를 실시하여 루스벨트의 승리를 정확히 예측.
두 기관의 차이는 조사자 선정방식에 있는데,

  • 리터러리 다이제스트는 상대적으로 사회 경제적 지위가 높은 사람들(정기 구독자와 전화 및 자동차 등 당시에 사치품들을 소유한 덕에 마케팅 담당자의 명단에 오른 사람들)을 조사 대상으로 했고,
  • 그 결과 표본편향이 발생. 즉, 원래 의도된 전체 구성원으로 이루어진 모집단으로부터 표본이 추출된 것이 아닌 유의미한 비무작위 방식으로 표본이 추출됨.

표본편향

아무리 랜덤표본이라고 해도, 어떤 표본도 모집단을 정확하게 대표할 수 없다는 것을 의미함. 모집단과 표본 사이의 차이가 유의미할 만큼 크고, 첫 번째 표본과 동일한 방식으로 추출된 다른 샘플들에서도 이 차이가 계속될 것으로 예상될 때 표본편향이 발생했다고 볼 수 있음.

선택편향

선택 편향은 데이터를 의식적이든 무의식적이든 선택적으로 고르는 것을 의미함. 이로인해 오해의 소지가 있거나 단편적인 결론을 얻게 되는 결과가 나타날 수 있음.
연구 과정에서도 어떤 가설을 세우고 그것을 테스트하기 위해서 나름 잘 설계된 실험을 수행해서 결과가 가설에 따라 나온다면, 그 결과에 대해 강하게 확신할 수 있을 것이다.
하지만, 늘그렇듯이 이런 경우는 엄청 드물다고 할 수 있다. 보통의 경우는 가지고 있는 데이터를 먼저 확인 한 후 그 안에서 패턴을 찾고자 한다. 이렇게 해서 찾은 패턴이 진짜 패턴인지 아니면 무언가 나올 때까지 데이터를 탈탈 털다보니 나온 결과인지 알 수 없는 경우가 생긴다.

실험을 통해 가설을 테스트 해서 확인한 현상 vs 사용 가능한 데이터를 통해 발견한 현상

어떤 사람이 동전을 10번 던져 앞면만 10번 나오게 할 수 있다고 말을 했다고 가정하자. 한번 해보라고 했는데 그 사람이 실제로 10번 던져서 모두 앞면이 나왔다면 보통은 분명 그 사람이 특별한 능력이 있다고 생각할 것이다.

반대로 어느 야구 경기장에서 관람객 2만 명에게 동전을 10번 던져서 10번 모두 앞면이 나오면 손을 들어달라고 했을 때, 이때 경기장에 있는 누군가가 10번 모두 앞면이 나올 확률은 매우 높다(99% 이상). 실제로 10번 모두 앞면이 나온 한 사람이 나왔을 때 그 사람에 대해 특별한 능력이 있다고 생각하지는 않는다.

이 예시는 빅데이터를 반복적으로 조사할 때 선택편향에 대해 조심할 필요가 있다는 것을 시사한다. 데이터 과학자들이 특별히 걱정하는 선택 편향의 한 평태는 존 엘더(John Elder, 엘더 리서치의 설립자)가 방대한 검색 효과라고 부르는 것이다.

큰 데이터 집합을 가지고 반복적으로 다른 모델을 만들고 여러 질문들을 하다보면, 언젠가 흥미로운 것을 발견하게 될 것이고, 이 결과가 정말로 의미 있는 것인지 아니면 우연에 의해 얻게 된 것인지를 명확히 할 필요가 있다.

성능을 검증하기 위해 다음과 같은 방식을 활용 할 수 있다.

  • 하나 이상의 홀드아웃(holdout) 세트를 이용하는 방식
  • 순열검정(permutation test, 표본들에서 서로 원소들을 섞은 경우에 검정값이 유의미하게 차이가 나는지 확인)을 통해 확인하는 방식
profile
You matter, never give up

0개의 댓글