표본크기에 대한 고려는 '가설검징이 실제로 처리 A와 B의 차이를 밝혀낼 수 있을까? 라는 질문과 바로 연결된다.
차이가 크면 클수록, 그것을 밝혀낼 가능성도 따라서 커질 것이고, 그 차이가 작을수록 더 많은 데이터가 필요하다.
예를들어 3할 5푼 타자와 2할 타자를 구분하기 위해서는 많은 타석이 필요하지는 않다. 하지만 3할 타자와 2할 8푼의 타자를 구분하기 위해서는 더 많은 타석의 정보가 필요하다.
검정력이란 용어정리에서 말했듯이 특정한 표본조건(크기와 변이)에서 특정한 효과크기를 알아낼 수 있는 확률을 의미한다.
예를 들어 25타석(표본크기)에서 3할 3푼 타자와 2할 타자를 구분할 수 있을 확률이 0.75일때 이 확률을 검정력이라고 하고 타율의 차이인 1할 3푼이 효과크기를 의미한다.
대부분의 데이터 과학자들은 검정력을 구하기 위해 형식적인 절차를 모두 질킬 필요는 거의 없다. 하지만, A/B검정을 위해 데이터를 수집하고 처리하는데 비용이 발생할때 대충 어느정도의 비용이 발생할지 안다면 데이터를 수집하고도 결론을 내리지 못하는 상황을 피할수 있을것이다. 다음 직관적으로 방법 하나를 소개한다.
최대한 (사전 정보를 이용해서) 결과데이터가 비슷하게 나올 수 있는 가상의 데이터를 생각해보자. 예를 들면 2할 타자를 위해 20개의 1과 80개의 0이 들어있는 상자를 생각 해볼 수 있다.
첫 표본에서 원하는 효과크기를 더해서 두 번째 표본을 만든다. 예를 들면 33개의 1과 67개의 0을 가진 두 번째 상자, 혹은 각 초기 방문시간에 25초를 더한 두번째 상자를 만든다.
각 상자에서 크기 n인 부트스트랩 표본을 추출한다.
두 부트스트랩 표본에 대하여 순열 가설검정(혹은 수식 기반의 가설검정)을 진행한다. 그리고 여기에 통계적으로 유의미한 차이가 있는지 기록한다.
3 ~ 4단계를 여러 번 반복한 후, 얼마나 자주 유의미한 차이가 발견되는지 알아본다. 이 확률이 바로 검정력 추정이다.
이렇게 다섯가지의 과정을 통해 검정력을 추정해 볼 수 있다.
A상자 : 3개의 1
B상자 : 5개의 1
어떠한 가설검정을 해도 이 차이가 유의미하지 않게 나올 것이라고 쉽게 눈치챘을 것이다. 이 표본크기(300개)로 효과크기(10%차이)의 조합은 가설검정으로 차이를 보기에는 너무 작다.
여기서 2000개로 표본크기를 증가시켜 알아보자 그리고 더 큰 효과크기인 50%로 늘려보자
클릭률은 여전히 1.1% 수준으로 가정, 대신 50%증가한 1.65를 원한다고 생각해보자
각상자에 2000개를 뽑았을때 결과가 다음과 같다고 해보자.
상자A : 19개의 1
상자B : 34개의 1
이번 결과 또한 유의미하지 않다고 결론이 날것이다. (물론 앞의 5개와 3개의 차이보다는 유의미한 결과에 훨씬가깝다). 검정력을 계산하기 위해서는 이러한 과정을 반복해야한다.
검정력 혹은 필요한 표본크기의 계산과 관련한 다음 4가지 중요 요소로 요약할 수 있다.
# 표본크기
# 탐지하고자 하는 효과크기
# 가설검정을 위한 유의수준
# 검정력