A/B 테스트에 대한 좋은 글

2400·2021년 11월 14일
0
  1. A/B 테스트에서 p-value에 휘둘리지 않기
    p-value < 0.05 의 의미
    귀무가설 : 두 분포간에 차이가 없다.
    그러니 차이 = 0 이므로 평균이 0인 정규 분포를 그린다.
    ( 분산은 실험 데이터를 이용해 추정한다. )

    ( 좀 더 자세하게 설명된 예제 첨부 : https://zzaebok.github.io/ab_test/ab-testing/
    한 마디로, 분산은 계산할 수 있는데, p로 계산할 수 있다.
    A 는 109925 시도 가운데 14517 회 전환되었고
    B 는 110402 시도 가운데 14291 회 전환됐으므로
    P_A = 14517/109925, P_B = 14291/110402 이다.
    해당 p로 분산을 계산할 수 있다. 구체적으로 A와 B의 차이에 대한 값의 분산 또한 계산할 수 있고 이를 활용한다. )

이후 재밌는 케이스가 나온다. 귀무가설이 둘 사이에 차이가 없다. 였는데 p-value 0.05 값 이상의 값이 나와서 상한 값 내의 값이 나왔다.

그런데 시간이 지나면서 표본의 개수가 많아지며 통계적 특성상 신뢰 구간의 상한선 또한 낮아지면서 p-value가 0.05보다 작아지게 된다!!

이를 [ 효과 크기를 무시한 유의성 검정 ] 이라고 한다.

실험 크기를 증가시키면 아주 작은 효과 크기에 대해서도 유의성을 확보할 수 있다. 
즉, 없는데 있다고 판단할 오류를 배제할 수 있다. 
하지만 아주 작은 효과 밖에 없다면, 
과연 그 효과가 ‘없는데 있다고 판단할 오류’를 범하지 않기 위해 애쓸 필요가 있을까? 
그 정도 차이는 있어도 소용 없으니 차라리 다른 실험을 준비하는 편이 낫다.

이 문제를 친구와의 키재기 내기로 비유하면 이렇다. 
내 옆의 친구와 나의 키가 아주 비슷한데 내 생각에는 내가 확실히 더 큰 것 같다. 
이를 증명하고자 1 마이크로 미터까지 계측이 가능한 자를 가져와서 나와 내 친구의 키를 측정한다. 
결론적으로 10 마이크로 미터 만큼 내 키가 더 크다. 
친구를 이겨서 기분은 좋을지 모르지만 시간 낭비하기에 참 좋은 일이다.

애초에 어떤 비교에서든 차이가 0일 가능성은 거의 없다. 
얼마나 의미있는 계측 단위에서 차이가 있는지 없는지 구분하는 것이 중요하다.

https://boxnwhis.kr/2016/04/15/dont_be_overwhelmed_by_pvalue.html

  1. 신뢰 구간을 이용한 AB 테스트 결과 비교
profile
공부용 혹은 정리용 혹은 개인저장용

0개의 댓글