
A/B 테스트에서 가장 흔하고 위험한 실수:
"3일째인데 p-value가 0.04네? 유의미하다! 바로 런칭하자!"
이걸 Peeking(엿보기) 문제라고 합니다. 그리고 이건 매우 위험합니다.
p-value는 실험 도중에 계속 변합니다. 매일 확인하면서 "0.05 밑이다!" 하고 멈추면, 우연히 낮아진 순간에 잘못된 결론을 내릴 수 있어요.
비유하면:
동전을 계속 던지다가 "앞면이 3번 연속 나왔네! 이 동전은 앞면만 나오는 동전이야!"라고 하는 것과 같습니다.
실제로, 실험 중간에 반복적으로 p-value를 확인하면 false positive (거짓 양성) 확률이 5%보다 훨씬 높아집니다.
여러 개의 지표를 동시에 검정하면, "하나쯤은 우연히 유의미하게 나올" 확률이 높아집니다.
예: 10개 지표를 검정하면 → 하나도 효과 없어도 0.5개는 p < 0.05가 나올 수 있음
해결법: 유의 수준을 검정 횟수로 나눈다.
다음 함정: 실험에 예상치 못한 변수가 끼어드는 문제 — Confounding Factor를 알아봅니다.