
📌 A/B 테스트 완전 정복 시리즈 | 11편 / 25편
Part 5. 검정 도구 — "어떻게 검증할 것인가"
A/B 테스트를 하면 가장 먼저 마주치는 숫자가 p-value입니다.
"p-value가 0.03이니까 유의미하다" 같은 말을 들어보셨을 텐데, 정확히 뭘 의미하는 걸까요?
한 줄 정의:
귀무가설이 참이라고 가정했을 때, 지금 관찰한 결과(또는 더 극단적인 결과)가 우연히 나타날 확률
쉽게 풀면:
"이 결과가 그냥 운이었을 확률이 얼마나 되나?"
배달 앱에서 1,000명을 두 그룹으로 나눠 실험했습니다:
"B가 1,000원 더 높네! B가 더 좋은 거 아니야?"
잠깐. 이건 표본 평균일 뿐입니다. 다시 실험하면 A가 더 높게 나올 수도 있어요.
그래서 통계적 검증이 필요합니다:
이것의 의미:
"두 그룹의 매출이 실제로 같다고 가정했을 때, 이 정도 차이가 우연히 발생할 확률이 4%다"
4%는 꽤 낮죠? 우리가 정한 기준(α = 5%)보다 낮으니까:
→ 귀무가설 기각!
→ "두 그룹의 매출 차이는 통계적으로 유의미하다"
p-value < 0.05 → 귀무가설 기각 → "차이가 있다!"
p-value ≥ 0.05 → 귀무가설 유지 → "차이가 있다고 말할 수 없다"
⚠️ 주의: "차이가 없다"가 아니라, "차이가 있다고 말할 근거가 부족하다"입니다!
| 오해 | 현실 |
|---|---|
| "p-value = B가 A보다 좋을 확률" | ❌ 그런 의미가 아님 |
| "p < 0.05면 무조건 의미 있다" | ❌ 샘플이 매우 크면 사소한 차이도 유의미해짐 |
| "p > 0.05면 효과 없다" | ❌ 샘플이 부족해서 감지 못한 것일 수도 있음 |
p-value를 계산하려면 t-검정이라는 도구가 필요합니다.
다음 편에서는 t-검정의 원리를 쉽게 풀어봅니다.