📌 A/B 테스트 완전 정복 시리즈 | 14편 / 25편
Part 5. 검정 도구 — "어떻게 검증할 것인가"
A/B 테스트 결과를 볼 때 p-value만 보면 안 됩니다.
"차이가 있다"는 건 알겠는데, "얼마나 차이가 있는데?" 도 중요하거든요.
이때 사용하는 게 신뢰구간(Confidence Interval) 입니다.
일상적인 비유로 설명해볼게요:
친구가 "나 30분에서 40분 사이에 도착할 거야"라고 말했다면, 정확히 35분은 모르지만 "이 범위 안에는 있겠다" 고 생각하죠?
이게 신뢰구간입니다:
모집단의 진짜 값(예: 진짜 전환율)이 포함될 것으로 예상되는 범위
정확한 해석은 이렇습니다:
"같은 실험을 100번 반복해서 매번 신뢰구간을 구하면, 그 중 95개의 구간이 진짜 값을 포함한다"
⚠️ 흔한 오해: "이 구간 안에 진짜 값이 있을 확률이 95%"라고 생각하기 쉽지만, 엄밀히 말하면 틀린 해석입니다. 진짜 값은 이미 정해져 있는 고정된 숫자이기 때문에, "확률"로 표현하는 건 정확하지 않아요. 다만, 직관적 이해로는 크게 문제 없으니 처음에는 이렇게 이해해도 괜찮습니다.
선거 뉴스 예시:
"A 후보 지지율 43% ± 4% (95% 신뢰구간)"
→ 실제 지지율은 39%~47% 사이에 포함될 것으로 기대됨
두 그룹의 신뢰구간을 비교하면 결과를 직관적으로 판단할 수 있습니다:
| 상황 | 해석 |
|---|---|
| 두 그룹의 신뢰구간이 겹치지 않음 | → 차이가 유의미할 가능성 높음 |
| 두 그룹의 신뢰구간이 겹침 | → 차이가 우연일 가능성 있음 |
| 요인 | 신뢰구간 변화 | 이유 |
|---|---|---|
| 표본 수 ↑ | 좁아짐 ✨ | 데이터가 많을수록 추정이 정확해짐 |
| 신뢰수준 ↑ (95% → 99%) | 넓어짐 | 더 확실하게 보려면 범위를 넓혀야 함 |
같은 데이터라도 표본 수와 신뢰수준에 따라 신뢰구간이 달라질 수 있다는 점, 기억해두세요.
| 도구 | 용도 | 한 줄 요약 |
|---|---|---|
| p-value | 결과가 우연인지 판단 | "이게 운이었을 확률" |
| t-검정 | 연속형 데이터 비교 | "매출 평균이 진짜 다른가?" |
| 카이제곱 검정 | 범주형 데이터 비교 | "클릭률이 진짜 다른가?" |
| 신뢰구간 | 추정값의 범위 | "진짜 값은 이 범위 안에 있다" |
검정 도구를 다 배웠습니다! 이제 본격적으로 실험을 설계하는 방법을 알아봅니다.
다음 편에서는 A/B 테스트의 전체 계획을 한 장에 정리하는 원페이저(One-pager) 작성법을 배웁니다.