11. p-value, 이것만 알면 된다 — A/B 테스트의 판단 기준

Jason·2025년 3월 10일

A/B test

목록 보기
11/25
post-thumbnail

11편. p-value, 이것만 알면 된다 — A/B 테스트의 판단 기준

📌 A/B 테스트 완전 정복 시리즈 | 11편 / 25편
Part 5. 검정 도구 — "어떻게 검증할 것인가"


들어가며

A/B 테스트를 하면 가장 먼저 마주치는 숫자가 p-value입니다.

"p-value가 0.03이니까 유의미하다" 같은 말을 들어보셨을 텐데, 정확히 뭘 의미하는 걸까요?


p-value란?

한 줄 정의:

귀무가설이 참이라고 가정했을 때, 지금 관찰한 결과(또는 더 극단적인 결과)가 우연히 나타날 확률

쉽게 풀면:

"이 결과가 그냥 운이었을 확률이 얼마나 되나?"


사례로 이해하기

배달 앱에서 1,000명을 두 그룹으로 나눠 실험했습니다:

  • A 그룹 (기존 디자인): 평균 매출 20,000원
  • B 그룹 (새 디자인): 평균 매출 21,000원

"B가 1,000원 더 높네! B가 더 좋은 거 아니야?"

잠깐. 이건 표본 평균일 뿐입니다. 다시 실험하면 A가 더 높게 나올 수도 있어요.

그래서 통계적 검증이 필요합니다:

  1. 귀무가설 설정: "A그룹과 B그룹의 매출 차이는 없다"
  2. 검정 수행 후 p-value 계산
  3. p-value = 0.04 (4%) 가 나왔다면?

이것의 의미:

"두 그룹의 매출이 실제로 같다고 가정했을 때, 이 정도 차이가 우연히 발생할 확률이 4%다"

4%는 꽤 낮죠? 우리가 정한 기준(α = 5%)보다 낮으니까:

귀무가설 기각!
"두 그룹의 매출 차이는 통계적으로 유의미하다"


p-value 판단 프로세스

p-value < 0.05 → 귀무가설 기각 → "차이가 있다!"
p-value ≥ 0.05 → 귀무가설 유지 → "차이가 있다고 말할 수 없다"

⚠️ 주의: "차이가 없다"가 아니라, "차이가 있다고 말할 근거가 부족하다"입니다!


p-value에 대한 흔한 오해

오해현실
"p-value = B가 A보다 좋을 확률"❌ 그런 의미가 아님
"p < 0.05면 무조건 의미 있다"❌ 샘플이 매우 크면 사소한 차이도 유의미해짐
"p > 0.05면 효과 없다"❌ 샘플이 부족해서 감지 못한 것일 수도 있음

다음 편 예고

p-value를 계산하려면 t-검정이라는 도구가 필요합니다.

다음 편에서는 t-검정의 원리를 쉽게 풀어봅니다.

profile
Data Analyst | Thoughts Become Things. 할 수 있다고 생각하면 할 수 있다. 할 수 없다고 생각하면 할 수 없다. | www.linkedin.com/in/명수-제-7ab843200

0개의 댓글