A/B test 샘플 테스트

HanJu Han·2024년 8월 22일

예) user당 gmv는 t검정이고 cvr은 카이제곱 검정

User당 GMV (t-검정):
- 데이터 유형: 연속형 변수
- 측정: 각 사용자의 구매 금액
- 특성:
  - 개별 값이 다양한 범위를 가짐 (예: $10부터 $1000까지)
  - 평균과 분산으로 특징지을 수 있음
- 검정 목적: 두 그룹의 평균 GMV 차이 비교
- t-검정 선택 이유:
  - 두 그룹의 평균을 비교하는 데 적합
  - 정규성 가정이 충족되거나 표본 크기가 충분히 큰 경우 사용 가능
CVR (카이제곱 검정):
- 데이터 유형: 범주형 변수 (이분형)
- 측정: 전환 여부 (예: 구매함 vs 구매하지 않음)
- 특성:
  - 각 관찰은 두 가지 범주 중 하나에 속함
  - 비율이나 확률로 표현됨
- 검정 목적: 두 그룹 간의 전환율 차이 비교
- 카이제곱 검정 선택 이유:
  - 범주형 데이터의 분포 차이를 비교하는 데 적합
  - 관찰된 빈도와 기대 빈도 사이의 차이를 검정

주요 차이점:

데이터 유형:
- GMV: 연속형 (얼마나 많이 구매했는지)
- CVR: 범주형 (구매했는지 여부)
측정 대상:
- GMV: 구매 금액의 평균
- CVR: 전환 발생 비율
통계적 가정:
- t-검정: 정규성 가정 (대표본의 경우 중심극한정리로 완화 가능)
- 카이제곱 검정: 기대 빈도에 대한 가정
검정의 성격:
- t-검정: 평균의 차이 검정
- 카이제곱 검정: 분포의 차이 검정

이러한 차이로 인해 각 지표에 적합한 검정 방법이 다릅니다. 그러나 상황에 따라 다른 검정 방법을 사용할 수도 있습니다. 예를 들어, GMV 데이터가 정규 분포를 따르지 않는 경우 비모수적 방법인 Mann-Whitney U 검정을 사용할 수 있고, CVR의 경우 샘플 크기가 작다면 Fisher의 정확 검정을 사용할 수 있습니다.

샘플 데이터를 활용한 예시

User당 GMV (t-검정):

샘플 테이블:
| Group | User1 | User2 | User3 | User4 | User5 | ... | User20 |
|-------|-------|-------|-------|-------|-------|-----|--------|
| A | 100 | 0 | 150 | 50 | 200 | ... | 75 |
| B | 120 | 0 | 180 | 60 | 220 | ... | 90 |

계산 과정:
1) 각 그룹의 평균(μ) 및 표준편차(s) 계산
Group A: μA = 85, sA = 70
Group B: μB = 100, sB = 80

2) t-통계량 계산:
t = (μB - μA) / √(sA²/nA + sB²/nB)
여기서 nA와 nB는 각 그룹의 샘플 크기 (여기서는 20)

t = (100 - 85) / √(70²/20 + 80²/20) = 0.6124

3) 자유도 계산:
df = (sA²/nA + sB²/nB)² / [(sA²/nA)²/(nA-1) + (sB²/nB)²/(nB-1)]
df ≈ 37

4) p-value 계산:
t-분포표를 이용하여 자유도 37, t-값 0.6124에 해당하는 p-value 찾기
p-value ≈ 0.5437

결론: p-value > 0.05이므로, 두 그룹의 평균 GMV 차이는 통계적으로 유의미하지 않습니다.

CVR (카이제곱 검정):

샘플 테이블:
| Group | 전환 | 비전환 | 총 사용자 |
|-------|------|--------|-----------|
| A | 30 | 170 | 200 |
| B | 45 | 155 | 200 |
| 총합 | 75 | 325 | 400 |

계산 과정:
1) 기대빈도 계산:
EA(전환) = (200 75) / 400 = 37.5
EA(비전환) = (200 325) / 400 = 162.5
EB(전환) = (200 75) / 400 = 37.5
EB(비전환) = (200 325) / 400 = 162.5

2) 카이제곱 통계량 계산:
χ² = Σ [(O - E)² / E]
χ² = (30 - 37.5)² / 37.5 + (170 - 162.5)² / 162.5 +
(45 - 37.5)² / 37.5 + (155 - 162.5)² / 162.5
χ² = 3.8095

3) 자유도 계산:
df = (행 수 - 1) (열 수 - 1) = (2 - 1) (2 - 1) = 1

4) p-value 계산:
카이제곱 분포표를 이용하여 자유도 1, χ²값 3.8095에 해당하는 p-value 찾기
p-value ≈ 0.0509

결론: p-value가 0.05에 매우 근접하지만 약간 크므로, 두 그룹의 CVR 차이는 통계적으로 유의미하지 않습니다 (5% 유의수준 기준). 그러나 10% 유의수준에서는 유의미할 수 있습니다.

주요 차이점:
1. 데이터 형태:

GMV: 연속형 데이터 (구매 금액)
CVR: 범주형 데이터 (전환 여부)

검정 통계량:
- GMV: t-통계량 (두 그룹 평균 비교)
- CVR: χ² 통계량 (관찰빈도와 기대빈도 차이)
자유도 계산 방식:
- GMV: 복잡한 공식 사용 (Welch–Satterthwaite 방정식)
- CVR: 단순 계산 ((행 수 - 1) * (열 수 - 1))
가정:
- GMV: 정규성 가정 (대표본에서는 덜 중요)
- CVR: 각 셀의 기대빈도가 5 이상

이러한 차이로 인해 각 지표에 적합한 검정 방법이 다르며, 결과 해석 시 이를 고려해야 합니다.

HanJu Han

시리즈를 기반으로 작성하였습니다.

이전 포스트

중심극한 정리

다음 포스트

A/B test 샘플 테스트

중심극한 정리

AARRR

0개의 댓글