A/B 테스트는 두 버전(A와 B)을 비교하여 어떤 것이 더 효과적인지 판단하는 방법입니다. 예를 들어, 온라인 쇼핑몰에서 새로운 디자인의 "구매하기" 버튼이 전환율을 높이는지 테스트하고 싶다고 가정해봅시다.
주요 개념
a) α (알파): 제1종 오류 확률. 보통 0.05(5%)로 설정합니다.
b) β (베타): 제2종 오류 확률. 보통 0.2(20%)로 설정합니다.
c) 검정력(1-β): 실제 차이를 감지할 확률. 보통 0.8(80%)로 설정합니다.
d) Minimum Detectable Effect (MDE): 감지하고 싶은 최소 효과 크기
샘플 크기 결정 과정
예시: 현재 전환율이 5%인 온라인 쇼핑몰에서, 새로운 "구매하기" 버튼으로 전환율을 최소 5.5%로 높이고 싶습니다.
단계 1: 가설 설정
H0 (귀무가설): 새 버튼은 전환율에 영향을 미치지 않는다. (μA - μB = 0)
Ha (대립가설): 새 버튼은 전환율을 높인다. (μA - μB > 0)
단계 2: 파라미터 설정
단계 3: 샘플 크기 계산
비율에 대한 공식을 사용합니다:
n = ((zα + zβ)² * (p0(1-p0) + pa(1-pa))) / (pa - p0)²
여기서:
계산:
n = ((1.645 + 0.84)² * (0.05(1-0.05) + 0.055(1-0.055))) / (0.055 - 0.05)²
≈ 31,575 (각 그룹당)
따라서, 각 그룹(A와 B)에 최소 31,575명의 사용자가 필요합니다.
일일 평균 방문자가 10,000명이라고 가정하면:
테스트 기간 = (31,575 * 2) / 10,000 ≈ 6.3일
실제로는 주말 효과 등을 고려해 2주로 테스트 기간을 설정할 수 있습니다.
2주 동안 테스트를 실행한 후, 결과를 분석합니다. 예를 들어:
그룹 A (기존 버튼): 32,000명 방문, 1,600명 구매 (전환율 5%)
그룹 B (새 버튼): 32,000명 방문, 1,792명 구매 (전환율 5.6%)
이제 이 결과가 통계적으로 유의미한지 확인하기 위해 p-value를 계산합니다. p-value가 0.05보다 작다면, 새 버튼이 전환율을 유의미하게 증가시켰다고 결론 내릴 수 있습니다.
만약 결과가 통계적으로 유의미하다면, 새로운 "구매하기" 버튼을 전체 사이트에 적용할 수 있습니다. 그렇지 않다면, 다른 디자인을 시도하거나 더 큰 샘플로 테스트를 반복할 수 있습니다.
이렇게 A/B 테스트는 샘플 크기 결정부터 결과 분석까지 체계적인 과정을 거쳐 진행됩니다. 적절한 샘플 크기를 사용함으로써, 우리는 작은 변화가 실제로 효과가 있는지, 아니면 단순한 우연의 결과인지를 신뢰성 있게 판단할 수 있습니다.
유용한 사이트: https://dachata.com/resource/ab-test-duration-calculator/
ref: https://www.youtube.com/watch?v=34tnCxQPRBA 슬기로운 통계생활