A/B test 샘플 사이즈 구하기

HanJu Han·2024년 8월 17일
  1. A/B 테스트 개요

A/B 테스트는 두 버전(A와 B)을 비교하여 어떤 것이 더 효과적인지 판단하는 방법입니다. 예를 들어, 온라인 쇼핑몰에서 새로운 디자인의 "구매하기" 버튼이 전환율을 높이는지 테스트하고 싶다고 가정해봅시다.

  1. 주요 개념

    a) α (알파): 제1종 오류 확률. 보통 0.05(5%)로 설정합니다.
    b) β (베타): 제2종 오류 확률. 보통 0.2(20%)로 설정합니다.
    c) 검정력(1-β): 실제 차이를 감지할 확률. 보통 0.8(80%)로 설정합니다.
    d) Minimum Detectable Effect (MDE): 감지하고 싶은 최소 효과 크기

  2. 샘플 크기 결정 과정

예시: 현재 전환율이 5%인 온라인 쇼핑몰에서, 새로운 "구매하기" 버튼으로 전환율을 최소 5.5%로 높이고 싶습니다.

단계 1: 가설 설정
H0 (귀무가설): 새 버튼은 전환율에 영향을 미치지 않는다. (μA - μB = 0)
Ha (대립가설): 새 버튼은 전환율을 높인다. (μA - μB > 0)

단계 2: 파라미터 설정

  • α = 0.05 (95% 신뢰수준)
  • β = 0.2 (80% 검정력)
  • p0 (현재 전환율) = 5% = 0.05
  • pa (목표 전환율) = 5.5% = 0.055
  • MDE = (0.055 - 0.05) / 0.05 = 10% (상대적 증가율)

단계 3: 샘플 크기 계산
비율에 대한 공식을 사용합니다:

n = ((zα + zβ)² * (p0(1-p0) + pa(1-pa))) / (pa - p0)²

여기서:

  • zα = 1.645 (단측 검정, α = 0.05)
  • zβ = 0.84 (β = 0.2)

계산:
n = ((1.645 + 0.84)² * (0.05(1-0.05) + 0.055(1-0.055))) / (0.055 - 0.05)²
≈ 31,575 (각 그룹당)

따라서, 각 그룹(A와 B)에 최소 31,575명의 사용자가 필요합니다.

  1. 테스트 기간 결정

일일 평균 방문자가 10,000명이라고 가정하면:
테스트 기간 = (31,575 * 2) / 10,000 ≈ 6.3일

실제로는 주말 효과 등을 고려해 2주로 테스트 기간을 설정할 수 있습니다.

  1. 테스트 실행 및 결과 분석

2주 동안 테스트를 실행한 후, 결과를 분석합니다. 예를 들어:

그룹 A (기존 버튼): 32,000명 방문, 1,600명 구매 (전환율 5%)
그룹 B (새 버튼): 32,000명 방문, 1,792명 구매 (전환율 5.6%)

이제 이 결과가 통계적으로 유의미한지 확인하기 위해 p-value를 계산합니다. p-value가 0.05보다 작다면, 새 버튼이 전환율을 유의미하게 증가시켰다고 결론 내릴 수 있습니다.

  1. 결과 해석 및 적용

만약 결과가 통계적으로 유의미하다면, 새로운 "구매하기" 버튼을 전체 사이트에 적용할 수 있습니다. 그렇지 않다면, 다른 디자인을 시도하거나 더 큰 샘플로 테스트를 반복할 수 있습니다.

이렇게 A/B 테스트는 샘플 크기 결정부터 결과 분석까지 체계적인 과정을 거쳐 진행됩니다. 적절한 샘플 크기를 사용함으로써, 우리는 작은 변화가 실제로 효과가 있는지, 아니면 단순한 우연의 결과인지를 신뢰성 있게 판단할 수 있습니다.

유용한 사이트: https://dachata.com/resource/ab-test-duration-calculator/

ref: https://www.youtube.com/watch?v=34tnCxQPRBA 슬기로운 통계생활

profile
시리즈를 기반으로 작성하였습니다.

0개의 댓글