[67일]A/B 테스트 트래픽 크기 비교

김준석·2024년 2월 28일

A와 B의 트래픽 크기를 통계적으로 비교해보자

트래픽 크기 비교 가설

AB 테스트 성공실패 지표를 비교하기 전에 제일 먼저 해야하는 일은 트래픽이 양쪽에
우리가 원하는 형태로 나눠졌는지부터 점검 하는 것이다.

  • AB 테스트 사용자 크기를 통계적으로 비교 해보자
    • 50:50으로 나눈 테스트라면 이는
      P(A) = P(B)
      또는 P(B) = 0.5가 귀무가설(H0)이 채택이 된다.
    • 이를 어떻게 비교해야 될까?
      중심 극한 정리에 따르면 P(B)-0.5를 계산하면 정규 분포를 따르게 된다.
      이때 z-test 또는 t-test로 p-value를 계산해서 비교한다.

z-test

z-test란
데이터의 평균이나 비율이
가설에서 가정한 모집단의 평균이나 비율과 얼마나 차이가 있는지 파악하는 것

  • 예를들어
    P가 테스트 사용자의 비율이고
    N이 테스트에 속한 전체 사용자의 수(A와 B 포함) 라고 하자.

이때 95%신뢰도라면 z-score가 -1.96~1.96의 범위내에 없다면
P는 95%신뢰도로 봤을 때 50%가 아니라고 할 수 있다.(발생하기 힘든 일이 발생했다고 할 수 있다.)

  • 이 경우 귀무가설(H0)을 Reject한다. → 테스트 트래픽은 50%가 아님 혹은 컨트롤 트래픽과 다름.

t-test란

두 개의 집단 간의 평균 차이를 비교하는 통계적 방법.

일반적으로 t-test는 두 집단의 평균이 서로 같은지 여부를 확인하거나, 하나의 집단의 평균이 어떤 특정한 값을 가지는지를 검정하는 데 사용된다.

A/A Test 란?

A/B Test 이후 시스템이 제대로 구현이 되었나 확인하기 위한 기법

기본적으로는 A/B Test 분석과정과 동일하다.

  • 차이점
    • 기존 서비스 방문 트래픽을 랜덤하게 추출 (보통 날짜 기간 기반)
    • 앞서 구현한 버킷 로직을 적용해 트래픽을 A와 A’로 분리
    • 이후 기타 비교 지표들을 계산하고 그 값들이 A와 A’ 그룹별로 동일함을 바라고 컨펌한다.

0개의 댓글