A/B 테스트란 두 개의 변형 A, B를 사용하는 종합 대조 실험으로, 통계적 가설 검정 또는 표본 가설 검정의 한 형태이다.
개념적으로 명확하나 실제로 테스트를 실행하기 위해 고려해야 할 점이 많다.
가설
A/B 테스트의 출발점이다. 이 테스트를 통해 무엇을 확인하고 싶은지가 명확해야 한다.
가설은 독립 변수가 무엇인지 정의하고 종속 변수의 목표 수준을 정하는 형태로 이뤄진다.
실험 집단/통계 집단
이 두 집단에 관련하여 통제 변수 관리와 엄격한 기준에 따른 샘플링이 중요하다.
독립 변수
설명/예측 변수라고도 한다. 인과 관계에서 원인이 되는 변수이다.
일반적으로 2개 내외의 수준을 정해서 테스트를 진행한다.
종속 변수
독립 변수에 의해 영향을 받을 것이라 기대되는 변수이다.
인과 관계에서 결과가 되는 변수이다.
통제 변수
실험 결과에 영향을 미칠 수 있기에 실험,통제 집단 모두 동등한 조건을 가져야 하는 변수이다.
A/B 테스트의 성패는 통제 변수를 얼마나 잘 관리하느냐에 달린 경우가 많다.
샘플 크기
통계적 유의도를 확보를 고려하여 실험 전에 미리 설정한다.
A/B 테스트의 성패는 통제 변수를 얼마나 잘 관리하느냐에 달린 경우가 많다.
실험 집단과 통제 집단 샘플링
실험 집단을 선별할 때 공정한 샘플링은 중요하다.
그러나 랜덤 추출과 편의 추출을 혼동해서는 안된다.
랜덤 추출은 통제 변수가 잘 관리된 것을 전제로 모든 표본이 동일한 확률을 가진 상태에서 뽑는 무작위 추출이다.
즉, 통제 변수 관리가 잘 되지 않는다면 랜덤 추출이라고 볼 수 없다.
만약 제 3의 변수가 종속 변수에 영향을 미칠 수 있다고 판단이 된다면 이를 통제 변수에 포함해서 샘플링 과정에 반영함으로써 종속 변수에 미치는 영향을 차단해야 한다.
순차 테스트와 동시 테스트
순차 테스트는 조건을 달리한 테스트를 연달아 하는 것이므로 엄밀히 A/B 테스트라고 볼 수 없다.
샘플 크기
가설을 검증하기 위해서 필요한 샘플의 크기는 실험 전에 미리 정해야 한다
샘플 크기 계산기는 온라인에서 찾아볼 수 있다.
p-value
실험의 유의 수준을 판단하기 위해 사용되는 기준은 p값이다.
단순 평균이나 합계 지표의 차이는 샘플링 방법, 실험 설계에 따라 얼마든지 영향 받을 수 있으며, 특히 p 값이나 신뢰구간에 대한 이해가 없다면 잘못 판단할 가능성이 있다.
다음 사진은 통계학에서 가설을 검증하는 방식을 설명한 것이다.
이 때 p 값은 귀무가설 하에서 관찰된 검정 통계량만큼의 극단적인 값이 관찰될 확률을 의미한다.
(검정 통계량이 극단적일 수록 귀무가설을 반박하는 목소리를 크게 낼 수 있다.)
A/B 테스트 계산기
종속 변수의 형태가 범주형이냐, 이산형이냐에 따라 적합한 계산기가 다르다.
여러 사이트에서 계산기를 제공한다.
테스트 비용, 효과 크기
표본의 크기가 커질 수록 p값은 낮아지는 특성이 있다.
또한 집단 간 차이가 미미하다면 p값이 낮더라도 실질적으로 의미가 없을 수 있다.
무가설
A/B 테스트의 출발점은 가설이다. 모든 실험 설계는 가설에 근거해서 진행된다.
통제 변수 관리 실패
가장 큰 실패 원인은 통제 변수를 식별하지 못했거나 잘 관리하지 못하는 것이다.
단순 평균 비교
종속 변수를 단순히 평균 비교하면 우연에 의한 결과와 실제 효과를 혼동할 수 있다.
엿보기, 조기 중지
p 값이 0.05 이하로 내려가는 시점이라도 실험을 조기 중지 해서는 안된다. 실제로 없는 효과를 있다고 착각할 수 있다.
과거의 A/B 경험을 지나치게 신뢰하기
이전에 진행한 A/B 테스트 결과가 만고불변의 진리는 아니다
국지적 최적화의 함정
A/B 테스트는 국지적 최적화를 찾는 실험이다. 전역 최적화를 찾으려 하면 안된다.