해당 글은 “A/B 테스트 신뢰할 수 있는 온라인 종합 대조 실험 (론 코하비, 다이앤 탕, 야 쉬. 2022)” 책 내용 일부를 정리 및 재구성한 내용이다.
A/B Test의 필요성.
마이크로소프트 오피스 365 사용자 중 에러 메시지를 더 많이 경험한 유저는 그렇지 않은 유저 보다 이탈률이 낮다고 한다. 그렇다면, 오류 메시지를 더 많이 표시하거나 서비스 품질을 낮춰야 하는 것일까?
해당 결과는 사용률에서 기인한다. 사용률이 높은 유저는 오류 메시지를 더 많이 표시하게 되고 이탈률은 더 낮다. 상관관계는 인과관계를 의미하지 않는다. 이러한 관찰에 의존하면 잘못된 결정을 내리게 된다.

A/B Test는 높은 신뢰도로 인과관계를 밝히고 함정을 피하거나 탐지하는데 있어 최고의 능력을 제공할 수 있다. 다음은 A/B Test의 필요성을 요약한다.
- 높은 확률로 인과관계를 확립할 수 있는 최선의 과학적인 방법이다.
- 시간에 따른 변화와 같이 다른 기법으로 탐지하기 어려운 작은 변화 감지가 가능하다. (민감도)
- 예상치 못한 변화 감지가 가능하다. 종종 과소평가되지만 성능 저하, 충동/오류 증가, 또는 다른 기능으로부터의 클릭 수 감소 등 많은 실험에서 여러 지표에 대한 놀라운 영향을 발견한다.
A/B Test의 원칙.
-
조직은 데이터 중심 결정을 내리고, OEC를 공식화 한다.
- 데이터 중심적이 되려면 조직은 비교적 짧은 기간(ex. 1~2주)에 걸쳐 쉽게 측정할 수 있는 OEC를 정의해야 한다.
- 단기적인 수단인 “이익”보다 “고객생애가치”와 같은 OEC가 좋은 OEC이다. (Kohavi, Long-bottom et al. 2009)
OEC (Overall Evaluation Criterion)
실험 목적의 계량적 지표, 예를 들어 OEC를 사용자 별 활동일 수 등으로 정할 수 있다. OEC는 단기적으로 측정 할 수 있어야 하며, 장기적 전략 목표를 추진하는 원인이라고 믿을 수 있는 것이 돼야 한다. (ex. 검색 엔진의 경우 OEC는 사용량 - 사용자당 세션 수, 관련성 - 성공적인 세션, 광고 수익 등의 조합이다.)
-
조직은 종합 대조 실험을 실행하고 그 결과가 신뢰할 수 있는지 확인하기 위해 인프라와 테스트에 기꺼이 투자할 용의가 있다.
- 온라인 소프트웨어 영역은 사용자를 랜덤화 하기도 쉽고 변경사항을 적용하기도 용이하다. 또한, 작은 웹사이트라도 통계적으로 유의미한 사용자는 있다. (Kohavi, Crook, Longbotham. 2009)
-
조직은 아이디어의 가치를 평가하는 데 서툴다는 것을 인지한다.
- 최적화된 도매인일 수록 A/B Test의 성공률은 낮다. 일부 지표의 성공률은 10~20%에 불과하다. (Manzi. 2012)
- 실험을 주도하는 팀에 있다면 최소한 70% 이상의 작업이 버려지는 것에 익숙해져야 한다. (Mosavat. 2019) 그렇기에 프로세스가 중요하다.
A/B Test의 사례.
- 2012년 Microsoft의 검색 엔진인 Bing에서 한 직원이 광고 헤드라인 표시법을 바꾸자고 제안 했고, 이 아이디어는 6개월에 실행 되었고 매출의 12%(약 1억불)를 증가시켰다.
- 2004년 아마존은 쇼핑 카트 페이지로 신용카드 제안을 옮기고, 절감액을 단순한 수학 공식으로 부각시키는 실험을 진행하였다. 이는 연간 수천만 달러 증가라는 결과를 증명하였다.
Reference.
- Trustworthy Online Controlled Experiments : A Practical Guide to A/B Testing (Ron Kohavi, Diane Tang, Ya Xu. 2022)
- Levels of Evidence