[DE] AB Test

가람·2021년 9월 6일

A/B test AA Test p-value 기본 개념 데이터 엔지니어링

AB Test

AB Test란 실 사용자를 대상으로 대조군 (Control Group)과 실험군 (Experimental Group)으로 나눠서 특정한 UI나 알고리즘의 효과를 비교하는 방법론입니다. 두 집단에게 A 와 B 각각을 제공하고 이에 대한 결과 차이로 A 와 B중 더 나은 것을 찾아내는 프로세스 입니다.

이런 AT Test가 널리 알려지게 된 계기는 2008년 미국 대선이었습니다. 오바마 전 미국 대통령 선거캠프는 빅데이터 기법들을 선거에 적극 활용했습니다. 오바마 선거캠프는 AB Test를 통해 기부 전환율을 49% 올렸고 이메일 수집률을 161%나 증가시켰습니다. 정책을 바꾸거나 하는 등의 변화없이 단순히 사이트의 UI를 대상으로 한 AB Test만으로도 저 정도나 증가 시켰던 것입니다. 출처

AB Test에서 사용자를 분리하는 방법

AB Test를 실제 수행할 때, 대조군과 실험군을 나누는 방법에는 크게 3가지가 있습니다.

노출 분산 방식 : 페이지가 보여질 때 일정 확률로 A와 B를 나눠 노출 시킵니다.
사용자 분산 방식 : 사용자를 A그룹과 B그룹으로 분리하여 고정적으로 A안과 B안을 노출 시킵니다.
시간 분할 방식 : 시간대를 분할하여 A안과 B안을 노출 시킵니다.

노출 분산 방식의 경우 같은 사용자가 사이트에 접속 할 때마다 다른 페이지를 볼 수 있습니다. 따라서 UI/UX테스트의 경우 혼란이 발생할 수 있기에 이 방법은 알고리즘 테스트에 많이 사용합니다.

사용자 분산 방식의 경우 사용자 ID 값에 따라 사용자 그룹을 나누고, 그룹에 따라 A안과 B안을 노출시키는 방식입니다. 이 방식의 경우 UI/UX가 사용자그룹별로 고정되어 있어서 혼란을 덜 준다는 장점이 있습니다. 따라서 UI/UX 테스트에 적합합니다.

시간 분할 방식의 경우 시스템 설계 상 노출이나 사용자 분산이 아예 불가능한 시스템에서 대안으로 사용할 수 있는 방식입니다. 많이 사용하지는 않는 방법이지만, 과거에 일부 금융사나 통신사 등 보안이나 하드웨어 특성 때문에 이런 방식을 사용한 경우가 있습니다.

AB Test의 신뢰성

AB Test가 합리적이고 유의미하게 분석되었다고 판단하는 방법엔 무엇이 있을까요? 간단하게 생각해보면 대조군과 실험군이 AB Test 전후에 유사한 특성을 보여야 A안과 B안에서 나타나는 차이를 명확하게 볼 수 있을 것입니다.

가장 많이 활용되는 방식은 AA Test와 P-Value 검증입니다.

AA Test

AA Test란 AB Test를 수행하기 전에 대조군과 실험군이 동일한 variation을 동시에 보여주고 차이가 있는지를 확인 후에 차이가 없다면 AB Test를 진행해서 차이가 발생하는지를 확인하는 것입니다. 일부 실험군에 심각한 편중이나 왜곡이 있을경우 AA Test에서 variation 차이가 발생하여 AB Test를 수행 할 수 없습니다. 이런 경우에는 편중이나 왜곡을 해결 후 AB Test를 진행해야 합니다.

P-value 검증

P-value 검증은 통계 분석에서 널리 활용되는 유의성 검증 방식입니다. 전체 기간에 대한 값(AB Test와 그 전 후를 포함)의 분포를 샘플(AB Test 기간)의 값을 활용하여 추정할 수 있습니다. 이 때, 샘플의 수가 너무 적으면 P-value 값이 높아질 수 있습니다. 예를들어 간단하게 생각해보면, 실험의 결과로 p < 0.07 이라는 값을 얻었다면, '100번의 실험을 했을 때 93번의 실험이 연구자의 가설대로 재현이 되었고 7번의 예외가 있었음' 이라고 간단하게 생각할 수 있습니다.

만약 P-value가 높다면 AB Test 기간을 늘리는 것이 가장 일반적인 해결책입니다.

참고 사이트
https://brunch.co.kr/@digitalnative/19
https://www.beusable.net/blog/?p=1775

가람

hello world :)

이전 포스트

[DE] Funnel 분석, Cohort 분석

다음 포스트