마케팅과 웹 분석에서 쓰인 종합 대조 실험(Controlled Experiment)이다. 디지털환경에서 전체 실사용자를 대상으로 대조군(Control Group)과 실험군(Experimental Group)으로 그룹을 나누어 특정한 UI나 알고리듬의 효과를 비교하는 방법론이다.
기획자는 사용자경험에 영향을 주는 기능이나 제품 기획 시 기존의 방식을 사용한 대조군 A와 새로운 기능이 동반된 실험군 B로 유저 그룹을 나누어 이를 비교하는 것이다. AB 테스트를 사용하면 새로운 기능이 원했던 목적대로 특정 문제를 해결하는지, 문제 해결에 얼마나 효과적인지 등을 측정할 수 있다.많은 경우 AB 테스트는 특정 지표의 전환율 상승을 목표로 진행한다.
이러한 AB테스트를 진행하기 앞서 해당 테스트가 합리적이고 유의미하게 분석되었는지를 사전에 테스트를 거쳐 검증할 수 있다. 왜냐하면 데이터가 잘못되거나, 목적과 다른 지표를 설정했다거나, 마케팅 효과 등의 변수나 모수가 적은 등 실험 진행 과정에서 발생하는 요인에 의해 영향을 받을 수 있기 때문이다.
AB 테스트를 수행하고 그 결과값을 받았을 때 의사결정자가 그 테스트가 합리적이고 유의미하게 분석되었다고 판단할 수 있으려면 결과값을 검증해야한다. 가장 많이 활용되는 방법은 AA 테스트와 P-value 분석이라고 한다.
AA 테스트란 AB테스트를 진행하기 전에 변화가 없는 같은 페이지를 두고 실시하는 실험이다. 분산된 트래픽에 대해 동일한 Variation을 동시에 보여주고 차이의 유무를 먼저 확인하는 것이다. AA 테스트 결과가 차이가 없는 경우 AB 테스트를 진행하여 차이점을 찾을 수 있다.
AA테스트는 서비스 체험 기간에 진행하여 구매 및 구축 전 미리 해당 플랫폼의 신뢰도를 측정하는 것을 권장한다. 더불어 이미 검증하여 사용하는 플랫폼이라고 하더라도 종종 AA테스트를 진행하여 해당 실험 결과의 신뢰도를 유지할 수 있다면 바람직할 것이다. 다만 AA테스트는 많은 모수를 필요로 하기 때문에 충분한 기간을 두고 진행하는 것이 바람직하다.
P-value 분석은 통계 분석에서 널리 쓰이는 유의성 검증 방식이다.
통계적인 관점으로 AB 테스트를 살펴보면 모집단(전체 기간에 대한 이상적 실제값)을 샘플(AB테스트가 진행되는 특정 기간)의 값을 활용하여 추정한다고 할 수 있다.
관례적으로 P-value가 0.05미만이면 두 집단의 평균 차이가 허용 가능한 수준으로 여긴다.
일반적으로 AB테스트의 결과를 평가하는 지표는 전환율을 사용한다. 이 통계의 차이가 유의미한지를 평가하는 방안으로 P-value를 활용할 수 있다.
하지만 P-value만으로 결과를 신뢰할 수 있을만큼 평가하기는 어렵다. 샘플의 수가 너무 적으면 P-value의 값이 크게 나올 수도 있기 때문이다. A집단과 B집단 모두 10명일 때 각각 7명, 5명씩 전환했다고 할 때와 각 집단의 전체 샘플의 수가 1000명일 때의 결과는 다르다. 표본의 수를 늘리고 전환 수에 변화를 주면 그 결과값도 달라지며 결과에 영향을 주는 요인들이 무엇인지 살펴보며 면밀하게 분석하는 것이 필요하다.
AB테스트를 진행할 때 있어서 유의 수준, 검정력, 탐지하고자 하는 원하는 효과의 크기를 정하고 이를 토대로 적정 실험 규모를 정할 수 있어야한다. p-value는 통계적 유의성 확보를 위한 도구이지 실험 결과의 중요성을 평가하는 지표가 아니다. 실험 결과가 현실적으로 어떤 중요성을 갖는지 판단해야하고 그 뒤에 그 결과를 얼마나 신뢰할 수 있는지를 평가하는 것이 시간과 비용을 절약할 수 있는 지름길이라고 할 수 있다.
위의 이미지는 넷플릭스 테크블로그에서 가져왔다.
넷플릭스는 모든 변경사항에 대해서 철저한 AB테스트를 하는 것으로 알려져 있다.
이들은 실험을 할 때 실험군과 대조군의 특정지표(스트리밍시간 등 retention)를 추적한다. 이와 관련된 대표적인 사례는 비회원 콘텐츠 브라우징 실험이다.
비회원에게 어떤 콘텐츠가 있는지 보여주면 가입수가 증가할 것이다라는 가설을 실험한 것이다.
2013년 제품디자인팀은 유저의 피드백으로부터 출발한 하나의 가설을 세웠다.'회원 가입 전 비회원도 콘텐츠를 검색할 수 있는 기능을 도입하면 신규 유저의 유입이 늘어날 것이다.'가 바로 그것이다. 넷플릭스는 기존 디자인 A와 비회원 콘텐츠 브라우징 기능을 추가한 개선 버전인 B로 총 5회의 테스트를 진행했으며 위의 다섯 차례의 실험 모두 기존 디자인이 더 유의미하다는 결과가 나왔다고 한다. 즉, 유의수준 95%으로 비회원에게 어떤 콘텐츠가 있는지 보여주면 가입수는 증가할 것이라고 볼 수 없다.
서비스기획에서 테스트를 함으로써 기획의 유효성을 확인할 수 있는 사례라고 할 수 있을 것 같다.
넷플릭스의 개인화된 알고리즘 또한 AB테스트의 예시이다. 넷플릭스 UI는 콘텐츠 별 아트워크를 개인 선호도와 일치하는 맞춤형 썸네일로 제공하여 더 많은 사람들이 콘텐츠를 재생하게끔 유도했다. 만약 사용자가 케이트 윈슬릿을 좋아한다면 타이타닉 영화의 썸네일을 디카프리오보다 케이트윈슬릿이 강조된 이미지로 제공하는 것이다. 이러한 콘텐츠 큐레이션은 사용자의 활동데이터가 어느 정도 쌓이면 품질이 개선될 확률이 점차 늘어난다.
참고자료
위키피디아
Digital Native 브런치
요즘IT
Easy Introduction to AB Testing and P-values
AB테스트와 P-value 브런치