A/B 테스트에서 의미있는 효과 기준 (MDE)을 설정하는 방법
출처: https://playinpap.github.io/abtest-setting-mde/
😈 데이터블로그 챌린지 3일차😈 입니다.
PAP 에서 facebook의 Product Analyst가 작성한 글을 소개한 것을 보고, 재구성 해 보았습니다.
MDE값은 a/b테스트를 분석하기 전에 먼저 계산되어야 하는 값이며, %값일 수도 있고, 3천만원 등의 절대값일 수도 있다.
MDE값이 너무 크거나 너무 낮으면 손실이 발생하므로 적절한 값을 찾아야함. (overpowered와 underpowered를 지양해야 함)
적절한 MDE값은 ROI값을 통해서 추정할 수 있다.
내 생각: A/B테스트를 할 때 적정기간이나 기준에 대해 항상 의문점이 많았는데, 대부분의 회사에서는 1~2주의 기간을 잡고 테스트를 실시하는 것 같다. p-value를 통해 유의미한지 판별하기만 했는데, MDE 값과 ROI 계산을 통해서 더욱 효율적인 A/B테스트를 설계할 수 있을 것 같다.
* 유의수준(significance)와 MDE를 이용하여 실험에 필요한 최소 샘플 사이즈를 결정함
필요할 때 마다 전수조사가 불가능
ex) 나사 공장에서의 가설 : 생산되는 나사의 50%가 저품질일 것이다.
이 때 얼마나 나사를 검수해야할까? => MDE로 결정
underpowered test: MDE가 크다면, 중요한 개선기회를 놓쳐서 시간과 관련된 기회비용 손실이 발생하고, 잘못된 결론을 도출할 수 있다( 실제로는 효과가 있더라도 통계적으로 유의미한 결과가 나오지 않을 수도 있다. )
* overpowered test: MDE가 낮다면, 실험에 쓰이는 돈과 시간 비용 낭비 가능성이 높고 실용성이 부족하다. ( 실제로 효과가 낮더라도 통계적으로는 유의미한 결과가 나올 수 있다. )
가정1: 프로덕트팀이 웹사이트 MVP 테스트 중이다. 전환율을 5%이상 높여야 한다고 가정하자.
상황2: 전환율을 높이기 위해 웹사이트의 바로구매 버튼의 문구를 바꾸는 실험을 하자. 전환율이 50%이상일때 감지할수 있도록 MDE를 설정
5%보다 낮게 설정할 경우, overpowered의 사례에 해당하며, 버튼문구 변경 실험에서 50%로 설정한 경우는 underpowered에 해당함
팀에서는 고객이 여행 웹사이트의 결제에서 여행자 보험을 추가하도록 하는 MVP를 검증하고 있습니다.
여행 웹사이트에서는 하루에 2,000개의 예약이 이뤄지고 있습니다. (연간 730,000건)
여행자 보험의 예상 순이익은 사용자당 $3입니다.
완전한 기능 구현은 (개발자의 150시간을 필요로 하며, 인건비를 시간당 $500 라 가정, 다른 기회비용은 제외합니다) $75,000의 비용이 필요합니다.
'손익 분기점'을 넘기기 위해서는 연간기준 25,000개의 보험을 판매해야 하며,
이는 예약의 3.42% ( 25000/73000)가 보험을 추가해야함.
=> 보험 전환율이 실험의 주요 지표라면, 3.42%가 합리적인 MDE 임. ( 너무 크거나 너무 낮지 않게 설정하는것이 중요함)
대부분의 a/b테스트에서는 significance level (유의수준) 95%, power(검정력) 80%를 따른다. 하지만 맹목적으로 같은 지표를 따르는것은 권장되지 않는다.
가능하면 비즈니스 상황(주로 매출)을 고려하여 먼저 MDE를 결정 후, 샘플 크기와 실험기간을 MDE에 맞추어 설정하는것을 권장
관련 글
https://towardsdatascience.com/how-to-set-the-minimum-detectable-effect-in-ab-tests-fe07f8002d6d
https://towardsdatascience.com/finding-the-right-significance-level-for-an-ab-test-26d907ca91c9
https://towardsdatascience.com/ab-testing-challenges-in-social-networks-e67611c92916