이전 게시글에서 A/B테스트 가 무엇이고 간단하게 결과해석 하는 부분에 대해서 살펴보았다.
이번에는 A/B 테스트에서 실험을 어떻게 설계를 하는지 여러자료들을 바탕으로 학습해 보았고, 이해한 내용과 중요하다고 생가하는 내용을 정리해보려고 한다.
A/B 테스트 진행 순서
(내가 학습 후 정리한 A/B테스트의 진행순서는 아래와 같다.)
1. 목표설정 및 가설 수립
- 실험의 목적을 명확히 하고, 통계적으로 검증하고자 하는 가설을 설정한다.
(일반적으로 귀무가설과 대립가설을 수립한다.)
- 어떤지표로 평가할지 결정하기
- 어떤 실험방식을 사용할지 결정하기
2. Minimum Detectable Effect(MDE, 최소효과크기??)추정
- MDE를 직역하면 최소효과크기라고 하며 실험에서는 관찰하고자 하는 최소 효과 크기를 추정해야한다(Minimum Detectable Effect, MDE). 이는 실험의 실질적 중요성(유의수준과 함께 샘플의 수집 갯수)을 결정하는 데 도움이 된다.
- 효과 크기(effect size)란 연구에서 기대하는 차이의 크기를 말한다. 예를들어 A(대조군)의 CTR(클릭률)이 20.3%이고 B(처리군)의 CTR이 34.2%일때 효과크기(effect size)는 14.2%가 된다.
위 사진을 보면 H0(귀무가설)과 Ha(대립가설)의 평균의 차이를 effect size로 표기한것을 볼 수 있다.
- 우리는 효과크기(effect size)가 아닌(실험이 끝난다면 알 수 있음) 최소효과크기(MDE)를 구해야한다. 왜냐하면 A/B테스트를 진행하며 얻어야 하는 최소 관측수(sample size)를 결정해야 하기 때문이다.
최소 관측수(샘플크기를 결정)를 구하기 위해서는
1)유의수준(significance levle), 효과 크기(effect size), 검정력(power)를 알아야한다.
- 최소효과크기(MDE)란 최소한(Minmal)의 효과크기(effect size)를 말하는것이며, 이것은 리스크와 비용을 조절하기 위해 중요한 파라미터이다.
- 쉽게 설명하면 우리의 실험에서 실제로 차이를 감지할 수 있는 가장 작은 효과의 크기를 말합니다. 즉, 우리가 신뢰할 수 있는 차이를 발견하기 위해 '최소한으로' 볼 수 있는 변화의 크기입니다."(MDE를 넘으면 알람을 설정하거나, 테스트를 종료 및 지속여부 판단)
- 예를들어 UI변경에 따른 CTR변화를 위해 A/B테스트를 한다고했을때 MDE를 3%로 설정하는것과 30%를 설정했을때는 비용의 차이가 크다.
왜냐하면 우연히 나타날 수 있는 더 작은 차이를 확인하기 위해서는 더많은 샘플이 필요하기 때문이다. (왜냐하면, 공정과정에서 저품질 물건이 50%이다는 가설을 확인하기 위해서 파악해야하는 샘플수와 저품질 물건이 2%이다 라고 가설을 세웠을때 파악해야하는 물건(샘플)의 수에서는 2%인 경우 월등히 많은 샘플을 확인해야하기 때문이다) 더 많은 샘플이 필요하다는 것은 실험 시간이 길어짐을 의미하고, 그로 인한 시간적 비용과 효과가 덜한 디자인을 경험한 고객들에게서 얻어지는 기회비용도 포함이된다.
- 그렇기 때문에 MDE를 너무 낮게 설정하는 경우, 우리는 실험에 쓰이는 돈과 시간이라는 비용을 낭비하게 된다.
- 반대로 너무 높게 MDE를 설정하게 되면 25%의 상승이 있어도 30%라는 기준에 모자라서 효과가 있더라도 감지가 되지않아서 유의미한 결론을 내기 어려울 수 있습니다.
- 적당한 수준의 MDE 설정을 하기위해서는 ROI(Return On Investment)계산을 통해서 찾을 수 있다.
- 예를들면 팀에서는 고객이 여행 웹사이트의 결제에서 "여행자 보험"을 추가하도록 하는 MVP를 검증하고 있다고 해보자, 여행 웹사이트에서는 하루에 2,000개의 예약이 이루어지고있다.(연간 730,000), 여행자 보험의 예산 순이익은 사용자당 3달러라고 해보자.
- 완전한 기능 구현에는(개발자의 150시간이 필요하며, 인건비를 시간당 500달러라고 할때)75,000달러의 비용이 필요하다. 이러한 수치에 기반하여, "손익분기점"을 넘기 위해서는 연간기준으로 약 25,000개의 보험의 판매해야 하며 이는 예약의 3.42%(25,000/730,000)가 보험을 추가해야한다는 계산을 할 수 있다.
- 보험 전환율이 실험의 주요 지표일경우 3.42%가 합리적인 MDE가 될수 있으며, 이보다 낮은 값은 실험기간이 늘기도 하지만 팀에 도움이 되지않으면(underpowered) 이보다 너무 높은 값은 기회를 놓칠 수도 있다(overpowered)
3. 검정력(power)과 유의 수준(significance level)설정
- 검정력이란 실제로 의미있는 차이가 있을때 이를 감지할 확률이다.
- 검정력(일반적으로 0.8 또는 80%설정)과 유의 수준(0.1, 0.05, 0.01등)을 설정한다. 이 단계에서는 실험에서 제1종 오류와 제2종 오류의 위험을 균형있게 고려한다.
- 유의수준을 낮추면, 통계적으로 유의미한 결과가 더 어려워지기 때문에 실제로 중요한 차이가 있어도 이를 감지못할 가능성이 커진다.
- 더 높은 검정력 설정 : 특정 연구에서는 더 높은 검정력, 예를 들어 0.9% 또는 90%를 설정할 수 있다. 이는 실험이 실제로 중요한 효과를 놓치지 않도록 보다 엄격한 기준을 적용하는 경우에 사용한다.
- 비용-효과 고려 : 연구의 비용과 효과를 고려하여 검정력을 설정할 수 있다. 예를들어, 연구 비용이 높거나 샘플을 얻기 어려운 경우, 낮은 검정력을 허용할 수 있다.
- 효과크기(effect size)가 크면 검정력이 증가한다.
- 샘플크기(sample size)가 클수록 검정력이 높아진다.
4. 샘플 크기 결정
- 설정된 검정력, 유의 수준, 효과크기를 바탕으로 필요한 샘플 크기를 계산한다. 이는 실험이 충분한 통계적 검증력을 갖추도록 하는 중요한 단계이다.
- 샘플을 크기는 정해진것이 아니라 매번 다르다.
- 동일한 신뢰수준에 따라서도 표본이 크면 클수록 두그룹의 결과의 차이가 작아도 유의미하다고 인정해줄 가능성이 생기고, 표본이 작더라도 두 그룹의 결과가 충분히 크다면 유의미하다고 인정해 줄 가능성이 있기때문이다.
- 다시 돌아가 표본이 얼마나 필요한가 라는 질문은 두 방안의 결과가 몇%차이가 날 것이라고 기대하는가? 와 같다고 보면된다.
- 즉, 유의수준, 최소효과크기, 검정력을 통해서 샘플크기를 결정할 수 있는것이다.
- 링크에서 세가지 파라미터를 통해서 샘플 크기를 얻어 볼 수 있다.
1) 표본수(sample size) - 주어진 검정력을 보장하기 위해 필요로 하는 샘플 사이즈수
2) 유의수준(significance level) - 귀무가설이 사실임에도 기각할 확률
3) 효과 크기(effect size) - 비교하려는 집단사이에 얼마나 차이가 있는지 나타내주는 지표
4) 검정력(power) - 실제로 의미있는 차이가 있을때 이를 감지할 확률이다.
5. 실험 디자인
- 대조군과 처리군을 설정하고, 무작위 할당을 통해 참가자를 이 두 그룹에 배분한다. 이는 실험의 타당성을 보장하는데 중요하다.
- 사람이 구분하기 어려울 정도로 비슷하게 2개의 그룹을 나누는것이 중요하다.
- 성별, 연령대, 관심사, 구매성향, 사용하는 모바일기기 까지 우리가 고민해야하는 기준들은 어마어마하게 많습니다.
- 같은 실험에서는 유저를 항상 동일한 그룹에 배정하여 진행해야한다.
- 같은 유저라도 실험이 바뀌면 새롭게 그룹을 배정해야 한다.
- A그룹과 B그룹이 균일하게 나누어져야한다.
- A그룹과 B그룹은 서로 영향을 미치면 안된다.
- 대상자가 실험여부를 인지하게 되면 편향이 발생할 수 있다.
6. 데이터 수집
- 설정된 기간 동안 실험을 진행하고, 두 그룹에서 데이터를 수집한다.
7. 데이터 분석 및 유의성 검증
- 수집된 데이터를 분석하여 대조군과 처리군 간의 차이를 평가한다. t-검정, 카이제곱 검정등의 통계적 방법을 사용하겨 가설검증을 수행한다.
8. 결과 해석 및 결론 도출
- 분석 결과를 해석하여 실험의 목표와 가설에 대한 결론을 도출한다. 이과정에서는 통계적 유의성과 함꼐 결과의 실질적 중요성을 고려한다.
9. 보고 및 후속조치
- 실험 결과를 보고하고, 필요한 경우 추가분석이나 후속 실험을 계획한다.
Reference
1. MDE
2. sample-size1
3. sample-size2
4. chat-gpt(링크없음)