A/B테스트 실험설계(MDE, 실험기간 설정, 검증력, 효과크기) 수정중

생각하는 마리오네트·2023년 11월 19일

통계

목록 보기

40/41

이전 게시글에서 A/B테스트 가 무엇이고 간단하게 결과해석 하는 부분에 대해서 살펴보았다.

이번에는 A/B 테스트에서 실험을 어떻게 설계를 하는지 여러자료들을 바탕으로 학습해 보았고, 이해한 내용과 중요하다고 생가하는 내용을 정리해보려고 한다.

A/B 테스트 진행 순서

(내가 학습 후 정리한 A/B테스트의 진행순서는 아래와 같다.)

1. 목표설정 및 가설 수립

실험의 목적을 명확히 하고, 통계적으로 검증하고자 하는 가설을 설정한다.
(일반적으로 귀무가설과 대립가설을 수립한다.)
어떤지표로 평가할지 결정하기
어떤 실험방식을 사용할지 결정하기

2. Minimum Detectable Effect(MDE, 최소효과크기??)추정

MDE를 직역하면 최소효과크기라고 하며 실험에서는 관찰하고자 하는 최소 효과 크기를 추정해야한다(Minimum Detectable Effect, MDE). 이는 실험의 실질적 중요성(유의수준과 함께 샘플의 수집 갯수)을 결정하는 데 도움이 된다.
효과 크기(effect size)란 연구에서 기대하는 차이의 크기를 말한다. 예를들어 A(대조군)의 CTR(클릭률)이 20.3%이고 B(처리군)의 CTR이 34.2%일때 효과크기(effect size)는 14.2%가 된다.

(출처:https://testview.wordpress.com/tag/significance/)

위 사진을 보면 H0(귀무가설)과 Ha(대립가설)의 평균의 차이를 effect size로 표기한것을 볼 수 있다.

우리는 효과크기(effect size)가 아닌(실험이 끝난다면 알 수 있음) 최소효과크기(MDE)를 구해야한다. 왜냐하면 A/B테스트를 진행하며 얻어야 하는 최소 관측수(sample size)를 결정해야 하기 때문이다.

최소 관측수(샘플크기를 결정)를 구하기 위해서는
1)유의수준(significance levle), 효과 크기(effect size), 검정력(power)를 알아야한다.
최소효과크기(MDE)란 최소한(Minmal)의 효과크기(effect size)를 말하는것이며, 이것은 리스크와 비용을 조절하기 위해 중요한 파라미터이다.
쉽게 설명하면 우리의 실험에서 실제로 차이를 감지할 수 있는 가장 작은 효과의 크기를 말합니다. 즉, 우리가 신뢰할 수 있는 차이를 발견하기 위해 '최소한으로' 볼 수 있는 변화의 크기입니다."(MDE를 넘으면 알람을 설정하거나, 테스트를 종료 및 지속여부 판단)
예를들어 UI변경에 따른 CTR변화를 위해 A/B테스트를 한다고했을때 MDE를 3%로 설정하는것과 30%를 설정했을때는 비용의 차이가 크다.
왜냐하면 우연히 나타날 수 있는 더 작은 차이를 확인하기 위해서는 더많은 샘플이 필요하기 때문이다. (왜냐하면, 공정과정에서 저품질 물건이 50%이다는 가설을 확인하기 위해서 파악해야하는 샘플수와 저품질 물건이 2%이다 라고 가설을 세웠을때 파악해야하는 물건(샘플)의 수에서는 2%인 경우 월등히 많은 샘플을 확인해야하기 때문이다) 더 많은 샘플이 필요하다는 것은 실험 시간이 길어짐을 의미하고, 그로 인한 시간적 비용과 효과가 덜한 디자인을 경험한 고객들에게서 얻어지는 기회비용도 포함이된다.
그렇기 때문에 MDE를 너무 낮게 설정하는 경우, 우리는 실험에 쓰이는 돈과 시간이라는 비용을 낭비하게 된다.
반대로 너무 높게 MDE를 설정하게 되면 25%의 상승이 있어도 30%라는 기준에 모자라서 효과가 있더라도 감지가 되지않아서 유의미한 결론을 내기 어려울 수 있습니다.
적당한 수준의 MDE 설정을 하기위해서는 ROI(Return On Investment)계산을 통해서 찾을 수 있다.
예를들면 팀에서는 고객이 여행 웹사이트의 결제에서 "여행자 보험"을 추가하도록 하는 MVP를 검증하고 있다고 해보자, 여행 웹사이트에서는 하루에 2,000개의 예약이 이루어지고있다.(연간 730,000), 여행자 보험의 예산 순이익은 사용자당 3달러라고 해보자.
완전한 기능 구현에는(개발자의 150시간이 필요하며, 인건비를 시간당 500달러라고 할때)75,000달러의 비용이 필요하다. 이러한 수치에 기반하여, "손익분기점"을 넘기 위해서는 연간기준으로 약 25,000개의 보험의 판매해야 하며 이는 예약의 3.42%(25,000/730,000)가 보험을 추가해야한다는 계산을 할 수 있다.
보험 전환율이 실험의 주요 지표일경우 3.42%가 합리적인 MDE가 될수 있으며, 이보다 낮은 값은 실험기간이 늘기도 하지만 팀에 도움이 되지않으면(underpowered) 이보다 너무 높은 값은 기회를 놓칠 수도 있다(overpowered)

3. 검정력(power)과 유의 수준(significance level)설정

검정력이란 실제로 의미있는 차이가 있을때 이를 감지할 확률이다.
검정력(일반적으로 0.8 또는 80%설정)과 유의 수준(0.1, 0.05, 0.01등)을 설정한다. 이 단계에서는 실험에서 제1종 오류와 제2종 오류의 위험을 균형있게 고려한다.
유의수준을 낮추면, 통계적으로 유의미한 결과가 더 어려워지기 때문에 실제로 중요한 차이가 있어도 이를 감지못할 가능성이 커진다.
더 높은 검정력 설정 : 특정 연구에서는 더 높은 검정력, 예를 들어 0.9% 또는 90%를 설정할 수 있다. 이는 실험이 실제로 중요한 효과를 놓치지 않도록 보다 엄격한 기준을 적용하는 경우에 사용한다.
비용-효과 고려 : 연구의 비용과 효과를 고려하여 검정력을 설정할 수 있다. 예를들어, 연구 비용이 높거나 샘플을 얻기 어려운 경우, 낮은 검정력을 허용할 수 있다.
효과크기(effect size)가 크면 검정력이 증가한다.
샘플크기(sample size)가 클수록 검정력이 높아진다.

4. 샘플 크기 결정

설정된 검정력, 유의 수준, 효과크기를 바탕으로 필요한 샘플 크기를 계산한다. 이는 실험이 충분한 통계적 검증력을 갖추도록 하는 중요한 단계이다.
샘플을 크기는 정해진것이 아니라 매번 다르다.
동일한 신뢰수준에 따라서도 표본이 크면 클수록 두그룹의 결과의 차이가 작아도 유의미하다고 인정해줄 가능성이 생기고, 표본이 작더라도 두 그룹의 결과가 충분히 크다면 유의미하다고 인정해 줄 가능성이 있기때문이다.
다시 돌아가 표본이 얼마나 필요한가 라는 질문은 두 방안의 결과가 몇%차이가 날 것이라고 기대하는가? 와 같다고 보면된다.
즉, 유의수준, 최소효과크기, 검정력을 통해서 샘플크기를 결정할 수 있는것이다.
링크에서 세가지 파라미터를 통해서 샘플 크기를 얻어 볼 수 있다.

1) 표본수(sample size) - 주어진 검정력을 보장하기 위해 필요로 하는 샘플 사이즈수
2) 유의수준(significance level) - 귀무가설이 사실임에도 기각할 확률
3) 효과 크기(effect size) - 비교하려는 집단사이에 얼마나 차이가 있는지 나타내주는 지표
4) 검정력(power) - 실제로 의미있는 차이가 있을때 이를 감지할 확률이다.

5. 실험 디자인

대조군과 처리군을 설정하고, 무작위 할당을 통해 참가자를 이 두 그룹에 배분한다. 이는 실험의 타당성을 보장하는데 중요하다.
사람이 구분하기 어려울 정도로 비슷하게 2개의 그룹을 나누는것이 중요하다.
성별, 연령대, 관심사, 구매성향, 사용하는 모바일기기 까지 우리가 고민해야하는 기준들은 어마어마하게 많습니다.
같은 실험에서는 유저를 항상 동일한 그룹에 배정하여 진행해야한다.
같은 유저라도 실험이 바뀌면 새롭게 그룹을 배정해야 한다.
A그룹과 B그룹이 균일하게 나누어져야한다.
A그룹과 B그룹은 서로 영향을 미치면 안된다.
대상자가 실험여부를 인지하게 되면 편향이 발생할 수 있다.

6. 데이터 수집

설정된 기간 동안 실험을 진행하고, 두 그룹에서 데이터를 수집한다.

7. 데이터 분석 및 유의성 검증

수집된 데이터를 분석하여 대조군과 처리군 간의 차이를 평가한다. t-검정, 카이제곱 검정등의 통계적 방법을 사용하겨 가설검증을 수행한다.

8. 결과 해석 및 결론 도출

분석 결과를 해석하여 실험의 목표와 가설에 대한 결론을 도출한다. 이과정에서는 통계적 유의성과 함꼐 결과의 실질적 중요성을 고려한다.

9. 보고 및 후속조치

실험 결과를 보고하고, 필요한 경우 추가분석이나 후속 실험을 계획한다.

Reference
1. MDE
2. sample-size1
3. sample-size2
4. chat-gpt(링크없음)

생각하는 마리오네트

문제를해결하는도구로서의"데이터"

이전 포스트

인과추론 A/B테스트 이해하기

다음 포스트