[아티클스터디]A/B테스트3

Arin lee·2024년 10월 29일

기사링크
A/B테스트 3

요약

A/B 테스트 계산기의 세팅과 해석

  • 계산은 어디서 어떻게 해야 하나요?

A/B테스트를 위한 솔루션을 사용하지 않거나, 응용이 불가한 경우의 계산방법: 간단한 세팅만으로 A/B테스트 계산을 제고하는 웹사이트 존재!

AB Testguide

무료로 A/B 테스트 결과를 제공하는 계산기로, 사이트에서 제공하는 세팅에 간단한 숫자만 입력해도 유의미한 결과를 낼 수 있다.

  • 기초 통계 지식으로 계산기 세팅 및 해석하기

  1. Test Data
    : 각 그룹의 표본 크기와 그룹별 최종 전환 숫자를 뜻한다. 실험을 통해 각 그룹에 모인 트래픽과 그중에서 우리가 원하는 결과로 최종 전환된 트래픽을 직접 입력하면 된다.
  2. Settings-Hypthesis
    단측 검정과 양측 검정 결과를 보기 위한 기능이다. 쉽게 말해 '두 그룹에 차이가 있다는 전제하에, 특정 한쪽이 무조건 우세하다고 생각하고 실험을 할 건지' 아니면 '두 그룹에 차이가 있긴 있는데 어느 쪽이 우세할지 모르겠으니 열어놓고 보겠다'인지로 이해하면 된다.
  3. Settings-Confidence
    신뢰 수준에 몇 %로 설정하는지 묻는 설정이다. ‘똑같은 실험을 100번 했을 때 그중 몇 번의 '우연'을 봐줄 것인가?’로 이해하면 된다. 세밀한 분석이 필요하면 99%까지도 설정할 수 있지만, 보통 95%로 충분하다.
  • 양측∙단측? 검정을 어느 쪽으로 해야 하나?

→ 가정,예상과 결과에 차이가 존재하기에 양측검정이 더 보수적인 선택이다.

-신뢰 수준 Confidence를 90%로 세팅했다고 가정.

-실험을 100번 한다고 가정했을 때 90번은 우리가 기대하는 구간 내의 값이 나오지만 나머지 10번까지는 우리가 기대하는 구간 바깥의 값이 나와도 된다.
다시 말해 10번까지는 이 실험의 결과가 '우연'에 기대도 된다. 우연이 10번만 안 넘으면 된다.

-그러면 이를 단측 검정으로 진행하면 어떤 의미가 될까?

100번 중 10번까지는 우연에 의한 결과가 나와도 봐줄 것이다.
그런데 우리는 ‘어느 한쪽이 더 크다(or 더 작다)’라는 추측을 테스트 중이다. 이 10번의 우연은, 더 클 것이라고(or 더 작을 것이라고) 생각한 쪽이 실제로는 더 크지 않은(or 더 작지 않은) 경우를 뜻한다.
즉, 100번 중 90번은 더 커야(작아야) 하고, 10번까지는 더 크지(작지) 않아도 된다.

-반면 이를 양측 검정으로 한다는 것은 어떤 의미일까?

100번 중 10번까지는 우연에 의한 결과가 나와도 봐줄 것이다.
그런데 A와 B에 '차이가 있을 거다'라는 가정만 갖고 있지, 어느 쪽이 더 크거나 작을지는 모르겠다. 그래서 이 10번의 우연 허용권을 '더 크다'와 '더 작다'에 각각 5번씩 주기로 했다. [ (더 작지도 않은데) 더 크지 않은 경우 5번, (더 크지도 않으면서) 더 작지도 않은 경우 5번], 다시 말해 양쪽 어느 쪽으로도 차이가 없는 경우를 5번+5번 = 총 10번까지 봐주기로 했다.

즉, 결과가 한쪽으로 무조건 나올거라는 보장이 없는 상태에서의 단측검정은 우연의 계산결과가 나올수 있기때문에 양측검정이 더 안전한 선택이다.(단측 검정이었으면 ‘차이가 유의미하지 않다’라는 결과가 양측 검정에서는 ‘차이가 유의미하다’라는 내용으로 나올 수가 있게 된다.)

  • 결과 해석

결과는 P-value에 따라 나오게 된다. 95% 신뢰 수준 confidence로 실험을 진행했을 때 P-value가 0.05(=5%) 이하라면 유의미하고, 이보다 크면 유의미하지 않다고 판별한다.

핵심개념 및 용어정리

표본 트래픽의 개념

표본 트래픽은 전체 네트워크 트래픽 중 일부를 추출하여 분석. 전체 트래픽을 모두 분석하는 것은 비용과 시간이 많이 들기 때문에, 일부 표본을 추출하여 전체의 특성을 추정하는 것

주의사항

  • 표본이 너무 작으면 특이치나 예외적인 패턴을 과대평가할 수 있다.
  • 반대로 표본이 너무 크면 처리 비용이 증가.
  • 샘플링 방법에 따라 특정 유형의 트래픽이 과소 또는 과대 표현될 수 있으므로 주의가 필요

신뢰수준의 정의

신뢰수준은 표본 조사 결과가 모집단의 실제 특성을 얼마나 정확하게 반영하는지를 나타내는 확률입니다

. 즉, 동일한 방법으로 여러 번 표본 조사를 실시했을 때, 모수(참값)가 추정된 구간 내에 포함될 확률을 의미합니다.

주요 특징

  1. 확률 표현: 신뢰수준은 보통 백분율로 표시되며, 일반적으로 95%, 99% 등의 값을 사용합니다
  2. 해석: 예를 들어, 95% 신뢰수준은 100번의 표본 조사 중 95번은 추정된 구간에 모수가 포함된다는 의미입니다

인사이트

A/B테스트를 위한 계산기의 존재에 대해 알게 되었고, 꼭 전문적인 도구를 활용하지 않아도 결과를 도출해낼 수 있고, 간단한 통계지식만 있다면 결과해석까지 가능하다는 것을 알게 되었다.

profile
Be DBA

0개의 댓글