A/B TEST 정리 (+p-value)

우수민·2023년 3월 9일
0

잡다한 공부

목록 보기
13/13

A/B 테스트란?

  • A/B 테스트는 두 가지 컨텐츠를 비교하여 방문자/뷰어가 더 높은 관심을 보이는 버전을 확인
  • 관심 분야에 대한 결과를 늘리거나 극대화하는 웹페이지에 대한 변경 사항이 무엇인지 규명하는 것

=> 요약하면, 변수 사이의 인과관계를 확인하기 위한 사회과학 실험 방법론

A/B 테스트 설계

  1. 가설 : 실험을 통해 무엇을 확인하고 싶은지 설정(독립변수와 종속 변수 식별 + 종속 변수의 목표 수준).
  2. 실험집단 / 통제 집단 : 실험군을 어떤 기준으로 구분하며, 어떤 비율로 할당할 것인지 설정
  3. 독립변수 : 종속변수에 영향을 줄 거라고 기대되는 변수
  4. 종속변수 : 실험의 성과를 측정할 떄 사용하는 변수
  5. 통제변수 : 실험 결과에 영향을 미칠 수 있기 때문에 실험/통제 집단 모두에서 동등한 조건을 가지는 변수
  6. 종속변수의 현재 수준과 목표 수준 : 현재의 수치와 예상되는 수치
  7. Sample Size : 가설 검증에 필요한 실험 참가자수 -> 미리 설정 필요
  8. 실험 기간

A/B 테스트 설계 시 고려 사항

  • 순차 테스트는 A/B 테스트가 아님
  • 샘플링은 홀/짝 보다는 다양한 경우를 고려해보야함
    • 랜덤 추출 : 어떤 인위적인 요소가 없이 무작위로 표본을 추출하는 방법
    • 편의 추출 : 확률표본 중에 하나로, 조사자가 조사비용 을 줄이고 조사대상자를 쉽게 선정하려고 할 때 이용
  • 테스트 유형에 따른 분석방법 구분
    • 종속 변수가 범주형(ex. 클릭 여부, 가입 여부)
      • 로지스틱 회귀 : 독립 변수의 선형 결합을 이용하여 사건의 발생 가능성을 예측하는 데 사용되는 통계 기법
      • 카이제곱 검정 : 관찰된 빈도가 기대되는 빈도와 의미있게 다른지의 여부를 검정하기 위해 사용되는 검정방법
    • 종속 변수가 이산형(ex. 클릭 횟수, 결제 금액)
      • T검증 : “두 모집단의 평균간의 차이는 없다”라는 귀무가설과 “두 모집단의 평균 간에 차이가 있다”라는 대립가설 중에 하나를 선택할 수 있도록 하는 통계적 검정방법
      • 분산 분석 : 서로 다른 그룹의 평균(또는 산술평균)에서 분산값을 비교하는 데 사용되는 통계 공식

A/B 테스트 효과 판단

  • 기본적으로는 분포와 신뢰구간, 효과 크기를 기준으로 판단
    • P-value
    • 분포
    • 신뢰구간
    • 효과크기
  • p값만 보고 단편적으로 판단하면 안되지만, 무시해서도 안됨
  • 서비스별로 다양한 방법으로 측정이 필요

P-value

p값이란, 귀무가설이 옳다고 가정했을 때 관찰한 값 (예 : 평균값의 차이) 이상으로 극단적인 값이 나올 확률

  • 현실에서 얻은 데이터가 귀무가설이 옳은 가상 세계에서는 얼마나 나타나기 쉬운가, 또는 어려운가를 평가하고자 p값이라는 값을 계산
  • 이 값은 확률이므로, 0이상 1이하의 값
  • 이 값이 작다는 것은, 귀무 가설이 옳은 세계에서는 현실에서 얻은 데이터가 잘 나타나지 않는 다는 뜻
    • ex. 현실에서 얻은 평균값의 차이가 +10이고 p=0.01이라면, 귀무가설이 옳은 세계에서 평균값의 차이가 +10이상이거나 -10이하가 될 확률은 1%
  • p값과 유의수준 a를 이용한 가설 판정
    • p 값이 작다는 것은 귀무가설이 옳은 세계에서는 현실 데이터가 잘 나타나지 않는 다는 뜻이므로, p값은 귀무가설과 현실 데이터 간의 괴리 정도를 평가하고 있는 셈
    • 일반적으로 p값이 0.05 이하인 경우, 귀무가설 하에서 현실 데이터는 나타나기 어렵다고 생각하고, 귀무가설을 기각하고 대립가설을 채택
      -> 이때 평균 값의 차이는 "통계적으로 유의미한 차이가 있다"라고 표현
      -> 주의할 것은 이것이 대립가설이 절대적으로 옳다는 뜻이 아니라, 대립가설을 지지하는 하나의 증거를 얻음을 의미
    • p값이 0.05를 상회하는 경우 귀무가설을 기가할 수 없으며, "통계적으로 유의미한 차이는 발견하지 못했다"라는 결과

  • 단어 정리
    1. 귀무 가설 : 밝히고자 하는 가설의 부정 명제
    2. 대립 가설 : 밝히고 싶은 가설
    3. 유의 수준 : 통계적인 가설검정에서 사용되는 기준값. 일반적으로 유의 수준은 α로 표시하고 95%의 신뢰도를 기준으로 한다면 (1−0.95)인 0.05값이 유의수준 값

신뢰구간

  • 모수가 어느 범위 안에 있는지를 확률적으로 보여주는 방법
  • 95% 신뢰구간 -> 반복적으로 표본 추출을 100회 했을때 모평균을 포함한 신뢰구간이 95개 나올 수 있음을 의미

A/B 테스트 참고 사항

  • 시간의 흐름에 따른 차이를 확인 필요
    • A/B 테스트 결과는 시간에 따라 변화하는 일이 자주 발성
    • 새로운 기능이 나오면, 새 기능을 일단 사용하는 유저가 존재하여 전환율과 p-value에 영향
    • 시간의 흐름에 따른 추이 변화, 혹은 브라우저 버그 / 기능 오류 등 외부 요인 확인 필요
  • 결과의 유효 기간 확인
    • 의미있는 결과가 꾸준하게 유효하지는 않음
    • 계절 변화, 시장상황 변화, 사용자층 변화, 취향 변화 등 다양한 요인에 따라서 변화 가능
  • 국지적 최적화의 함점
    • A/B 테스트는 주어진 조건에서의 답을 찾음
    • 조건 자체가 최선이 아니라면 결과도 좋지 않음

profile
데이터 분석하고 있습니다

0개의 댓글