AB테스트 - SQL 실습

김지수·2025년 7월 14일

AB 테스트란?

  • 두 가지 버전(A와 B)을 비교하여 어떤 것이 더 효과적인지를 판단하는 실험 방법

  • 예를 들어, 기존 버전에서는 "지금 구매하세요!"라는 광고 문구를 넣고 실험 버전에서는 "오늘 한정 할인!"이라는 광고 문구를 삽입한다. 두 가지 버전 중 어떤 문구에서 클릭률이 높을지 확인하는 것이 AB 테스트이다.

AB 테스트의 절차

  1. 가설 수립: “오늘 한정 할인! 이라는 문구에서 클릭률이 높을 것이다.”

  2. 테스트 설계: 사용자 집단을 무작위로 나누기

  3. 실험 수행: 일정 기간 동안 데이터 수집

  4. 분석: 통계적으로 유의미한 차이 있는지 확인

  5. 결정: 승자 선택 → 적용

A/B 테스트로 할 수 있는 분석

  1. 그룹 간 전환율 비교
  • Control 그룹과 Treatment 그룹의 평균 전환율 차이를 비교한다.
  • B 그룹의 성과가 더 좋다면, 해당 변경을 정식 도입할 수 있다.
  1. 시간 흐름에 따른 변화 분석
  • 날짜별 전환율 추이나 적응 곡선을 확인한다.
  • A 그룹은 시간이 지나도 꾸준한 성과 유지 / 시간이 지나면서 B 그룹의 전환율이 점점 상승한다.
  1. 세그먼트 분석
  • 나이, 지역, 디바이스 종류 등 사용자 속성에 따른 실험 효과의 차이를 분석한다.
  • 20대에겐 B가 더 효과적, 40대에겐 A가 더 나은 결과가 나온다.
  1. 이상치 및 데이터 정합성 확인
  • 데이터 오류나 이상치를 찾아낸다.
  • Control 그룹인데 신버전 페이지를 본 경우? / 특정 날짜에 전환율이 비정상적으로 급등한 경우?
  1. 통계적 유의성 검정
  • 실험 결과가 우연이 아닌지를 통계적으로 검증한다.
  • z-test: 전환율처럼 비율 비교에 사용
  • t-test: 체류 시간이나 구매액 등 평균값 비교에 사용

A/B 테스트 설계 시 고려할 점

  1. 무작위 할당
  • 실험군(Treatment)과 대조군(Control)에 랜덤하게 할당해야 한다.
  1. 통제 변수 설정
  • 실험 외적인 변수(시간대, 브라우저, 캠페인 등)가 결과에 영향을 주지 않도록 조건을 통일하거나 분석 시 통제 변수로 포함시킨다.
  1. 충분한 표본 크기 확보
  • 너무 적은 사용자로 실험하면 우연에 의한 결과일 가능성이 높다.
  1. 지표의 명확한 정의
  • 환율, 클릭률, 이탈률, 체류 시간 등 핵심 성과지표(KPI)를 실험 전에 명확히 정해둔다.
  1. 실험 기간 설정
  • 짧은 기간에는 특정 요일/시간대/이벤트의 영향을 받을 수 있어 대표성이 떨어질 수 있다.

A/B 테스트에서 통계적 유의미성을 도출하는 과정

  1. 귀무가설과 대립가설 수립
  • 귀무가설(H₀): A와 B 간에 차이가 없다.
  • 대립가설(H₁): A와 B 간에 차이가 있다.
  1. 적절한 통계 검정 선택
  • 측정하려는 지표의 특성에 따라 적절한 검정을 선택한다.
  • 전환율 비교: z-test / 평균값 비교: t-test
  1. p-value 계산
  • p-value는 “귀무가설이 맞다고 가정했을 때, 관측된 결과가 나타날 확률”을 의미한다.
  • 일반적으로 p-value < 0.05이면, 귀무가설을 기각하고 “차이가 있다”고 판단한다.
  1. 신뢰수준(Confidence Level) 설정
  • 보통 95% 신뢰수준을 사용한다. 오차 가능성이 5% 미만이라는 의미이다
  1. 효과 크기 (Effect Size)도 함께 고려
  • 효과크기는 두 그룹 간 차이의 크기를 나타내는 지표이다.
  • 통계적으로 유의미한 차이(p < 0.05)라도 실제로는 미미한 차이일 수 있다. (예: 샘플 수가 너무 많아서) 따라서, "그 차이가 실제로 의미 있는 크기인가?"도 함께 판단해야 한다.
  1. 파워 분석(Power Analysis)으로 검정력 확인 (사후 분석 시)
  • 실험에서 진짜 차이가 있을 때, 그걸 감지할 수 있는 확률
  • 파워가 낮으면 → 실험 결과가 "유의미하지 않다"고 나왔어도 그건 “진짜 효과가 없어서”가 아니라 “검출할 능력이 부족해서” 일 수 있다. (예: 샘플 개수의 부족)
  • 실험을 잘 설계하려면 얼마나 많은 샘플이 필요한지 미리 계산해야 한다. (사전 파워 분석)
profile
오늘 배운 것을 기록하며, 나만의 지식으로 만들어가는 성장 일지 💪🍀

0개의 댓글