A/B 테스트란?
- A/B 테스트는 두 가지 컨텐츠를 비교하여 방문자/뷰어가 더 높은 관심을 보이는 버전을 확인
- 관심 분야에 대한 결과를 늘리거나 극대화하는 웹페이지에 대한 변경 사항이 무엇인지 규명하는 것
=> 요약하면, 변수 사이의 인과관계를 확인하기 위한 사회과학 실험 방법론
A/B 테스트 설계
- 가설 : 실험을 통해 무엇을 확인하고 싶은지 설정(독립변수와 종속 변수 식별 + 종속 변수의 목표 수준).
- 실험집단 / 통제 집단 : 실험군을 어떤 기준으로 구분하며, 어떤 비율로 할당할 것인지 설정
- 독립변수 : 종속변수에 영향을 줄 거라고 기대되는 변수
- 종속변수 : 실험의 성과를 측정할 떄 사용하는 변수
- 통제변수 : 실험 결과에 영향을 미칠 수 있기 때문에 실험/통제 집단 모두에서 동등한 조건을 가지는 변수
- 종속변수의 현재 수준과 목표 수준 : 현재의 수치와 예상되는 수치
- Sample Size : 가설 검증에 필요한 실험 참가자수 -> 미리 설정 필요
- 실험 기간
A/B 테스트 설계 시 고려 사항
- 순차 테스트는 A/B 테스트가 아님
- 샘플링은 홀/짝 보다는 다양한 경우를 고려해보야함
- 랜덤 추출 : 어떤 인위적인 요소가 없이 무작위로 표본을 추출하는 방법
- 편의 추출 : 확률표본 중에 하나로, 조사자가 조사비용 을 줄이고 조사대상자를 쉽게 선정하려고 할 때 이용
- 테스트 유형에 따른 분석방법 구분
- 종속 변수가 범주형(ex. 클릭 여부, 가입 여부)
- 로지스틱 회귀 : 독립 변수의 선형 결합을 이용하여 사건의 발생 가능성을 예측하는 데 사용되는 통계 기법
- 카이제곱 검정 : 관찰된 빈도가 기대되는 빈도와 의미있게 다른지의 여부를 검정하기 위해 사용되는 검정방법
- 종속 변수가 이산형(ex. 클릭 횟수, 결제 금액)
- T검증 : “두 모집단의 평균간의 차이는 없다”라는 귀무가설과 “두 모집단의 평균 간에 차이가 있다”라는 대립가설 중에 하나를 선택할 수 있도록 하는 통계적 검정방법
- 분산 분석 : 서로 다른 그룹의 평균(또는 산술평균)에서 분산값을 비교하는 데 사용되는 통계 공식
A/B 테스트 효과 판단
- 기본적으로는 분포와 신뢰구간, 효과 크기를 기준으로 판단
- p값만 보고 단편적으로 판단하면 안되지만, 무시해서도 안됨
- 서비스별로 다양한 방법으로 측정이 필요
P-value
p값이란, 귀무가설이 옳다고 가정했을 때 관찰한 값 (예 : 평균값의 차이) 이상으로 극단적인 값이 나올 확률
- 현실에서 얻은 데이터가 귀무가설이 옳은 가상 세계에서는 얼마나 나타나기 쉬운가, 또는 어려운가를 평가하고자 p값이라는 값을 계산
- 이 값은 확률이므로, 0이상 1이하의 값
- 이 값이 작다는 것은, 귀무 가설이 옳은 세계에서는 현실에서 얻은 데이터가 잘 나타나지 않는 다는 뜻
- ex. 현실에서 얻은 평균값의 차이가 +10이고 p=0.01이라면, 귀무가설이 옳은 세계에서 평균값의 차이가 +10이상이거나 -10이하가 될 확률은 1%
- p값과 유의수준 a를 이용한 가설 판정
- p 값이 작다는 것은 귀무가설이 옳은 세계에서는 현실 데이터가 잘 나타나지 않는 다는 뜻이므로, p값은 귀무가설과 현실 데이터 간의 괴리 정도를 평가하고 있는 셈
- 일반적으로 p값이 0.05 이하인 경우, 귀무가설 하에서 현실 데이터는 나타나기 어렵다고 생각하고, 귀무가설을 기각하고 대립가설을 채택
-> 이때 평균 값의 차이는 "통계적으로 유의미한 차이가 있다"라고 표현
-> 주의할 것은 이것이 대립가설이 절대적으로 옳다는 뜻이 아니라, 대립가설을 지지하는 하나의 증거를 얻음을 의미
- p값이 0.05를 상회하는 경우 귀무가설을 기가할 수 없으며, "통계적으로 유의미한 차이는 발견하지 못했다"라는 결과
- 단어 정리
- 귀무 가설 : 밝히고자 하는 가설의 부정 명제
- 대립 가설 : 밝히고 싶은 가설
- 유의 수준 : 통계적인 가설검정에서 사용되는 기준값. 일반적으로 유의 수준은 α로 표시하고 95%의 신뢰도를 기준으로 한다면 (1−0.95)인 0.05값이 유의수준 값
신뢰구간
- 모수가 어느 범위 안에 있는지를 확률적으로 보여주는 방법
- 95% 신뢰구간 -> 반복적으로 표본 추출을 100회 했을때 모평균을 포함한 신뢰구간이 95개 나올 수 있음을 의미
A/B 테스트 참고 사항
- 시간의 흐름에 따른 차이를 확인 필요
- A/B 테스트 결과는 시간에 따라 변화하는 일이 자주 발성
- 새로운 기능이 나오면, 새 기능을 일단 사용하는 유저가 존재하여 전환율과 p-value에 영향
- 시간의 흐름에 따른 추이 변화, 혹은 브라우저 버그 / 기능 오류 등 외부 요인 확인 필요
- 결과의 유효 기간 확인
- 의미있는 결과가 꾸준하게 유효하지는 않음
- 계절 변화, 시장상황 변화, 사용자층 변화, 취향 변화 등 다양한 요인에 따라서 변화 가능
- 국지적 최적화의 함점
- A/B 테스트는 주어진 조건에서의 답을 찾음
- 조건 자체가 최선이 아니라면 결과도 좋지 않음