A/B TEST 정리 (+p-value)

우수민·2023년 3월 9일

잡다한 공부

목록 보기

13/13

=> 요약하면, 변수 사이의 인과관계를 확인하기 위한 사회과학 실험 방법론

순차 테스트는 A/B 테스트가 아님
샘플링은 홀/짝 보다는 다양한 경우를 고려해보야함
- 랜덤 추출 : 어떤 인위적인 요소가 없이 무작위로 표본을 추출하는 방법
- 편의 추출 : 확률표본 중에 하나로, 조사자가 조사비용 을 줄이고 조사대상자를 쉽게 선정하려고 할 때 이용
테스트 유형에 따른 분석방법 구분
- 종속 변수가 범주형(ex. 클릭 여부, 가입 여부)
  - 로지스틱 회귀 : 독립 변수의 선형 결합을 이용하여 사건의 발생 가능성을 예측하는 데 사용되는 통계 기법
  - 카이제곱 검정 : 관찰된 빈도가 기대되는 빈도와 의미있게 다른지의 여부를 검정하기 위해 사용되는 검정방법
- 종속 변수가 이산형(ex. 클릭 횟수, 결제 금액)
  - T검증 : “두 모집단의 평균간의 차이는 없다”라는 귀무가설과 “두 모집단의 평균 간에 차이가 있다”라는 대립가설 중에 하나를 선택할 수 있도록 하는 통계적 검정방법
  - 분산 분석 : 서로 다른 그룹의 평균(또는 산술평균)에서 분산값을 비교하는 데 사용되는 통계 공식

p값이란, 귀무가설이 옳다고 가정했을 때 관찰한 값 (예 : 평균값의 차이) 이상으로 극단적인 값이 나올 확률

현실에서 얻은 데이터가 귀무가설이 옳은 가상 세계에서는 얼마나 나타나기 쉬운가, 또는 어려운가를 평가하고자 p값이라는 값을 계산
이 값은 확률이므로, 0이상 1이하의 값
이 값이 작다는 것은, 귀무 가설이 옳은 세계에서는 현실에서 얻은 데이터가 잘 나타나지 않는 다는 뜻
- ex. 현실에서 얻은 평균값의 차이가 +10이고 p=0.01이라면, 귀무가설이 옳은 세계에서 평균값의 차이가 +10이상이거나 -10이하가 될 확률은 1%
p값과 유의수준 a를 이용한 가설 판정
- p 값이 작다는 것은 귀무가설이 옳은 세계에서는 현실 데이터가 잘 나타나지 않는 다는 뜻이므로, p값은 귀무가설과 현실 데이터 간의 괴리 정도를 평가하고 있는 셈
- 일반적으로 p값이 0.05 이하인 경우, 귀무가설 하에서 현실 데이터는 나타나기 어렵다고 생각하고, 귀무가설을 기각하고 대립가설을 채택
  -> 이때 평균 값의 차이는 "통계적으로 유의미한 차이가 있다"라고 표현
  -> 주의할 것은 이것이 대립가설이 절대적으로 옳다는 뜻이 아니라, 대립가설을 지지하는 하나의 증거를 얻음을 의미
- p값이 0.05를 상회하는 경우 귀무가설을 기가할 수 없으며, "통계적으로 유의미한 차이는 발견하지 못했다"라는 결과

단어 정리
1. 귀무 가설 : 밝히고자 하는 가설의 부정 명제
2. 대립 가설 : 밝히고 싶은 가설
3. 유의 수준 : 통계적인 가설검정에서 사용되는 기준값. 일반적으로 유의 수준은 α로 표시하고 95%의 신뢰도를 기준으로 한다면 (1−0.95)인 0.05값이 유의수준 값

시간의 흐름에 따른 차이를 확인 필요
- A/B 테스트 결과는 시간에 따라 변화하는 일이 자주 발성
- 새로운 기능이 나오면, 새 기능을 일단 사용하는 유저가 존재하여 전환율과 p-value에 영향
- 시간의 흐름에 따른 추이 변화, 혹은 브라우저 버그 / 기능 오류 등 외부 요인 확인 필요
결과의 유효 기간 확인
- 의미있는 결과가 꾸준하게 유효하지는 않음
- 계절 변화, 시장상황 변화, 사용자층 변화, 취향 변화 등 다양한 요인에 따라서 변화 가능
국지적 최적화의 함점
- A/B 테스트는 주어진 조건에서의 답을 찾음
- 조건 자체가 최선이 아니라면 결과도 좋지 않음

참고
1. https://www.oracle.com/kr/cx/marketing/what-is-ab-testing/
2. 그로스해킹 - 데이터와 실험을 통해 성장하는 서비스를 만드는 방법
3. 통계 101 X 데이터 분석

데이터 분석하고 있습니다