[그로스 해킹]을 읽고 - 성장 실험 :A/B 테스트
성장 실험 :A/B 테스트
1) A/B 테스트란?
두개의 변형 A와 B를 사용하는 종합 대조 실험
통계적 가설 검정 또는 2-표본 가설 검정의 한형태
=>두 가지 서로 다른 옵션에 대한 사용자의 반응을 측정함으로써,
어떤 옵션이 더 효과적인지 검증하는 과정
=>A/B테스트를 수행하기 위한 실험 설계,결과 분석,유의사항을 살펴봐야함2) A/B 테스트 설계하기
A/B테스트를 이해하려면,기초적인 개념을 이해해야 한다.
목록 설명 독립 변수와 종속 변수가 무엇인지를 정의하고,종속 변수의 목표 수준을 정하는 형태로 이뤄진다. 가설 '10% 더 높을것이다'와 같이 구체적인 목표 수준을 포함하는 것도 좋다. 실험에 필요한 샘플 크기를 구하려면 가설 수립 단계에서 목표 수준을 정해야 한다. ㅡㅡㅡㅡㅡ ㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡ 독립 변수와 종속 변수가 무엇인지를 정의하고,종속 변수의 목표 수준을 정하는 형태로 이뤄진다. 실험 집단 / 통계 집단 전체 모수 중 실험 조건에 할당되는 사용자들을 어떤 기준으로 구분하고,어떤 비율로 할당할 것인지 정의해야 함. 통제 변수 관리와 엄격한 기준에 따른 샘플링이 가장 중요한 절차 ㅡㅡㅡㅡㅡ ㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡ 설명 변수 또는 예측 변수라고 한다. (인과관계에서 원인이 되는 변수) 독립 변수 독립 변수를 정의한 다음,해당 변수의 구체적인 수준도 결정해야 한다. 일반적으로 2개 내외의 수준을 정해서 테스트 진행. ㅡㅡㅡㅡㅡ ㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡ 독립 변수에 의해 영향을 받을 것으로 기대되는 변수다. 인과 관계에서 결과가 되는 변수 종속 변수 일반적으로는 종속 변수의 변화량에 따라 실험의 성과를 판별 측정 가능해야 하며,구체적으로 어떤 기준으로 측정할 것인지 조작적 정의 실험 설계 과정에서는,종속 변수의 현재 수준을 측정하고,실험을 통해 어느정도의 변화를 기대하는지 정의하는 것이 필요 ㅡㅡㅡㅡㅡ ㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡ 독실험 결과에 영향을 미칠 수 있기 때문에,실험,통계 집단 모두에서 동등한 조건을 가져야 하는 변수를 의미 =>독립변수는 아니지만,종속 변수에 영향 통제 변수 일반적으로는 종속 변수의 변화량에 따라 실험의 성과를 판별 A/B테스트의 성패는 통제 변수를 얼마나 잘 관리하느냐에 달린 경우가 많다. ex) 유료 광고,친구 추천등 ㅡㅡㅡㅡㅡ ㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡ 가설 검증에 필요한 실험 참가자의 숫자를 의미 샘플크기 통계적 유의도를 확보하기 위한 숫자를 고려해서 실험 전에 미리 정해야 한다. ㅡㅡㅡㅡㅡ ㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡ 실험 기간 샘플 크기를 고려했을 때,가설 검증을 위한 데이터를 수집하는데 필요한 기간 정의 3) A/B 테스트 설계 시 유의사항
A/B테스트 설계의 성패는 실험 집단과 통제 집단을 적절하게 나누고,
통제 변수 관리를 얼마나 잘 했느냐에 달려 있다.
목록 설명 통제 변수가 잘 관리 된것은 => 랜덤 추출 O 실험 집단 통제 변수 관리가 잘 되지 않은 상태에서는 => 랜덤 추출 X 통제 집단 =>우선적으로 고려할 것은 독립 변수 이외에 종속 변수에 영향을 미치는 샘플링 변수가 있다면, 이를 통제 변수에 포함해야 한다. ㅡㅡㅡㅡㅡ ㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡ 순차테스트는 A조건으로 일정 기간 테스트 후, B조건으로 연이어 테스트 한 후, 두 가지 결과로 비교하는 것. 순차 테스트 =>순차 테스트는 제대로 된 통제 변수 관리를 할 수 없다. 동시 테스트 =>실험 기간이 달라짐에 따라 기대하지 못한 외부 효과가 개입 할 여지가 있어서 =>순차 테스트를 해야한다면,샘플링 오류에서 자유로운가 꼼꼼하게 검증해야함 ㅡㅡㅡㅡㅡ ㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡ 실험 시작전,샘플 크기를 미리 정해야 한다. 샘플 크기 =>샘플 크기에 대한 고려 없이 실험 시,엿보기 &조기 중지의 함정에 빠짐 =>샘플 크기 계산기에서는 가설,검정력,유의수준등 실험 설계 조건이 필요 4) A/B 테스트 결과를 분석하는 방법
목록 설명 A/B테스트를 판단하기 위해서는 p값과 실험의 성과,비용,가치 고려 p-value에 대한 이해 =>단순 평균이나 합계 지표의 차이는 샘플링 방법이나 실험 설계에 따라 영향받을 수 있으며,잘못될 판단이 될 가능성이 있다. =>p값은 귀무가설 하에 관찰된 검정통계량만큼 극단적 값이 관찰될 확률 ㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡ ㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡ A/B테스트 계산기를 활용하면,통계적 유의성을 간단히 확인 할 수 있다. A/B테스트 종속 변수의 형태에 따라 계산 방식이 달라진다. 계산기 종속 변수가 범주형(클릭 여부,가입 여부)-로지스틱 회귀,카이 제곱 검정 종속 변수가 이산형(클릭 횟수,결제 금액)-T검증,분산분석 ㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡ ㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡ p값이 A/B테스트의 결과를 판단하는 단 하나의 절대적 기준은 아니다. 테스트 비용과 A/B테스트의 가치는 p값 외에 실험이 실질적으로 효과를 미치는 크기나 효과 크기 영향력을 고려해서 판단해야 한다. 5) A/B 테스트 진행 시 주의사항
A/B테스트의 실수는 다음과 같다.
- 무가설
A/B테스트를 통해 어떤 가설을 검증하고 싶은지 명확히 정하지 않고,
A/B테스트를 진행하는 경우, 얻을 수 있는 결과가 거의 없다.
=>모든 실험 설계의 출발점은 가설에 근거해서 진행된다!
- 통제 변수 관리 실패
A/B테스트가 실패하는 가장 큰 원인은 통제 변수를 식별하지 못했거나
찾아낸 통제 변수를 잘 관리하지 못하는 것이다.
=>독립 변수 외에 종속 변수에 영향을 주는 변수가 없는지 신중히 판단하고,실험 집단 샘플링을 진행하자!
- 단순 평균 비교
A/B테스트에 따른 종속 변수를 단순히 평균 비교하면, 우연에 의한 결과와 실제 효과를 혼동할 수 있다.
=>평균 비교 외에도,분포,유의수준,효과 크기 등을 종합적으로 고려해야하자!
- 엿보기 + 조기 중지
A/B테스트에서의 엿보기와 조기 중지란 실험을 진행하는 동안 p값이 0.05이하로 내려가는 시점에 갑자기 실험을 중단해 버리는 것을 의미
=>명백한 어뷰징 행위
=>실제로는 없는 효과를 있는 것처럼 판단 할 수 있다.
- 시간의 흐름에 따른 차이를 살펴보지 않는 것
시간의 흐름에 따라 종속 변수가 어떻게 변화했는지 보는 것도 중요하다.
=>실험 과정을 시간의 흐름에 따라 꼼꼼하게 재확인하기 !
- 과거의 A/B테스트 경험을 지나치게 신뢰하는 것
'과거의 결과가 앞으로도 유효할 것이다'라고 보장할 수는 없다.
=>어제의 최적화는 오늘의 레거시일 수 있다는 점을 기억하자!
- 국지적 최적화의 함정
A/B테스트는 A와 B중 B가 더 좋다는 점을 알려줄 수 있지만,
B가 모든 경우에서 좋은 최적의 조건이라는 것은 아니다.
=>애초에 A와 B라는 조건 자체가 최선이 아니었다면,
A/B테스트의 임팩트 자체가 크지 않을 수 있다.
=>전역 최적화가 아닌 국지적 최적화를 찾는 실험임을 유의하자!