통계적 실험 - A/B test
데이터 분석가는 특정 가설을 검증하거나 기각하기 위해 통계적 실험을 수행한다. 이는 우리가 설정한 가설이 통계적으로 유의미한지 확인하는 과정이다. 이 글에서는 통계적 실험의 기본 개념과 가장 널리 사용되는 A/B 테스트에 대해 자세히 알아보자.
통계적 실험의 기본 개념
통계적 실험은 특정한 목적을 가지고 관찰(측정값)을 통해 결과를 얻어내는 과정이다. 이 과정의 목표는 통계적 추론을 통해 보다 진실에 가까운 값을 도출하는 것이다.
- 독립변수(원인): 설명 변수라고도 불리며, 결과에 영향을 주는 요인이다.
- 종속변수(결과): 결과 변수라고도 불리며, 독립변수에 의해 변화하는 값이다.
모수 통계 vs. 비모수 통계
데이터의 종류에 따라 적절한 분석 기법을 선택해야 한다. 이때 모수(Parametric) 통계와 비모수(Non-parametric) 통계를 구분하는 것이 중요하다.
- 모수 통계: 모집단이 정규분포를 따른다는 가정하에 사용된다. 모집단을 대표하는 평균, 분산 등의 모수값을 이용하는 통계 기법이다.
- 비모수 통계: 모집단이 정규분포를 따르지 않을 때 사용된다. 평균, 분산 등 특정 값을 가정하지 않고 분석하고, 주로 소규모 실험에 적합하다.
중심극한정리 (Central Limit Theorem)
중심극한정리는 모집단이 충분히 크다면, 표본 평균의 분포가 모집단의 분포와 상관없이 정규분포에 가까워진다는 통계 이론이다. 이 정리는 통계적 추론의 근간이 되는 중요한 개념이다.
A/B 테스트 (A/B Test)
A/B 테스트는 비즈니스 마케팅에서 필수적인 통계적 실험 방법이다. 두 가지 처리 방법 중 어느 쪽이 더 효과적인지 입증하기 위해 시험군을 두 그룹으로 나누어 진행하는 방식이다.
A/B 테스트의 목적
- UI/UX 개선: 사용자 인터페이스와 경험을 최적화한다.
- 전환율 증가: 웹사이트 방문자가 구매, 회원가입 등 원하는 행동을 하도록 유도한다.
- 매출 증가: 최소 투자로 최대 이익(ROI)을 창출한다.
A/B 테스트 진행 과정
- 현행 데이터 탐색: 현재의 데이터를 분석하여 주요 지표를 파악한다.
- 가설 설정: 비즈니스 목표를 달성하기 위한 KPI를 정의하고, 귀무가설(H₀)과 대립가설(H₁)을 설정한다.
- 귀무가설(H₀): 두 그룹 간에 차이가 없다는 가설이다.
- 대립가설(H₁): 두 그룹 간에 차이가 있다는 가설이다.
- 유의수준 설정: 귀무가설이 맞을 때, 이 가설을 기각할 수 있는 오류의 허용 기준을 정한다. 이를 유의수준(α)이라고 하고, 일반적으로 5%(α=0.05)를 사용한다.
- 테스트 설계 및 실행: 실험 그룹과 대조 그룹을 나눈다. 대조군(Control Group)에는 기존 버전을, 실험군(Test Group)에는 새로운 버전을 적용한다.
- 테스트 결과 분석: 두 그룹의 결과를 분석하여 통계적으로 유의미한 차이가 있는지 확인한다.
A/B 테스트 성공을 위한 조건
A/B 테스트가 의미 있는 결과를 얻기 위해서는 몇 가지 조건을 충족해야 한다.
- 적절한 표본 크기: 표본의 크기가 충분히 커야 신뢰할 수 있는 결과를 얻을 수 있다.
- 하나의 변수만 변경: 한 번에 하나의 변수만 변경해야 어떤 요인이 영향을 미쳤는지 명확하게 파악할 수 있다.
- 무작위성: 사용자들을 무작위로 그룹에 배정해야 편향되지 않은 결과를 얻을 수 있다.
- 정해진 기간 동안 진행: 동일한 기간 동안 테스트를 진행해야 외부 요인에 의한 영향을 최소화할 수 있다.
유의수준과 p-value의 이해
유의수준(α)
유의수준은 귀무가설이 맞음에도 불구하고 이를 기각할 확률을 의미한다. 이는 신뢰수준과 반대 개념이다. 신뢰수준 95%는 무작위로 표본을 추출했을 때 100번 중 95번은 모집단의 값을 포함한다는 의미이며, 이때의 유의수준(α)은 1−0.95=0.05가 된다.
검정통계량 (Test Statistic)
검정통계량은 귀무가설을 채택하거나 기각하기 위해 사용되는 확률 변수이다. 분석 기법에 따라 다양한 형태를 가진다.
- Z-value: 모집단의 분산을 아는 경우 (연속형 데이터)
- t-value: 모집단의 분산을 모르는 경우 (연속형 데이터)
- χ2-value: 표본 비율이나 빈도 비교 (범주형 데이터)
- F-value: 두 개 이상의 그룹 분산 비교 (범주형 데이터)
p-value
p-value는 검정 결과가 우연히 일어날 확률이다. 0과 1 사이의 값을 가지며, p-value가 작을수록 우연히 일어났을 가능성이 낮다는 것을 의미한다.
- p-value < α: 통계적으로 유의미한 결과이며, 대립가설을 채택한다. 즉, 두 그룹 간에 유의미한 차이가 있다고 판단한다.
- p-value ≥ α: 통계적으로 유의미한 차이가 없으며, 귀무가설을 채택한다. 즉, 결과가 우연히 발생했을 가능성이 높다고 판단한다.
이러한 개념들을 바탕으로 A/B 테스트 결과를 해석하고, 비즈니스 의사결정에 활용할 수 있다.