두 가지 이상의 사안을 대조하여 어떤 것이 더 효과적인지 판단하는 실험 기법이다.
동일 기간에 놓여 있는 두 집단을 비교하는 것이며,
데이터를 기반으로 지표를 확인해 나가면서 실험 결과에 따라 배포하지 않을 수 있다.
📈 해결 방안
✔️ MAB(Multi-Armed Bandit)
탐색과 활용 사이의 균형점을 찾는 것이다. 이를 통해 성과가 좋은 안으로 트래픽을 실시간으로 몰아 기회비용을 줄인다.
- 탐색: 각 버전의 실제 성과를 알아보기 위해 충분히 시도하는 것
- 활용: 지금까지 가장 좋은 성과를 보인 버전을 더 많이 사용
=> 이 사이의 균형점을 찾는 것이 중요한 것이다.
✔️ 경험 증가
비교적 많은 사용자가 경험해 본 이후의 데이터가 수집될 수 있도록 실험 기간을 1-2주 이상 유지해 데이터가 안정화되었을 때 수집된 데이터를 활용하도록 한다.
✔️ 무작위 할당 점검
실험-대조군을 나눌 때 무작위 할당이 제대로 되었는지, 너무 특정 범주 안에서 무작위로 표본을 추출한 것은 아닌지 점검해 볼 필요성이 있다.
p-value, 즉 통계적으로 유의미함을 나타내는 지표가 전체 실험 중 가능한 오차 범위인 5%(0.05)보다 높을 경우 통계적 유의미가 상실되었다고 한다.
이것은 A와 B 사이의 차이가 없다는 귀무가설에 더 힘이 실린 것이므로 추가적인 실험 및 또 다른 가설의 수립이 필요하다.
혹은 검정력이 부족하여 실제로는 차이가 있으나 샘플 사이즈가 너무 작아 차이를 감지하지 못하였을 가능성도 배제해서는 안 된다.
전체적인 데이터가 아닌 특정 집단의 데이터를 수집하여 재실험해 볼 수 있다. 특정 집단 내에서라도 효과가 있을 가능성을 배제하지 않는 것이다
전체적인 가설을 재설정한다. 사용자를 이용한 실험이므로 변경 사항이 사용자의 눈에 크게 띄지 않아 변동성이 적을 만큼 미미한 결과를 보였는지 검토한 후 과감한 변화를 시도해 본다.
정량적인 조사를 진행하여 나온 결과이므로 사용자의 의견을 직접 들어 보는 정성적인 조사를 한 번 시도해 볼 수 있다.
서비스 내 유저의 행동을 체계적으로 분류한 데이터 지도라고 할 수 있다.
시스템 설계 시, 네이밍 규칙을 정해 이름을 혼동하지 않게끔 하고,
서비스가 커져도 구조가 깨지지 않도록 유연한 설계를 진행하며,
어떤 문제의 해결을 위해 해당 데이터가 필요한 것인지를 먼저 정의해 보아야 한다.