# Weekly Paper 08

제로·2026년 4월 19일

📚 A/B 테스트

두 가지 이상의 사안을 대조하여 어떤 것이 더 효과적인지 판단하는 실험 기법이다.
동일 기간에 놓여 있는 두 집단을 비교하는 것이며,
데이터를 기반으로 지표를 확인해 나가면서 실험 결과에 따라 배포하지 않을 수 있다.


💡 장점

  • 객관적인 의사결정이 가능하다. 실제 사용자 데이터를 바탕으로 결론을 내릴 수 있기 때문이다.
  • 전체 사용자에게 변경 사항 적용 전, 소수인 표본에 먼저 테스트해 리스크를 방지한다.
  • 특정 변경(A => B) 결과에 미친 인과관계를 비교적 명확히 확인이 가능하다.

💡 단점

  • 유의미한 표본을 모으는 데에 시간이 오래 걸릴 수 있다.
  • 단지 새롭기 때문에 클릭율이 오르는 상황을 착각할 수 있다.
  • 샘플 편향으로 특정 집단에만 유리한 실험이 될 수 있다.

📈 해결 방안

✔️ MAB(Multi-Armed Bandit)

탐색과 활용 사이의 균형점을 찾는 것이다. 이를 통해 성과가 좋은 안으로 트래픽을 실시간으로 몰아 기회비용을 줄인다.

  • 탐색: 각 버전의 실제 성과를 알아보기 위해 충분히 시도하는 것
  • 활용: 지금까지 가장 좋은 성과를 보인 버전을 더 많이 사용
    => 이 사이의 균형점을 찾는 것이 중요한 것이다.

✔️ 경험 증가

비교적 많은 사용자가 경험해 본 이후의 데이터가 수집될 수 있도록 실험 기간을 1-2주 이상 유지해 데이터가 안정화되었을 때 수집된 데이터를 활용하도록 한다.

✔️ 무작위 할당 점검

실험-대조군을 나눌 때 무작위 할당이 제대로 되었는지, 너무 특정 범주 안에서 무작위로 표본을 추출한 것은 아닌지 점검해 볼 필요성이 있다.


💡 통계적 유의미

p-value, 즉 통계적으로 유의미함을 나타내는 지표가 전체 실험 중 가능한 오차 범위인 5%(0.05)보다 높을 경우 통계적 유의미가 상실되었다고 한다.

이것은 A와 B 사이의 차이가 없다는 귀무가설에 더 힘이 실린 것이므로 추가적인 실험 및 또 다른 가설의 수립이 필요하다.

혹은 검정력이 부족하여 실제로는 차이가 있으나 샘플 사이즈가 너무 작아 차이를 감지하지 못하였을 가능성도 배제해서는 안 된다.


✔️ 다음 단계

1️⃣ 세그먼트 분석

전체적인 데이터가 아닌 특정 집단의 데이터를 수집하여 재실험해 볼 수 있다. 특정 집단 내에서라도 효과가 있을 가능성을 배제하지 않는 것이다

2️⃣ 가설 재설정

전체적인 가설을 재설정한다. 사용자를 이용한 실험이므로 변경 사항이 사용자의 눈에 크게 띄지 않아 변동성이 적을 만큼 미미한 결과를 보였는지 검토한 후 과감한 변화를 시도해 본다.

3️⃣ 정성적 조사 진행

정량적인 조사를 진행하여 나온 결과이므로 사용자의 의견을 직접 들어 보는 정성적인 조사를 한 번 시도해 볼 수 있다.


📚 이벤트 데이터 로그 설계(Event Taxonomy)의 주요 구성 요소

서비스 내 유저의 행동을 체계적으로 분류한 데이터 지도라고 할 수 있다.

  • Event Name 사용자가 수행한 행동 그 자체를 정의한다.
  • Event Properties 행동이 발생한 상황 그 자체의 정보를 담는다.
  • User Properties 행동을 한 유저의 특성을 의미한다. 이는 시간이 지나도 유지되는 속성이다.
  • Common/Global Properties 모든 이벤트에 공통으로 붙는 시스템 정보다.

시스템 설계 시, 네이밍 규칙을 정해 이름을 혼동하지 않게끔 하고,
서비스가 커져도 구조가 깨지지 않도록 유연한 설계를 진행하며,
어떤 문제의 해결을 위해 해당 데이터가 필요한 것인지를 먼저 정의해 보아야 한다.

0개의 댓글