[A/B Test Case Study] Yammer (1/n)

서대철·2024년 1월 19일
0

분석 실습 노트

목록 보기
1/1
post-thumbnail

분석 파이프라인
1. 문제 정의: 명확한 '비즈니스 문제' 정의 / 가설 설정
2. 데이터 준비
3. 데이터 분석: 가설 검증
5. 결과 공유: 결과 요약 및 시각화
6. 액션플랜 수립: 분석 결과를 기반으로 실행가능한 마케팅 전략 제시

문제상황

Yammer는 야머는 기업용 소셜 네트워크 서비스(SNS)이다. 메시지를 공개적으로 내보내는 트위터와는 달리, 폐쇄적인 그룹 내의 구성원들끼리 사내 메신저로 사용할 수 있게 되어 있다 (현재는 마이크로소프트에 인수되어 Viva Engage라는 서비스로 제공되고 있다).

지난 몇 주 동안 주간 활성 사용자 수(WAU) 감소 추세가 확인되었다. WAU는 한 주 간 최소 한 번 이상의 인터랙션 기록이 남아있는 유저의 수로 정의된다.

인터랙션 예시:

  • 로그인
  • 메시지 확인
  • 좋아요 등
  • (참고: 인터랙션의 기준은 케이스 마다 다를 수 있어 사전에 정확한 정의가 필요하다)

먼저 간단한 쿼리(아래)를 통해 WAU를 시각화해보자.

-- Weekly Active Users (WAU)

SELECT
  DATE_TRUNC('week' , e.occurred_at) as week, 
  COUNT(DISTINCT e.user_id) as weekly_active_users
FROM 
  tutorial.yammer_events e
WHERE 
  e.event_type = 'engagement'
GROUP BY 
  DATE_TRUNC('week' , e.occurred_at)
ORDER BY 
  week;

참고

  • 데이터 원본은 Mode AnalyticsYammer dataset을 활용했다.
  • SQL 쿼리 작성, 시각화는 모두 Mode Analytics의 분석 플랫폼에서 이루어졌다.

데이터 준비

분석에 사용될 테이블들을 살펴보자. 각 테이블에 대한 자세한 설명은 여기(!)에서 확인할 수 있다. 우리 클라이언트가 미국 기업이라는 전제 하에 번역은 하지 않겠다..

  1. users (yammer_users)
  • 하나의 행 당 한 명의 유저 정보가 기술되어 있다.
변수명설명
user_idA unique ID per user. Can be joined to user_id in either of the other tables.
created_atThe time the user was created (first signed up)
stateThe state of the user (active or pending)
activated_atThe time the user was activated, if they are active
company_idThe ID of the user's company
languageThe chosen language of the user
  1. events (yammer_events)
  • 하나의 행 당 하나의 event 정보가 기록되어 있다.
    • 로그인
    • 메시지
    • 검색
    • 가입 퍼널 로그
    • 이메일 수신 관련 로그
변수명설명
user_idA unique ID per user. Can be joined to user_id in either of the other tables.
occurred_atThe time the event occurred.
event_typeThe general event type. There are two values in this dataset: "signup_flow", which refers to anything occuring during the process of a user's authentication, and "engagement", which refers to general product usage after the user has signed up for the first time.
event_nameThe specific action the user took. Possible values include: create_user: User is added to Yammer's database during signup process enter_email: User begins the signup process by entering her email address enter_info: User enters her name and personal information during signup process complete_signup: User completes the entire signup/authentication process home_page: User loads the home page like_message: User likes another user's message login: User logs into Yammer search_autocomplete: User selects a search result from the autocomplete list search_run: User runs a search query and is taken to the search results page search_click_result_X: User clicks search result X on the results page, where X is a number from 1 through 10. send_message: User posts a message view_inbox: User views messages in her inbox
locationThe country from which the event was logged (collected through IP address).
deviceThe type of device used to log the event.
  1. email events (yammer_emails)
  • 이메일 전송과 관련된 이벤트가 기록된 테이블
변수명설명
user_idThe ID of the user to whom the event relates. Can be joined to user_id in either of the other tables.
occurred_atThe time the event occurred.
actionThe name of the event that occurred. "sent_weekly_digest" means that the user was delivered a digest email showing relevant conversations from the previous day. "email_open" means that the user opened the email. "email_clickthrough" means that the user clicked a link in the email.

가설

데이터 테이블을 살펴보고 WAU 감소의 원인에 대한 몇 가지 검증가능한 가설을 세워보자.

  1. 공휴일, 마케팅 이벤트 등 외부적 변수가 작용한 것일까?
  2. 신규 유입 유저들이 감소한 결과일까?
  3. 유저 유입에 요구되는 트래픽의 변화일까 (예: 웹사이트 셧다운)?
  4. 기존 유저들의 이용추세가 감소한 결과일까?
  5. 서비스 이용을 방해하는 프로덕트/기술적 문제일까? (예: 디바이스 관련 문제, UI 문제, 로깅 문제 등)
  6. 이메일 뉴스레터의 효과가 좋지 않은 탓일까?

가능한 여러가지 가설들을 나열해 봤다. 물론, 이 외에도 다양한 가설들이 있을 수 있고, 모든 가설들이 독립적인 것도 아니다. 하나의 가설이 또 다른 가설로 이어질 수도 있기 때문이다. 예를 들어, "신규 유저 유입이 감소했다"는 가설이 참이라고 할 때, 그에 대한 후속 가설로 "웹사이트 셧다운으로 인한 트래픽 감소", 또는 "마케팅 이벤트 종료로 인한 트래픽 감소" 등이 제시될 수 있는 것이다.

중요한 것은 데이터로 검증이 가능한 가설들의 목록을 만들어보고 우선순위에 따라 문제를 구체화 시키는 작업이다. 우선순위 선정에는 다음과 같은 방법이 있다:

  1. 도메인 경험: 산업 분야에 대한 지식과 경험이 있는 사람이라면 가장 가능성있는 가설들을 선정하여 분석을 진행할 수 있다.
  2. 의사소통: 팀 내외의 전문가들과 의견을 교류할 수 있다. 예를 들어, 마케팅 팀에게 주요 마케팅 이벤트에 대한 인사이트를 얻을 수 있다. 사실 현업에서는 가장 빠르고 중요한 방법이다. 데이터에서 무엇을 찾아야 하는지를 정확하게 짚을 수 있기 때문이다.
  3. 신속성: 가장 빠르게 검증이 가능한 가설부터 쳐내는 방법도 가능하다. 데이터가 이미 잘 정리되어 있는 경우, 그 데이터로 검증 가능한 가설부터 접근해 볼 수 있다.
  4. 종속성: 가설들이 논리적 흐름으로 연결되어 있을 때, 가장 첫 가설부터 시작해서 뒤따르는 가설들을 검증해 나갈 수 있다.

다음 포스트에서는 몇 가지 확인이 가능한 가설들을 살펴보겠다.

0개의 댓글