데이터 분석을 하다보면 여러 지표를 만나게 된다.
KPI로 쓰이는 지표를 선택할 수 있는 정도 였지만 Lean Analytics 라는 책에서 다양한 지표들이 가지는 의미와 그 지표를 가지고 어떤일을 할 수 있는지 정리해 놓은 부분이 있는데 실제로 적용해볼 만한 개념도 많은 것 같았다.
이 책에서 소개한 지표의 분류들을 한번 정리해 두면 두고두고 써먹을 거 같다는 생각을 하며 책의 내용을 정리를 해본다.
글 순서
상대적
비교할 대상(시간대, 경쟁사 등)이 있다면 지표의 상황을 이해하는데 도움이 된다.
예를 들어 "A사 대비 우리 회사의 매출은 10% 더 높다", "지난달보다 구매 전환율이 10%p 증가 했다" 처럼 비교 대상을 명시해줄 수 있다면 더 쉽게 이해할 수 있다.
이해하기 쉬움
지표는 결국 사람들의 의사결정을 돕기 위해 존재한다.
그렇기 때문에 지표를 보는 사람들이 기억하고 대화를 나눌 수 있도록 이해하기 쉽게 만들어야 데이터의 변화를 현실의 변화로 옮길 수 있다.
- 행동 반영하기 쉽다.
- 자동차 운전시 속도(시간당 이동거리)를 표시함으로써 운전자는 속도를 조절하는 행동을 할 수 있다.
- 비교의 속성이 있다.
- 비교하기 수월하다.
- 자동차 운전시 이전 한시간의 평균속도와 지금의 속도를 비교한다면,
속도를 높이고 있는지 줄이고 있는지 알 수 있다(추세인지 일시적 현상인지 알 수 있다)
영화의 평가점수, PageView와 같이 정량화 하여 측정할 수 있는 데이터이다.
정량적 데이터는 객관적이고, 함수를 추정해 값을 에측 할 수 있다.
하지만 "왜?"에 대한 답을 제공하기 어렵다. 유저가 불편을 느낀 것이 어떤 것인지 정량적 데이터로 유추를 해볼 수 있지만 이것 때문이다! 라고 말할 수는 없다.
인터뷰나 토론같은 체계적이지 않고 주관적인 데이터이다.
정성적 데이터는 정량화하기도 측정하기도 힘들다.
정량적 데이터가 "무엇"과 "얼마나"에 대한 답을 제공한다면, 정성적 데이터는 "왜?"에 대한 답을 제공한다.
좋은 정성적 데이터를 얻기 위해서는 유저에게 대답을 유도하거나 왜곡하지 않아야 하며, 구체적인 질문을 통해 답을 얻어야 한다. (심리학에서 실험을 할 때 연구자가 피실험자에게 어떠한 영향도 끼쳐서는 안되는 것과 동일한 개념같다)
데이터 분석을 위해서는 정량적 데이터가 전부다! 라고 생각했지만,
게임에서 UX를 개선하기 위해 플레이를 시켜보고 인터뷰를 하는 과정이 있는 것 처럼
정량적 데이터에 매몰되서는 안되겠다라는 생각을 한 지표였따...
많은 기업들은 data-driven 방식을 사용한다 하지만 data를 활용할 뿐 driven을 하지 않는 경우가 많다.
허상지표란 실행에 옮길 수 없는 지표이다.
기분은 좋게 만들지언정 데이터가 정보를 제공해주고 방향을 제시해주며 사업 모델을 개선시키고 행동을 결정하는 데 도움이 되지 않는다.
어떤 지표를 볼 때 이 정보로 내가 무엇을 할 수 있을지를 항상 생각한다면 허상지표의 늪에 빠져 허우적 되는 일을 줄일 수 있고 비로소 "data-driven" 하게 일을 할 수 있다.
대표적인 허상지표 예시들
- 전체 가입자 수 : 시간이 지날수록 우상향 할 수 밖에 없다.
- 전체 활동 사용자 : 가입자 수보다는 좀 나은 지표긴 하지만 이또한 시간이 지나면 상승한다.
- Hit 수 : 웹 서버에서 가져올 파일이 많으면 높게 나오기 마련 -> 대신 사용자 수를 세야함
- PageView : Hit 수 보단 낫지만, 온라인 광고가 아니라면 사용자 수를 세는 것이 낫다.
- 방문 수 : 한사람이 백번 방문인지, 백명이 한번씩 방문인지 구분할 수 없다.
- 순수 방문자 수 : 방문한 사람의 수를 알려줄 뿐 몇번 방문했는지, 무었을 했는지, 웹에 머무르는지 떠났는지 여부를 알 수 없다.
- 팔로워/친구/좋아요 수 : 단순히 인기 겨루기에 불과하다.
- 사이트에 머무른 시간 / 페이지 수 : 유저 유입이나 활동에 대해 알려주지 않는다. 그리고 고객 불만 페이지에서 높게 측정된다면 분명 좋은 일은 아닐 것이다.
- 수집된 이메일 수 : 오픈율, 클릭율도 있다면 모를까 단순히 이메일이 많다고 도움이 되는 것은 아니다. 테스트를 통해 이메일에 잘 반응하는지 봐야한다.
- 다운로드 수 : 다운로드 수는 랭킹에 영향을 줄 수 있지만 실질적 가치로 이어지기 어렵다. 활성화 유저(DAU,MAU), 새로운 계정 수(NRU) 등 측정을 해야한다.
데이터가 제공해주는 정보를 통해 방향을 제시해주며 사업 모델을 개선시키고 행동을 결정하는 데 도움이 되는 지표이다.
하지만 실질지표가 만능은 아니다. 무엇을 해야하는지 알려주지 않기 때문인데 이는 탐색을 통해 무엇을 테스트할지, 어떤 행동을 취할지 결정해주어야 한다.
(중요한 것은 데이터를 바탕으로 뭔가 행동을 취한다는 것이다)
실질지표 예시
- 활동사용자 비율 : 사용자의 참여도를 알려준다. 제품 수정 테스트를 통해 바뀌는 지표를 확인해본다면 유용한 인사이트를 얻을 수 있다.
- 특정 기간동안 확보한 유저수 : 특히 다양한 마케팅 방식을 비교할 때 유용하다. (첫주는 페북광고, 둘째주는 인스타 광고 등)
매우 흥미로웠던 파트다.
허상 지표에 속지 말자. 마음 아프더라도 현실을 냉철히 바라 볼 수 있는 지표를 선택해야겠따.
뒷부분에도 나와있듯이 데이터 주도적인 것은 좋지만
데이터의 노예가 아니라 데이터를 도구로 사용해야 한다는 것도 명심하자.
(전체를 조망하지 않고 한 부분만 데이터로 최적화하는 예시)
책에서는 "모른다는 것을 아는 것" 이라고 표현하였다.
표현이 애매하기 때문에 좀더 표현을 바꿔보자면 "구체적으로 모르지만 측정을 통해 알 수 잇는 것" 이라고 볼 수 있다.
보고 지표는 말 그대로 측정을 통해 알 수 있는 지표들(실험결과 보고, 매출은 얼마인지 등)로 어떤 경우든 필요한 지표값이라는 것을 알고
책에서는 "모른다는 것을 모르는 것" 이라고 표현하였다.
이또한 표현이 매우 애매하기 때문에 바꿔 말해보면 "아무도 모르는 숨겨진 비즈니스를 찾기 위해 탐색하는 것" 이라고 이해하였다.
서클오브맘즈라는 앱 예시를 들었는데 이들은 특정한 콘텐츠를 공유하는 친구들 모임을 만드는 페이스북 앱으로 시작하였지만, "엄마들" 이라는 사용자군을 발견하고, 비교대상을 전체유저 집단으로 둔 지표(엄마들이 주고 받은 메시지 길이, Active User 등) 를 통해 빠르게 피봇하여 성공을 거두었다.
말이 너무 애매했기 때문에 이해하기 어려운 지표였다...
그만큼 재밌는 생각도 들었는데
특히 탐색지표의 예시인 서클오브맘즈는 당근마켓과 비슷한 점이 많다고 느꼈다.
당근마켓도 엄마들 관련 지표를 관리하고 있지 않을까 생각이 들었는데
옛날 주부 교실이나 주부들의 동네 커뮤니티를 디지털로
전환하려는 (지역 커뮤니티를 기반으로 동아리를 활성화)하려는 시도를 하는 것 처럼 말이다.
선행지표 후행지표 모두 유용하지만 사용목적이 다르다.
선행 지표는 미래를 예측하는 데 사용된다.
"영업 퍼널의 현재 잠재 고객수" 같은 지표는 신규 고객을 얼마나 확보할 지 예상할 수 있다. 잠재 고객 수의 증가는 신규 고객의 증가로 이어질 수 있기 때문에 잠재고객을 어떻게 측정할 것인지도 중요한 포인트가 아닐까 생각한다.
후행 지표는 과거를 보는데 사용된다.
이탈률 같은 지표는 서비스에 문제가 있는지 없는지 알려줄 수 있는데, 소잃고 외양간 고치는 특징(문제를 파악할 때면 이미 늦었다!)이 있다.
선행지표 예시는 실제로 겪어본 적이 없는 지표라 내 위주로 생각을 다시 해보면
"잠재복귀유저수"를 생각해 볼 수 있을 것 같다.
계절성을 띄는 유저(게임에서 학생 집단처럼)는 다음 달이나 다음 분기에
유치할 수 있는 고객의 수가 얼마인지 예측할 수 있기 때문에
좋은 선행지표의 예시가 아닐까 생각해봅니닷
두 변수사이에 상관 관계가 있는지 살펴볼 수 있는 지표이다.
늘 그렇듯 상관관계를 인과관계로 오판해서는 절대 안된다.
대표적인 예시로 아이스크림 소비와 익사 건수는 상관관계가 있지만 인과관계라고 볼 수 없다. 아이스크림 소비 수로 장례식장의 사업 주가를 예측하려고 하는 우를 범하지 말아야한다.
당연히 함께 증가하는 이유는 여름이라는 Confounding 변수가 있기 때문이다.
물론 두 지표 사이에 상관관계를 찾는 것은 앞으로 일어나는 일을 예측하는 데 도움이 되긴 한다.
원인 결과가 명확한 지표이다.
보통 인과관계는 1대1 관계는 아니다. 많은 요인이 복합적으로 작용하기 때문에 완벽한 인과 관계를 알아내기는 힘들다. 하지만 부분적인 인과관계라도 도움이 된다.
인과관계 입증을 위해서는 상관관계를 찾고 변수를 통제하며 차이를 측정하는 실험(샘플 수는 많은게 좋다-사람들이 다 똑같진 않으니까 / 유저가 엄청 많으면 모든 변수 통제하지 않아도 신뢰할 만한 테스트가 가능하다.)을 통해 인과관계를 입증해야한다.
상관관계를 알면 도움이 되긴 하지만 인과관계가 더 큰 도움이 되기 때문에 인과관계를 찾으려 노력하자!
얼마전 게임 분석을 할 때 유저 수는 유저 이탈율과 상관관계가
있다는 것을 알게 되었는데 책을 읽으며 이것을 테스트할 방법이 생각났다.
메이플 처럼 많은 서버가 존재하는 경우
다른 변인이 자동적으로 통제된 상태기 때문에(다른 서버라고 게임이 달라지진 않으니)
서버별 유저 수와 이탈율을 비교해보면 이에 대한 인과관계를 밝혀낼 수 있을 것 같다.
물론 유저수가 적으면 경매장도 널널하고 하겠지만
초기 이탈을 기준으로 잡으면 괜찮지 않을까?