목표 지표 : 추구하는 궁극적 성공을 포착하는 단일 or 작은 지표 집합 (조직이 궁극적으로 무엇을 신경쓰는지를 보여주는것)
- 각 이니셔티브가 지표에 미치는 영향이 작거나, 영향을 실현하는 시간이 오래 걸림 → 단기적으로 움직이는 지표 x
목표 → 지표 : 목표의 지표화
목표 : 조직이 궁극적으로 원하는 것, 미션과 직접적으로 관련
지표 : 목표를 위해 측정 가능한 형태로 변환하는 것
- 완벽한 변환이 어려우므로 명확하게 표현해야함
- 시간에 따른 개선 필요
목표 지표의 도출 방법
- 조직의 지도자(C-Level)들은 목표 지표를 도출하기 위해 “당신의 제품이 존재하는 이유는? 귀사의 성공은 어떤 모습인가?”와 같은 질문에 대답해야 하며 이는 회사의 미션과 결부
예) 마이크로 소프트의 미션 : 지구상의 모든 사람과 모든 조직에 더 많은 것을 성취하도록 힘을 싣는다 / 구글 미션 - 세계의 정보를 정리한다
목표 지표보다 단기적으로 움직임, 더 민감한 지표
조직을 성공으로 이끌기 위한 인과관계 모델
- 성공 요인이 어떤 가설을 반영하는가 → 성공 그 자체보다는 성공으로 이어지는 요인에 집중
무엇이 성공을 이끄는가에 대해 생각할 수 있는 몇가지 프레임워크
- HEART 프레임워크: Happiness, Engagement, Adoption, Retention, Task Success
PIRATE 프레임워크: (AARRR(Acquisition(획득), Activation(활성), Retention(유지), Referred(조회), Revenue(매출)) 또는 전반적인 사용자 퍼널(user funnel))
✍️ Funnel(퍼널)
- 깔때기
- 제품에서 특정 결과에 도달하는데 필요한 단계를 정의하고 활용
- 퍼널은 앞에서 뒤로 개선하는 것보다 뒤에서 앞으로 개선하는 것이 좋음
- 결제할 사람을 확실히 결제하게 만들고, 나중에 유입을 늘리기
- AARRR와 관련된 개념
- 배달 앱 예시
- 메인 화면
- 음식점 화면
- 음식 세부 화면
- 장바구니 화면
- 결제 화면
- 결제 완료
✍️ AARRR Activation(활성), Retention(유지), Referred(조회), Revenue(매출)
- Acquisition : 얼마나 제품에 접근하는가? - Activation : 고객이 최초의 좋은 경험을 하는가? - Retention : 다시 제품을 사용하는가? - Revenue : 얼마나 돈을 버는가? - Referral : 다른 사람에게 공유하는가
- 위의 프레임워크를 통해 궁극적으로 매출을 달성하기 전에 회사는 사용자를 확보하고 그들의 제품이 사용자를 유지할 만큼 충분한 매력을 가지고 있는지 확인 가능.
크게 2가지로 분류됨
조직 가드레일 지표
중요한 제약을 위반하지 않고, 적절한 균형을 가지고 성공을 향해 나아가기 위해 중요.
가능한 많은 사용자를 등록 ↔ 사용자당 참여 수준이 급격히 떨어지면 안됨!
암호 회사 : 보안(해킹, 정보도난 x) ↔ 사용 편의성 및 접근성이 떨어지면 안됨!
⇒ 둘 사이 트레이드 오프
기능 출시 ↔ 페이지 로드 시간이 기능때문에 크게 늘어나면 안됨!
⇒ 종종 목표 지표나 동인 지표보다 더 민감.
- 지표 예시
- 지연 시간: 몇 초라도 지연 시간을 증가시키면 매출 손실이 발생하고 사용자 만족도가 감소할 수 있어 가드레일 지표로 자주 사용.
- 페이지당 HTML 응답 크기: 만약 응답 크기가 크다면 이는 대량 코드 도입을 의미할 가능성 有 → 최적화가 필요한 불완전한 코드를 찾아내어 응답 크기를 줄이는 액션을 취할 수 있음.
- 페이지당 자바스크립트 오류 수: 이 지표를 브라우저별로 세분화해서 관찰한다면 자바스크립트 문제가 브라우저 종속적인지의 여부를 확인할 수 있음.
- 사용자당 매출: 전체적인 매출보다는 통계적 분산이 크기 때문에 가드레일로 사용하기 적합할 수 있음. 보다 민감하게 변형 가능(사용자당 매출 여부, 사용자당 매출 상한, 페이지당 매출 등)
- 사용자당 페이지뷰: 분모 즉, 전체 페이지뷰 수의 변화가 예기치 못한 것이라면 신중히 검토할 필요.
- 클라이언트 충돌: 해당 지표는 클라이언트 소프트웨어나 휴대폰 앱에서 중요한 가드레일 지표임. 사용자당 충돌 수나 전체 사용자당 충돌 여부의 평균은 분산이 작아 이른 단계에서 통계적으로 유의하므로 일반적으로 사용됨.
1. [헬로우봇 스킬스토어 이미지 A/B테스트]
2. [당근마켓의 랜딩페이지 A/B테스트]
목표지표, 동인지표, 가드레일 지표외에 다른 ‘비즈니스 지표 분류법’, ‘실험에 대한 지표’도 존재한다!
자산 지표 vs 참여 지표
- 자산 지표: 총 페이스북 사용자(계정) 수 또는 연결 수와 같이 정적인 자산의 축적 측정
- 참여 지표: 세션 또는 페이지뷰와 같은 사용자의 행동이나 다른 사용자의 제품 이용에 의해 받는 가치 측정
비즈니스 지표 vs 운영 지표
- 비즈니스 지표: 사용자당 매출 또는 DAU(일일 활성 사용자 수) 등 비즈니스의 상태 추적
- 운영 지표: 초당 쿼리 등 운영상의 문제가 있는지 추적
데이터 품질 지표
기초 실험의 내적 타당성과 신뢰도 보장(3장/21장)
진단 또는 디버그 지표
- 목표, 동인 또는 가드레일 지표가 문제를 나타내는 상황을 자세히 검토할 때 추가적인 세분화 또는 기타 정보 제공 가능
- 너무 세부적해서 지속적으로 추적x ⇒ 상황을 파악할 때 추가적으로 세분화할때 사용! 예시 1) 클릭율이 핵심 지표(목표, 동인 또는 가드레일 지표)인 경우 페이지의 특정 영역에서 클릭을 나타내는 20개의 지표(진단 또는 디버그 지표)로 세분화 가능 예시 2) 매출이 핵심 지표인 경우 매출을 2가지 지표로 분해 평균 전체 매출은 두 지표 통합 / 각 지표는 매출에 대해 다른 의미 가짐
- 사용자의 구매 여부(0/1)을 측정하는 지표 → 더 많은/적은 사람들이 구입해서 매출이 증/감
- 구매한 경우에만 구매액을 나타내고, 그렇지 않은 경우 무효한 값을 가지는 조건부 매출 지표 → 평균 구매 가격이 변해서 매출이 증/감
각 팀은 회사의 전반적인 성공에 다르게 기여함.(어떤 팀은 채택에, 다른 팀은 보존이나 성능 지연에)
- 각 팀은 팀의 지표가 전체 회사 지표에 어떻게 연결되어 있는 지 목표와 가설 밝혀야함
- 동일한 지표가 팀마다 다른 역할 할 수 있음
- 어떤팀 :지연 시간 → 가드레일 지표 vs 인프라팀 : 지연시간 → 성능지표/목표지표
전체 목표와 팀의 지표의 일치 예시
- 목표지표 : 장기매출 / 비즈니스 동인지표 : 사용자 참여 및 보존 인 제품 개발 중인 상황
- 제품 지원 사이트 팀 ⇒ ‘사이트에서의 시간’을 동인 지표로 설정하려고 할 때, 더 많은 시간이 좋은 지/나쁜 지 판단하는 기준은 “회사 전체 수준의 지표와 이해관계에 일치하는가”
질적 개념을 구체적이고 계량화할 수 있는 정의로 가져가는 것
목표 지표
- 단순성: 모두가 쉽게 이해하고 폭넓게 수용 가능해야 함.
- 안정성: 새로운 기능을 실행할 때마다 업데이트할 필요가 없어야 함.
동인 지표
- 목표와 이해 관계 일치 여부: 동인 지표가 성공의 동인인지 검증해야 함. 이를 위해 실험을 실행하기도 함.
- 행동 가능 및 관련성 여부: 어떤 행동을 통해 동인 지표를 움직일 수 있다고 믿어야 함.
- 민감성 여부: 대부분의 이니셔티브로부터의 영향을 측정하기 위해 충분히 민감한지 확인(변동 가능성)
※이니셔티브란? : 일상적인 과업을 말하는 게 아니라, 비전/목적/방향을 향하여 과거와는 다른 특별한 과제 또는 프로젝트를 추진하지 않으면 안되는 상황에서 목표를 달성하기 위한 행동
- 조작에 대한 내성 여부: 개인의 유인이나 행동이 지표를 움직이고 조작할 가능성이 없어야 함.
[1]아이디어 도출(확장성이 낮은 방법의 가설을 사용) → [2]지표의 정확한 정의(확장 가능한 데이터 분석에서 가설 검증)
[1]아이디어 도출 단계방법 : 사용자 조사, 사용자 경험 연구(UER, User Experience Research)
내용 : 사용자 만족 사용자 작업 성공에 상관되는 행동의 유형 관찰
예: 바운스 레이트(웹사이트 단기간 체류 사용자의 비율) 관찰을 통해 짧은 체류가 불만족과 관련 있을 것이다라는 아이디어 도출[2]지표 정의 단계 방법 : 온라인 로그데이터 분석
내용 : 아이디어로 도출된 지표가 높은 수준의 지표인지 판단
예 : 지표를 정밀하게 정의하는데 필요한 정확한 임계값(1페이지뷰 OR 20초)을 결정하는데 도움을 줌
- 목표나 동인지표를 정의 할때 품질을 고려
- 검색결과의 클릭이 반환버튼 →나쁜 클릭, 웹사이트 적극적 참여 → 좋은 클릭
- 지표 정의시 품질을 고려하면, 의사결정의 근거가 되는 해석으로 이어질 가능성 커짐
- 링크드인이 사용자 대표하는 충분한 정보를 가졌음 → 클릭은 좋은 의미
지표 정의에 통계적 모델을 통합할 때, 모델을 해석 가능한 상태로 유지하고 시간에 걸쳐 검증하는 것이 필수
• 예시 1) LTV(생애가치)를 계산하여 장기 매출을 측정하고자 너무 복잡한 생존 함수를 사용할 경우, 이해관계자가 이해하기도 어렵고 지표의 하락을 조사하기도 어려우므로 적절치 못한 방법이다.
• 예시 2) 넷플릭스가 동인 지표로 사용하는 “버킷화된 시청 시간”은 해석 가능하고 장기적인 사용자 유지를 나타내기 때문에 적절한 지표이다.
- 지표 자체가 프록시(대리)라는 것을 기억
- CTR(클릭률)이라는 지표로 사용자 참여를 측정할 수 있지만, CTR을 늘리는것에 집중하면 클릭베이트(어그로성 게시물로 클릭율을 높이는 것)증가 시킬 수 있음
보통 지표평가와 검증은 공식적 단계에서 이루어짐
시간이 지남에 따라 지속적으로 이루어져야 하는 작업 존재
예) 새 지표를 추가하기 전에 기존 지표와 비교해 추가 정보를 제공하는지 여부 평가
생애가치(LTV) 지표는 시간 경과에 따라 평가해서 예측 오류가 작게 유지되도록 해야 함.
※생애가치(LTV) 지표 ?
고객이 평생 우리 서비스에 얼만큼을 지불할 것인가를 측정하는 지표
원인: 고객 충성도 프로그램 → 결과: 고객 유지율↑, 고객 LTV↑
⇒ 고객 충성도 프로그램을 서서히 롤아웃(출시)하면서 유지율과 고객 LTV가 증가하는지 실험
(실험 결과를 일반화하기 위한 작업 또한 따로 필요함.)
측정 가능성: “구매 후 만족도”는 직접적 측정이 어려움.
귀속(계산) 가능성: 실험의 변형군에 지표값을 귀속시킬 수 있어야 함.
예를 들어, 실험군과 대조군 사이의 앱 충돌율의 차이가 있다고 가정할 때,
실험군에게서 앱 충돌율을 측정할 수 있어야 함.
민감도 및 적시성: 실험 지표는 시기적절하게 중요한 변화를 감지할 수 있을 정도로 민감해야 함.
- 민감도: 지표의 통계적 분산, 효과의 크기 및 무작위 추출 단위 수(샘플 사이즈)에 따라 달라짐.
- 민감하지 않은 지표의 극단적 예시: 실험 지표가 회사의 주가라면 실험 내에서의 어떤 요소로 인해 주가가 크게 달라지지 않기 때문에 민감하지 않음.
- 매우 민감한 지표의 극단적 예시: 어떤 사용자가 새로운 기능의 존재를 알고 있는지 여부를 측정하는 것은 매우 민감하지만, 존재를 알고 있음으로 인해서 창출되는 실제 가치에 대해서는 측정할 수 없음.
- 위 두 예시의 사이에 위치하는 CTR(클릭율) 지표는 민감하지만, 한 기능에 대한 CTR을 지표로 설정할 경우, 다른 기능에 부정적인 영향을 끼칠 수 있음.
💡 자기 잠식 효과(cannibalization): 한 기업에서 새롭게 출시한 기능이 기존에 그 기업에서 판매하고 있던 다른 기능의 영역까지 침범하여 해당 영역에 부정적인 영향을 끼치게 된다는 것.
- 따라서, 전체 페이지 클릭율이나 구매와 같은 “성공”의 지표 및 성공까지의 시간은 실험을 수행하기 위한 충분한 민감도를 가진 좋은 지표임.
- 예시 1) 클릭당 단가가 “매우 높은” 클릭의 경우 특이값에 해당하므로 분산을 부풀려 실험 효과를 탐지하는 것을 어렵게 만들 수 있음. 따라서 “사용자당 매출 상한”과 같은 지표를 고려할 수 있음.
- 예시 2) “갱신율”이라는 지표는 1년 단위로 구독을 갱신하므로 1년치 실험을 진행하지 않는한 이 지표에 미치는 영향을 측정하는 것이 매우 어렵다. 따라서 갱신율을 직접 실험에 사용하는 대신, 이용도와 같이 갱신과 관련된 대리지표를 찾는 것이 더욱 적절할 수 있다.
품질을 고려하지 않고 지표를 사이트에서의 “체류시간”으로 결정하는 것은 불필요한 페이지나 느린 사이트를 통해 단기적으로 체류시간을 늘려 지표를 개선할 수 있지만, 장기적으로는 사용자의 이탈 원인이 됨.
🩷 OEC 개념과 KPI 혼동 방지
여러가지 목표와 동인지표를 가지고 있을 때 우리는 하나의 지표만 선택하면 안됨→ 최적화를 위한 단순한 단일 지표는 존재하지 않음
예) 온라인 사업을 하는 경우 주요 목표와 동인 지표를 가짐 , 사용자 참여(활성일, 사용자당 세션, 클릭 수)와 금전적 가치(사용당 매출)을 모두 측정해야 함
여러 조직에서는 다양한 주요 지표를 고려하고 있음 → 이 때 주요 고려 사항 중 하나는 트레이드오프
예를 들어, 실험을 통해 사용자 손실이 발생하더라도, 남은 사용자의 참여와 매출이 충분히 증가하여 손실을 상쇄할 수 있다면, 어느 정도의 사용자 손실이 허용될 수 있는지에 대한 고민이 있을 것
이런 상황에서 바람직한 해결책은, 다양한 지표를 종합적으로 고려한 종합 평가 기준인 OEC(Overall Evaluation Criterion)를 도입하는 것
⇒ OEC는 여러 지표를 사전에 정의된 범위로 정규화하고, 각 지표에 가중치를 할당하여 가중합을 구하는 방식
예) 농구 스코어보드2점 슛과 3점 슛별로 나타내지 않고 각 팀별 합산 점수를 기록.
예) FICO 신용점수는 여러 개의 지표를 300에서 850 사이의 단일 점수로 결합.
이를 통해 여러 지표를 하나의 단일 지표로 표현함으로써 성공을 명확하게 정의하고, 조직 내의 이해관계를 조화
그러나 핵심 지표의 수가 많아지면 OEC의 문제가 발생할 수 있음 따라서 핵심 지표의 수를 최소화
보통 5개의 핵심 지표를 제한하는 것이 좋은데, 이렇게 하면 통계적으로 한 지표가 유의미하게 될 확률이 낮아지기 때문
- 지표 수 = 5개, 하나 이상의 지표가 통계적으로 유의하게 될 확률은 23%
- 지표 수 =10개, 위 확률은 40%까지 상승
→ 지표가 많을수록, 1개 이상의 지표가 통계적으로 유의할 가능성이 커져 지표가 충돌 또는 의문을 야기하는 잠재적 문제 발생 가능성이 커짐
아마존의 이메일 프로그램에서도 OEC의 사용이 관련됨
초기에는 단순한 매출을 기준으로 했던 OEC가 문제가 발생
- 아마존의 적합도함수는 이메일 클릭을 한 사용자로 부터 창출된 매출에 기초한 프로그램
- 문제 : 사용자들이 이메일을 너무 많이 받아 짜증을 내게 되면 단순 스팸으로 처리하게됨
- 해결 방안 : 장기적인 관점에서 사용자의 생애 가치를 고려
- 이를 위해 수신 취소의 생애 손실에 대한 모델을 만들었는데, 이를 통해 보다 정확한 판단
- 문제인식 : 클릭율 매출 OEC가 사용자 생애 가치가 아닌 단기 매출에 최적화 되고 있다 → 사용자들이 이메일 수신 취소하고 있다
- 문제 해결 과정 :
이메일 수신 취소시의 생애 기회 손실에 대한 하한을 설정하는 모델 OEC 만듦
2. 수신 취소가 사용자들은 큰 손실만 준다고 판단하는 것을 확인( 단 몇달러만 손해라고 할당한경우에도 참여한 절반 이상이! )
수신취소에 대한 부정적인식 기반으로 ‘구독 취소 페이지’ 개발
- 아마존 이메일이 아닌 ‘캠페인 군’ 이메일 수신만 취소하게함
수신 취소 비용을 감소시킴
단기 목표와 장기 목표가 정반대 방향으로 가는 사례
✅문제 인식 :
빙 랭킹 알고리즘은 버그가 있어서 실험군의 사용자에게 매우 나쁜 검색 결과를 보여 줌그 상황에서도, 두 핵심 조직 지표인 검색어 점유율과 매출이 크게 개선
- 사용자당 고유 검색어(결과 값이 중복되지 않은 검색어) 수 10% 이상 증가
- 사용자당 매출 30% 이상 증가
⇒ 검색 엔진의 장기 목표는검색 엔진의 목표는 사용자가 자신의 답변을 확인하거나 작업을 빨리 완료할 수 있도록 하는 것. 검색어 점유율/매출 향상을 목표 지표로 사용하면 안됨. 의도적으로 검색 엔진의 품질을 떨어뜨려 해당 지표의 향상을 보여주려할 것
✅문제 해결 :
검색 엔진의 OEC(Overall Evaluation Criterion)는 두 가지 핵심 지표 (검색어 점유율/매출)대신에 사용자 경험과 품질을 개선해야함< 문제 해결에서 고려항 사항 >
월별 검색어 점유율을 아래와같이 세 항의 곱으로 분해
- 월별 사용자: 종합 대조 실험에서 사용자 수는 실험 그룹과 대조 그룹 간에 거의 같게 유지
- 세션당 고유 검색어 수: 작업을 완료하기 위해 사용자가 입력하는 검색어의 수를 최소화해야 하지만, 이는 측정하기 어려운 지표 따라서 세션당 사용자 수를 줄이는 것이 더 효과적
- 사용자당 세션: 만족한 사용자가 더 자주 방문하도록 유도하는 것이 중요
마찬가지로, 사용자당 매출 증가도 검색 및 광고 실험을 위한 OEC로 사용되어서는 안 됨
대신 광고에 사용되는 검색어의 평균 픽셀 수를 제한하여 검색당 매출을 증가시키는 것이 목표가 되어야함
굿하트의 법칙
, 루카스 비판
,캠벨의 법칙
은 조직에서 OEC를 선택할 때, 상관관계를 인과관계로 잘못 판단한다는 것을 강조09화 좋은PM은 '허세 지표/메트릭'을 사용하지 않습니다.
빵으로 설명하는 지표 개념 정리(OEC, KPI, Goal, Driver, Guardrail)