1.데이터 기반 의사 결정이란?
두 가지 형태의 데이터 기반 의사 결정
- 데이터란 기본적으로 과거의 기록
- 이를 바탕으로한 결정은 지금 하는 일의 최적화에 가까움 vs 혁신
- Data Driven Decision
- Data Informed Decision
데이터에서 인사이트 찾기
- 중요 지표를 데이터를 기반으로 정의하고 시각화하기
- 가설을 바탕으로 실제 데이터를 보고 확인하기
- A/B 테스트”
데이터 분석 케이스들 살펴보기
- 중요 지표 대시보드 만들기
- 고객 이탈률 분석: 보통 코호트 분석으로 진행
- 고객 잔존률 분석: 보통 코호트 분석으로 진행
- 마케팅 기여도 분석
- 등등
데이터 분석의 예 - 고객 이탈률
- 샌프란시스코 기반 전동 스쿠터 회사에서 돈을 많이 쓰는 고객들이 두세달 후에는 서비스를 그만 사용하는 현상이 발견됨
- 어느 서비스이건 돈을 많이 쓰는 사람(VIP)들의 이탈률을 트래킹하는 것이 중요함
데이터 기반 부가가치 예 - 고객용 대시보드
- Airvet이란 회사와 수행했던 프로젝트로 고객용 대시보드 개발
- Airvet은 원격 애완동물 진료 서비스를 제공해주는 마켓플레이스
- 애완동물 주인과 수의사/동물병원을 연결
- 세일즈포스와 내부 매출 정보를 연동하여 수의사/동물병원용 대시보드 개발
- 세일즈포스 정보를 데이터 웨어하우스로 복사
- 룩커(Looker)를 대시보드로 사용
데이터 분석의 예 - 마케팅 기여도 분석
- 샌프란시스코 기반 화장 (火葬) 스타트업인 튤립의 예
- 다양한 광고 마케팅을 디지털 미디어 기반으로 수행
- 이 결과를 빠르게 분석하여 어느 채널에 어떤 형태의 마케팅이 효과적인지 파악
- 디지털 마케팅은 기본적으로 데이터 중심으로 돌아감
데이터 분석의 예 - 고객 불만과 이탈률간의 관계
- 서비스 관련해서 트러블슈팅 전화를 하는 고객들의 이탈률은 어떨까?
- Survivorship Bias & Confirmation Bias
데이터 분석가의 역할
- 비지니스 인텔리전스를 책임짐
- 중요 지표를 정의하고 이를 대시보드 형태로 시각화
- 대시보드로는 태블로(Tableau)와 룩커(Looker)등의 툴이 가장 흔히 사용됨
- 오픈소스로는 수퍼셋(Superset)이 많이 사용됨
- 이런 일을 수행하려면 비지니스 도메인에 대한 깊은 지식이 필요
- 회사내 다른 팀들의 데이터 관련 질문 대답
- 임원들이나 팀 리드들이 데이터 기반 결정을 내릴 수 있도록 도와줌
- 질문들이 굉장히 많고 반복적이기에 어떻게 셀프서비스로 만들 수 있느냐가 관건
데이터 분석가의 스킬셋
- SQL
- 보통 코딩을 하지는 않지만 파이썬 코딩 능력이 있다면 금상첨화
- 데이터 모델링과 ELT (“T”)
- dbt라는 툴을 많이 사용함
- 통계적 지식
- A/B 테스트 지식과 경험
- 지표 정의와 대시보드 (Tableau, Looker, Power BI, …)
- 비지니스 도메인에 관한 깊은 지식
데이터 분석가의 딜레마
- 보통 많은 수의 긴급한 데이터 관련 질문들에 시달림
- 많은 경우 현업팀에 소속되기도 함
- 내 커리어에서 다음은 무엇인가?
- 소속감이 불분명하고 내 고과 기준이 불명확해짐
- 데이터 분석가의 경우 조직구조가 더 중요함
2.조직 구조의 중요성과 트렌드
3가지 데이터 팀 조직 구조
중앙집중 구조: 모든 데이터 팀원들이 하나의 팀으로 존재
- 일의 우선 순위는 중앙 데이터팀이 최종 결정
- 데이터 팀원들간의 지식과 경험의 공유가 쉬워지고 커리어 경로가 더 잘 보임
- 하지만 현업부서들의 만족도는 상대적으로 떨어짐
분산 구조: 데이터 팀이 현업 부서별로 존재
- 일의 우선 순위는 각 팀별로 결정
- 데이터 일을 하는 사람들간의 지식/경험의 공유가 힘들고 데이터 인프라나 데이터의 공유가 힘들어짐
- 현업부서들의 만족도는 처음에는 좋지만 많은 수의 데이터 팀원들이 회사를 그만두게 됨
분산 구조: 데이터 팀이 현업 부서별로 존재
- 2가지 경우 존재
- 기존 중앙 집중 구조에서 조직 변경을 통해 분산 구조화
- 자생적으로 혹은 인수합병 등을 통해 조직별 데이터팀 존재
- 어떤 문제들이 존재하는가?
- 서로 다른 데이터 전략
- 회사 전체로 볼때 불완전한 데이터 셋
- 중복 투자
- 보안/규제 관련 이슈 발생 가능성 증가
- 하지만 이는 어쩔 수 없는 트렌드로 보임
- 이 관점에서는 클라우드 이전이 도움이 됨
- 클라우드도 대세임
중앙집중과 분산의 하이브리드 모델
- 가장 이상적인 조직 구조
- 데이터 팀원들은 일부는 중앙에서 인프라적인 일을 수행하고 나머지는 현업팀에서 작업
- 중소 규모 회사에서는 기능/목적 조직구조의 형태로 데이터팀 안에서 커리어 경로를 만들 수 있음
회사의 크기에 따라 데이터 조직의 형태가 아주 다름
- 회사가 아주 커지면 회사 전체 데이터 웨어하우스의 구성은 불가능해짐
- 조직 별로 데이터 시스템을 별도로 갖추게 되고 필요로 따라 통합 시스템을 구성
- 데이터 메쉬의 필요성이 점점 대두됨
- 마이크로소프트의 예
- 2018년 기준 법무팀과 재무팀의 경우 별도 데이터 시스템 구축
- 그 전에는 조직별로 별도 법무팀과 재무팀 존재
- 별도 시스템을 구성하면서 시스템을 Azure로 이전
3.용어 설명 - 데이터 메쉬 (Data Mesh)
- Zhamak Dehghani가 2019년 처음 제안
- 데이터 메시는 중앙 관리와 표준을 염두에 둔 데이터 분산 데이터 아키텍처
- 현재로는 기술이라기 보다는 개념에 가까움
- 조직/문화적인 준비가 필요한 개념이기도 함
- 마이크로서비스와아주 흡사한 원칙을 갖고 있음
<중앙 시스템>
1980년대 후반 : Data Warehouse (Top-down)
2000년대 후반 : Data Lake (Bottom-up)
2010년 중반: Cloud Data Platform
<분산 시스템>
2021년: Data Mesh
마이크로서비스
- 웹 서비스를 다수의 작은 서비스(microservice)들로 구현하는 방식
- 각 서비스들은 팀 단위로 원하는 언어/기술로 개발하는 자율성을 가짐
- 각 서비스들은 계약관계로 지켜야하는 책임이 있고 서비스 정보를 등록해야함
Service Registry
- Decentralization
- Modularity
- Domain driven design
- Focus on empowering teams
4.데이터 조직의 일주일 살펴보기
애자일 개발방법론
- 세상이 빠르게 변화하면서 미리 소프트웨어의 요구 사항을 알 수 없음
- 알아도 시간이 지나면서 변하게 됨
- 소프트웨어 개발은 폭포수 모델(Waterfall Model)이 아닌 애자일 방법론이 대세가 됨
- 애자일 개발방법론의 특징
-아는 만큼 보이는 만큼 만들어가자! 매 사이클마다 바로 쓸 수 있는 기능을 구현
- 짧은 사이클이 특징 (보통 1-3주). 보통 스프린트(Sprint)라고 부름
- 매 스프린트마다 다음 스텝들을 반복
- 플래닝 미팅: 스프린트 동안 무엇을 할지 결정
- 매일 스탠드업 미팅: 매일 짧게 모두 만나서 경과보고
- 데모/회고 미팅: 스프린트의 마지막에 만나서 성과 공유 후 토론
- 데이터팀도 애자일 방법론을 사용하는 것이 일반적
월요일
- 지난 스프린트 리뷰
- 지난 스프린트에 한 일들을 리뷰: 각자 자기가 한 일을 데모
- 회고 미팅: 뭐가 잘 되었고, 뭐가 더 잘 될 수 있었고, 기타 논의할 점이 있는지?
- 새로운 한주 계획
- 이번 한주에 무슨 일들을 할지 결정
- 미팅 제외 하루 5시간쯤 일한다고 가정
- 30% 정도의 시간은 유지보수에 사용한다고 가정
- 온콜 엔지니어와 분석가 지정
- 데이터 ETL 관련 이슈와 다양한 데이터 관련 질문을 맡을 사람들을 별도로 지정
- 특히 ETL 관련 이슈 해결은 데이터 시스템의 안정성에 중요함
애자일/스크럼 보드
- JIRA가 가장 많이 사용됨
- Swit, ClickUp등의 후발주자도 많이 사용되는 추세
화요일
- 매일 스탠드업 미팅 (Daily Standup)
- 매일 5분 정도 모두가 모여서 다음에 대해 이야기
- 어제 무슨 일을 했는가?
- 오늘 무슨 일을 하는가?
- 어제나 오늘을 하면서 어떤 문제가 있는가?
- 다양한 미팅들 (화요일은 미팅의 날)
- 내부 팀원들과의 미팅
- 데이터 엔지니어 <-> 데이터 분석가
- 데이터 엔지니어 <-> 데이터 과학자
- 데이터 분석가 <-> 데이터 과학자
- 다른 팀과의 sync-up 미팅
- 마케팅, 프로덕트 매니저, 세일즈,...
수요일/목요일
- 매일 스탠드업 미팅 (Daily Standup)
- 보통 비디오 콜로 하거나 경우에 따라서는 슬랙등의 메세지 툴로 대신하기도
함
- 중요 지표 리뷰 미팅
- 대시보드를 보면서 중요 지표에 어떤 변화가 있는지 살펴봄
- 머신러닝 모델 개발 리뷰 미팅
- 개발 중인 머신러닝 모델에 관련해서 전체적으로 리뷰하는 미팅
- 만일 A/B 테스트중인 머신러닝 모델이 있다면 지금까지의 성능에 대해 리뷰하고 성공여부 결정
금요일
- 매일 스탠드업 미팅
- 데이터팀 주간 스태프 미팅
1. 중요 지표와 회사/팀 목표 리뷰
- ETL 성공/실패 비율 리뷰
- 머신러닝 모델 관련 리뷰 (개발상황, A/B 테스트 진행상황)
2.구인 상황과 팀내 중요인력 상황 점검
3.주간 사고 리뷰 - 필요하다면 별도 리뷰 미팅
4.메인 프로젝트 리뷰
5.외부 프로젝트 (다른 팀과 협업하는 프로젝트)
6.내부 프로젝트
- 팀/개인 업데이트
5.좋은 지표(KPI)
- 조직내에서 달성하고자 하는 중요한 목표
- 보통 정량적인 숫자가 선호됨
- 예를 들면 매출액 혹은 유료 회원의 수/비율
- 명확한 정의가 중요함 -> 지표 사전이 필요
- KPI의 수는 적을수록 좋음
- 잘 정의된 KPI -> 현재 상황을 알고 더 나은 계획 가능
- 정량적이기에 시간에 따른 성과를 추적하는 것이 가능
- OKR(Objectives and Key Results)과 같은 목표 설정 프레임웍의 중요한 포인트
지표(Metrics)
- 지표와 KPI의 차이점은 중요도
- KPI는 회사에서 중요한 지표. 즉 지표가 더 큰 개념
- 팀/개인별로 중요한 성과 목표를 정량적으로 갖는 것이 중요
- 데이터 문해력(Data Literacy)의 시작점
KPI 기준
- Represent delivery of real value
- Captures recurring value
- MRR (Monthly Recurring Revenue) vs. Total revenue
- Lagging indicator (후행지표)
- vs. Leading indicator (선행지표)
- Registered users vs. Paid users
- Usable feedback mechanism
- Used for decision making: WAU vs. MAU
좋은 지표의 특성
- 3A (Accessible, Actionable, Auditable)
- 쉽게 볼 수 있어야 함 (Accessible)
- 지표를 보는 것이 쉬어야함 -> 시각화툴이 바로 여기서 도움이 됨
- 실행가능한 통찰력이 제공되어야 함 (Actionable)
- 지표 등락의 의미가 분명해야함
- 감사가 가능해야 함 (Auditable)
- 지표 계산이 제대로 되었는지 검증이 가능해야함
- 데이터 기반이어야 가능
Next Dashboard Fallacy
- 기존 지표 기반 결정을 못하고 대시보드를 계속해서 만드는 현상
- 의사결정 장애의 일종 :)
- 지표의 수는 적을수록 좋고 따라서 대시보드의 수도 적을수록 좋음
- 대시보드의 수가 늘어나면 Dashboard Discovery 이슈가 발생함
- 비슷한 것으로 Next Feature Fallacy가 있음
6.KPI와 선행/후행 지표 예
- Working Backwards라는 책의 6장에 있는 내용
- 입력에 초점을 맞춰서 출력에 긍정적인 영향을 끼쳐라
- 인풋(input): 입력, 투입물
- 아웃풋(output): 출력, 결과물
- 인풋 지표: '아웃풋 지표를 움직이는 지표'이며, 직접 통제 가능한 지표
- 예: 제품 다양성, 가격, 편의성, 새로운 강의들
- 선행 지표 (Leading Indicator)
- 아웃풋 지표: 인풋 지표의 결과로, 직접 통제 불가능한 것
- 예: MAU, 판매량, 계약건수, 매출, 이익
- 후행 지표 (Lagging Indicator)
KPI와 선행 지표 예
- 매출액 (vs. Active Users)
- 기존 고객 매출 (recurring) vs. 새로운 고객 매출 (new)
- 매출 = 가격(P) * 판매량 (Q)
- P가 고정되었다는 전제하에서는 Q를 늘릴 방법을 찾아야함
- Q에 영향을 주는 인풋 지표 (선행 지표)는?
- 예를 들어 일반 영업팀이라면 아웃바운드 영업 건수, …?
- 예를 들어 온라인 교육 사이트라면 온라인 강의 수, 사이트 방문자 수?
- 시간을 두고 선행 지표를 발전시켜야함
두 가지 중요한 KPI
- 매출 vs. 서비스 사용 고객수 (DAU, WAU, MAU)
- 보통 매출이 훨씬 더 중요한 지표
- 단 새 고객에서 발생하는 매출과 기존 고객에서 발생하는 매출을 따로 볼 것
- 네트워크 현상이 중요한 도메인에서는 “서비스 사용 고객수"도 중요한 지표
- 이 때 “서비스 사용 (Active)”의 정의가 중요
- 유료 고객 vs. 무료 고객
- 마켓플레이스라면 콘텐츠 공급자 vs. 소비자
7.다양한 시각화 툴 소개
시각화 툴
- 대시보드 혹은 BI(Business Intelligence)툴이라고 부르기도 함
- KPI (Key Performance Indicator), 지표, 중요한 데이터 포인트들을 데이터를 기반으로
계산/분석/표시해주는 툴
- 결국은 결정권자들로 하여금 흔히 이야기하는 데이터 기반 의사결정을 가능하게 함
- 데이터 기반 결정 (Data-Driven Decision)
- 데이터 참고 결정 (Data-Informed Decision)
- 현업 종사자들이 데이터 분석을 쉽게 할 수 있도록 해줌
어떤 툴들이 존재하나?
- Excel, Google Spreadsheet: 사실상 가장 많이 쓰이는 시각화 툴
- Python: 데이터 특성 분석(EDA: Exploratory Data Analysis)에 더 적합
- Looker (구글)
- Tableau (세일즈포스)
- Power BI (마이크로소프트)
- Apache Superset (오픈소스)
- Mode Analytics, ReDash
- Google Studio
- AWS Quicksight
Looker
- 특징
- LookML이 자체언어로 데이터 모델을 만드는 것으로 시작
- 내부 고객뿐만 아니라 외부 고객을 위한 대시보드 작성가능
- 고가의 라이센스 정책을 갖고 있으나 굉장히 다양한 기능 제공
Tableau
- 특징
- 다양한 제품군 보유. 일부는 사용이 무료
- 제대로 배우려면 시간이 꽤 필요하지만 강력한 대시보드 작성가능
- Looker가 뜨기 전까지 오랫동안 마켓 리더로 군림
어떤 시각화 툴을 선택할 것인가?
- Looker 혹은 Tableau가 가장 많이 사용되는 추세
- 두 툴 모두 처음 배우는데 시간이 필요함
- Tableau의 가격이 더 싸고 투명하며 무료 버전도 존재해서 공부가 가능
- 중요한 포인트는 셀프서비스 대시보드를 만드는 것
- 안 그러면 매번 사람의 노동이 필요해짐 -> 60-70%의 질문을 셀프서비스 대시보드로 할 수 있다면 대성공
- 또한 사용하기가 쉬워야 더 많은 현업 인력들이 직접 대시보드를 만들 수 있음
- 데이터 민주화 (Data Democratization), 데이터 탈중앙화 (Data Decentralization)
- 데이터 품질이 점점 더 중요해지며 데이터 거버넌스가 필요한 이유가 됨!
- 이런 측면에서는 Looker가 더 좋은 선택이지만 가격이 상당히 비쌈
이 글에서 소개된 내용은 프로그래머스 데이터분석1기에서 진행된 한기용 강사님의 온라인 강의를 참조하여 작성되었습니다.