<데이터 리터러시>
📕데이터 리터러시
데이터 리터러시
: 데이터 리터러시는 데이터를 종합적으로 처리하고 활용하는 능력을 의미한다. 데이터를 읽고 그 가치를 이해하는 것뿐만 아니라, 데이터를 해석하고 그 의미를 파악하여 데이터가 포함하는 정보를 통찰로 전환할 수 있는 역량을 포함한다.
[네이버 지식백과]
데이터를 읽고 이해하고 활용할 수 있는 능력
데이터 분석에 대한 착각
보통은 데이터 분석에 대한 학습을 한다고 하면 SQL, Python, Tableau등을 학습
그러나, 막상 데이터 분석을 하려고 하면 생각한 것 만큼 잘 되지 않음!
- 데이터를 잘 분석하면 문제, 목적, 결론이 나올 것
- 데이터를 잘 가공하면 유용한 정보를 얻을 수 있다
- 분석에 실패시, 방법론,스킬이 부족한 것이라 생각
데이터 해석 오류 사례
- 심슨의 역설 : '일부분'에서 성립한 대소관계 -> '전체'에 대해서는 성립하지 않는 모순적인 경우
- 시각화를 활용한 외곡 : 자료의 표현 방법에 따라 해석의 오류 여지가 존재
- 샘플링 편향 : 전체를 대표하지 못하는 편향된 샘플 선정으로 인한 오류 발생
- 상관관계와 인과관계 : 상관관계 != 인과관계 라는 것을 항상 유의해야함
데이터 리터러시가 필요한 이유
- 문제 및 가설정의 (생각)
- 데이터 분석 (작업)
- 결과 해석 및 액션 도출 (생각)
(생각) 이 주요한 단계에서 데이터 분석이 목적이 되지 않도록 '왜?'를 항상 생각해야 함!
📕문제정의
문제 정의란?
- 데이터 분석에 실패하는 이유? 풀고자 하는 문제를 명확하게 정의하지 않음
- 문제 정의란?
- 데이터 분석을 위한 기반
- 분석하려는 특정 상황/현상에 대한 명확하고 구체적인 진술
- 프로젝트 목표 설정, 분석 방향을 설정
- 사례
방향성이 정확히 잡혀있지 않아 데이터 분석을 어떻게 진행해야 할지 어려움
문제 정의 방법론
- MECE(Mutually Exclusive, Collectively Exhaustive)
: 상호 배타적(Mutually Exclusive)이면서, 전체적으로 포괄적인(Collectively Exhaustive) 구성요소로 나누는 것
- 로직 트리(Logic Tree)
: MECE 원칙 기반 -> 더 작고 관리하기 쉬운 하위 문제로 분해 => 정답이 있는건 아님!
상위문제 -> 하위문제 (도표형식으로 표현되어 쉽게 파악 가능)
문제정의 정리와 관련 팁
- 문제정의의 핵심은 So What? Why So?
💡문제정의 팁
- 결과를 공유하고자 하는 사람이 누구인가?
- 결과를 통해 원하는 변화?
- (회사라면) 경영자의 입장에서 보려고 노력
- 많은 사람들과 의견을 나눠보는 것도 방법
- 반드시 혼자서 오래 고민해보는 시간을 가질 것
📕데이터의 유형
정성적 데이터 vs 정량적 데이터
- 정성적 데이터 = 비수치형 자료 = 주관적
- 정량적 데이터 = 수치형 자료 = 객관적
- 데이터 유형별 비교
정량적 데이터의 사례
- 인구 통계
- 수치형 설문조사
- 비즈니스 성과
- 행동 로그
정량적 데이터의 활용
- 정량적 데이터의 활용
객관적이고 측정가능한 지표를 만들기에 적합
- 통계적 분석 적용
분포, 평균, 중앙값 등 계산 -> 데이터의 경향성,패턴 파악
- 다양한 데이터 분석 방법 적용
비즈니스 분석, 예측 모델링, 추세 분석을 포함한 머신러닝과 같은 현대적 데이터 분석 기법에 활용 가능
📕지표 설정
지표 설정
- 지표란? : 목표/성과 측정 하기 위한 구체적인 기준(측정 가능한 기준으로 설정)
- 문제 정의 vs 지표 설정
문제정의 : '어떤 문제를 풀고자 하는가?'
지표 : '어떤 결과를 기대하는가?'에 대한 정량화된 기준
주요 지표 이해하기
1. Active User(활성유저)
- 지표의 역할
'활성유저'의 정의 설정
-> 정의에 따라 전략과 목표가 달라짐
-> '이탈유저'가 정의됨
- 설정 해보기
퍼널 구간(깔대기 구조)에 따라 Active User설정
- 그외
2. Retention Ratio(재방문율)
- 역할
(리텐션) : 고객이 서비스를 지속적으로 이용하고 있는가??
= 몇 %의 유저가 우리 서비스를 다시 사용하는지??
- 리텐션 더 알아보기
기본적으로는 방문을 기준으로 측정, - Active User에서 활성의 기준을 정해줬던 것 같이 - 서비스의 특성에 따라 '활성'의 기준을 다르게 정의할 수 있음
- 측정 방법
- N-Day 리텐션 : 최초 사용일로부터 N일 후에 재방문한 Active User의 비율
- Unbounded 리텐션 : 특정 날짜를 포함하여 그 이후에 재방문한 유저의 비율
- Bracket 리텐션 : 설정한 특정 기간을 기반으로 재방문율을 측정
- 리텐션에 대한 이해
리텐션이 높은 세그먼트를 발굴하는 작업이 필요함
서비스의 사용 주기에 따라 리텐션 조회 기간을 늘려야 함
사후 분석 시에 용이
3. Funnel(퍼널)
4. LTV(Life Time Value, 고객 평생 가치)
북극성 지표
북극성 지표란?
- 북극성 지표
제품/서비스가 유저에게 주는 core value를 가장 잘 나타낸 것
장기 성장을 위해 필수적으로 모니터링 해야 함
- 좋은 북극성 지표의 특징
- 제품/서비스 전략의 핵심
- 유저/고객이 제품/서비스에서 느끼는 가치
- 회사의 사업 목표를 나타내는 지표 중 선행지표(후행X)
- 좋은 북극성 지표를 위한 체크리스트
- 좋지 않은 북극성 지표
북극성 지표의 사례
북극성 지표가 중요한 이유
- 방향성
제품/사업 조직이 무엇에 최적화되어야 하고, 무엇을 포기해도 되는 지에 대한 방향 제시
제품/서비스 조직이 결과에 책임을 지도록 함
- 비즈니스 임팩트에 따라 평가가 가능
- 효율 증대
사람들을 하나의 목표에 집중시킴
= 서로 상반된 목표 집중 / 중복으로 일하는 것 방지 (MECE 구조)
- 북극성 지표의 구조
📕결론 도출
결과와 결론의 차이
- 결과 : 구체적인 데이터의 출력
- 결론 : 분석된 데이터 결과 -> 의미/톨찰
실제로 우리가 필요한 것은 ‘결론’이지만, 보통 결과를 많이 이야기 함
- 결론 도출시 주의사항
결과 - 결론 도출 시에는 스토리텔링이 필요
그러나, 필요 이상으로 자신의 해석을 융합하면 안됨
- 데이터를 통해 알 수 있는 범위에서만 생각해야 함
결론을 잘 정리하는 법
문제 정의, 지표 설정 당시의 목적을 떠올리며 정리
결론을 공유할 대상이 누구이며, 어떻게 변화하길 원하는지? 생각하기
- 단순하고 쉽게 전달
- 흥미 유발
- 대상자 관점에서의 접근 : 허들이 낮은 시각화 사용
- 시각화 팁 : 화려한 것보단 직관적으로 구성
- 결론 보고서에 쓰면 좋은 플로우
- 전체 내용을 한 문장으로 정리하는 요약
- 해당 보고서의 메인 주제
- 해당 보고서를 쓴 이유와 원하는 변화
- 문제 정의 단계
- 핵심 내용 전개
- 결론 및 액션 아이템
⭐결국 데이터 리터러시란?
총정리
- 눈앞에 있는 데이터에 의존하지 않고 스스로 목적과 문제를 정의하는 것
- 그 목적을 달성하는데 필요한 데이터와 지표를 설정하는 것
- 데이터를 어떻게 봐야 문제의 정보를 효과적으로 얻을 수 있는지 분석하는 것
- 단순히 데이터를 보는 방식이나 분석 방법론, 통계지식에 매몰되지 않는 것
- 왜?를 항상 생각하기
오늘은 데이터 리터러시 강의를 다 듣고 데이터 전처리와 시각화를 듣기 앞서 어떤 플로우로 어떻게 진행해야 하는지에 대해 조금 더 자세히 알게되는 시간을 가졌다..
내일은 데이터 전처리를 듣고 한번 요약해보기로 하자!