12.16(월) 본캠프 16일차 기록

Laña·2024년 12월 16일

내일배움캠프 데이터 분석 5기 스파르타코딩클럽

스파르타코딩클럽 데이터 분석트랙 5기

목록 보기

27/81

<데이터 리터러시>

📕데이터 리터러시

`데이터 리터러시`

: 데이터 리터러시는 데이터를 종합적으로 처리하고 활용하는 능력을 의미한다. 데이터를 읽고 그 가치를 이해하는 것뿐만 아니라, 데이터를 해석하고 그 의미를 파악하여 데이터가 포함하는 정보를 통찰로 전환할 수 있는 역량을 포함한다.
[네이버 지식백과]

데이터를 읽고 이해하고 활용할 수 있는 능력

데이터 분석에 대한 착각

보통은 데이터 분석에 대한 학습을 한다고 하면 SQL, Python, Tableau등을 학습
그러나, 막상 데이터 분석을 하려고 하면 생각한 것 만큼 잘 되지 않음!

흔히 하는 착각

데이터를 잘 분석하면 문제, 목적, 결론이 나올 것
데이터를 잘 가공하면 유용한 정보를 얻을 수 있다
분석에 실패시, 방법론,스킬이 부족한 것이라 생각

데이터 해석 오류 사례

심슨의 역설 : '일부분'에서 성립한 대소관계 -> '전체'에 대해서는 성립하지 않는 모순적인 경우
시각화를 활용한 외곡 : 자료의 표현 방법에 따라 해석의 오류 여지가 존재
샘플링 편향 : 전체를 대표하지 못하는 편향된 샘플 선정으로 인한 오류 발생
상관관계와 인과관계 : 상관관계 != 인과관계 라는 것을 항상 유의해야함

데이터 리터러시가 필요한 이유

데이터 분석 접근법

문제 및 가설정의 (생각)
데이터 분석 (작업)
결과 해석 및 액션 도출 (생각)

(생각) 이 주요한 단계에서 데이터 분석이 목적이 되지 않도록 '왜?'를 항상 생각해야 함!

📕문제정의

문제 정의란?

데이터 분석에 실패하는 이유? 풀고자 하는 문제를 명확하게 정의하지 않음
문제 정의란?

데이터 분석을 위한 기반
분석하려는 특정 상황/현상에 대한 명확하고 구체적인 진술
프로젝트 목표 설정, 분석 방향을 설정

사례

방향성이 정확히 잡혀있지 않아 데이터 분석을 어떻게 진행해야 할지 어려움

문제 정의 방법론

MECE(Mutually Exclusive, Collectively Exhaustive)
: 상호 배타적(Mutually Exclusive)이면서, 전체적으로 포괄적인(Collectively Exhaustive) 구성요소로 나누는 것
로직 트리(Logic Tree)
: MECE 원칙 기반 -> 더 작고 관리하기 쉬운 하위 문제로 분해 => 정답이 있는건 아님!
상위문제 -> 하위문제 (도표형식으로 표현되어 쉽게 파악 가능)

문제정의 정리와 관련 팁

문제정의의 핵심은 So What? Why So?
💡문제정의 팁
1. 결과를 공유하고자 하는 사람이 누구인가?
2. 결과를 통해 원하는 변화?
3. (회사라면) 경영자의 입장에서 보려고 노력
4. 많은 사람들과 의견을 나눠보는 것도 방법
5. 반드시 혼자서 오래 고민해보는 시간을 가질 것

📕데이터의 유형

정성적 데이터 vs 정량적 데이터

정성적 데이터 = 비수치형 자료 = 주관적
정량적 데이터 = 수치형 자료 = 객관적
데이터 유형별 비교

정량적 데이터의 사례

인구 통계
수치형 설문조사
비즈니스 성과
행동 로그

정량적 데이터의 활용

정량적 데이터의 활용
객관적이고 측정가능한 지표를 만들기에 적합
통계적 분석 적용
분포, 평균, 중앙값 등 계산 -> 데이터의 경향성,패턴 파악
다양한 데이터 분석 방법 적용
비즈니스 분석, 예측 모델링, 추세 분석을 포함한 머신러닝과 같은 현대적 데이터 분석 기법에 활용 가능

📕지표 설정

지표 설정

지표란? : 목표/성과 측정 하기 위한 구체적인 기준(측정 가능한 기준으로 설정)
문제 정의 vs 지표 설정
문제정의 : '어떤 문제를 풀고자 하는가?'
지표 : '어떤 결과를 기대하는가?'에 대한 정량화된 기준

주요 지표 이해하기

1. Active User(활성유저)

지표의 역할

'활성유저'의 정의 설정
-> 정의에 따라 전략과 목표가 달라짐
-> '이탈유저'가 정의됨
설정 해보기
퍼널 구간(깔대기 구조)에 따라 Active User설정
그외

2. Retention Ratio(재방문율)

역할
(리텐션) : 고객이 서비스를 지속적으로 이용하고 있는가??
= 몇 %의 유저가 우리 서비스를 다시 사용하는지??
리텐션 더 알아보기
기본적으로는 방문을 기준으로 측정, - Active User에서 활성의 기준을 정해줬던 것 같이 - 서비스의 특성에 따라 '활성'의 기준을 다르게 정의할 수 있음
측정 방법

N-Day 리텐션 : 최초 사용일로부터 N일 후에 재방문한 Active User의 비율
Unbounded 리텐션 : 특정 날짜를 포함하여 그 이후에 재방문한 유저의 비율
Bracket 리텐션 : 설정한 특정 기간을 기반으로 재방문율을 측정

리텐션에 대한 이해
리텐션이 높은 세그먼트를 발굴하는 작업이 필요함
서비스의 사용 주기에 따라 리텐션 조회 기간을 늘려야 함
사후 분석 시에 용이

3. Funnel(퍼널)

역할
유저들이 어디서 이탈하는가? 를 확인하기 위한 구조화 = 깔대기 모양
AARRR
- Acquisition: 유입
- Activation: 활성화
- Retention: 재방문(재구매)
- Revenue: 수익
- Referral: 추천

4. LTV(Life Time Value, 고객 평생 가치)

역할
해당 유저가 우리에게 평생 주는 이익은 얼마나 될까?
LTV = 유저와의 관계 측정 = 사업적 이익으로 가져가는데 중요한 지표
LTV 높다 = 해당 서비스와의 관계가 좋고, 충성도가 높은 고객이 많다는 것
산출 방법
- 이익 x Life Time x 할인율(미래 비용에 대한 현재 가치)
- 연간 거래액 x 수익률 x 고객 지속 연수
- 고객의 평균 구매 단가 x 평균 구매 횟수
- (매출액 – 매출 원가) / 구매자 수 등..
  
  LTV를 산출하는 방법은 매우 여러가지이며, 서비스마다, 관점마다 다르기 때문에 다각도로 고민이 필요함
정리
- 자사 서비스에 딱 맞는 LTV를 산출하는 것은 매우 어려운 일
- 사용 주기, 변수, 객단가 등 여러가지를 고려해야 함
- LTV를 늘리기 위한 방안
  - 객단가 상승
  - 구매 빈도를 높임
  - 이탈률 감소, 이용시간을 증가 등
- LTV는 가정을 베이스로 하는 지표이기 때문에 꾸준한 모니터링이 필요
  
  LTV 는 생각해볼수록 어려운 지표
  => 산출식보다는 왜 쓰이는지에 집중하기

북극성 지표

북극성 지표란?

북극성 지표
제품/서비스가 유저에게 주는 core value를 가장 잘 나타낸 것
장기 성장을 위해 필수적으로 모니터링 해야 함
좋은 북극성 지표의 특징

제품/서비스 전략의 핵심
유저/고객이 제품/서비스에서 느끼는 가치
회사의 사업 목표를 나타내는 지표 중 선행지표(후행X)

좋은 북극성 지표를 위한 체크리스트
좋지 않은 북극성 지표

북극성 지표의 사례

북극성 지표가 중요한 이유

방향성
제품/사업 조직이 무엇에 최적화되어야 하고, 무엇을 포기해도 되는 지에 대한 방향 제시
제품/서비스 조직이 결과에 책임을 지도록 함
- 비즈니스 임팩트에 따라 평가가 가능
효율 증대
사람들을 하나의 목표에 집중시킴
= 서로 상반된 목표 집중 / 중복으로 일하는 것 방지 (MECE 구조)
북극성 지표의 구조

📕결론 도출

결과와 결론의 차이

결과 : 구체적인 데이터의 출력
결론 : 분석된 데이터 결과 -> 의미/톨찰

실제로 우리가 필요한 것은 ‘결론’이지만, 보통 결과를 많이 이야기 함
결론 도출시 주의사항
결과 - 결론 도출 시에는 스토리텔링이 필요
그러나, 필요 이상으로 자신의 해석을 융합하면 안됨
- 데이터를 통해 알 수 있는 범위에서만 생각해야 함

결론을 잘 정리하는 법

문제 정의, 지표 설정 당시의 목적을 떠올리며 정리
결론을 공유할 대상이 누구이며, 어떻게 변화하길 원하는지? 생각하기

단순하고 쉽게 전달
흥미 유발
대상자 관점에서의 접근 : 허들이 낮은 시각화 사용
시각화 팁 : 화려한 것보단 직관적으로 구성
결론 보고서에 쓰면 좋은 플로우
- 전체 내용을 한 문장으로 정리하는 요약
- 해당 보고서의 메인 주제
- 해당 보고서를 쓴 이유와 원하는 변화
- 문제 정의 단계
- 핵심 내용 전개
- 결론 및 액션 아이템

⭐결국 데이터 리터러시란?

총정리

눈앞에 있는 데이터에 의존하지 않고 스스로 목적과 문제를 정의하는 것

그 목적을 달성하는데 필요한 데이터와 지표를 설정하는 것

데이터를 어떻게 봐야 문제의 정보를 효과적으로 얻을 수 있는지 분석하는 것

단순히 데이터를 보는 방식이나 분석 방법론, 통계지식에 매몰되지 않는 것

왜?를 항상 생각하기

오늘은 데이터 리터러시 강의를 다 듣고 데이터 전처리와 시각화를 듣기 앞서 어떤 플로우로 어떻게 진행해야 하는지에 대해 조금 더 자세히 알게되는 시간을 가졌다..
내일은 데이터 전처리를 듣고 한번 요약해보기로 하자!

Laña

SQL, Python, Code Kata

이전 포스트

12.13(금) 본캠프3주차 - 파이썬 입문과 QCC

다음 포스트