데이터 수집과 데이터 원천을 이해하고, 주어진 데이터에 대한 다양한 활용법을 이해하고, 데이터를 통한 핵심지표를 이해하는 것=> 즉, 데이터 리터러시는 올바른 질문을 던질 수 있도록 만들어 줌
'부분'에서 성립한 대소 관계가 그 부분들을 종합한 '전체'에 대해서는 성립하지 않는 경우
예:
백신 미접종자의 치명률 .17%, 백신 2차 접종 완료 치명률 0.86%
백신 접종 완료자의 치명률이 미접종자에 비해 5배 이상 높게 나타남
- 개인적 생각: 확진자 수 중 미접종자의 수가 월등히 높아 미접종자 사망자 수/ 확진자 수의 수치가 낮게 나와서가 아닐까?
Insight:
1. 전체에 대한 결론이 언제나 개별 집단에 그대로 적용되는 것은 아님
2. 데이터에 기반한 결론이라고 해서 이를 맹목적으로 받아들여서는 안됨
자료의 표현 방법에 따라서 해석의 오류 여지가 존재
예를 들어, 증가량 그래프에 log를 취하면 그래프의 기울기가 급격해진다. 따라서 같은 결과에 대해서 다른 해석이 나올 수 있다.
전체를 대표하지 못하는 편향된 샘플 선정으로 인해 오류가 발생
상관관계=/=인과관계임을 항상 유의
Insight:
1. 상관관계만으로 섣불리 의사결정 하지 않기
2. 양쪽을 모두 활용하여 합리적인 의사판단 하기

우리의 목표는 결과 해석 및 액션 도출=>데이터 분석 자체가 목적이 되지 않도록 '왜?'를 항상 생각할 것.
아래와 같은 상황에서 문제는 무엇일까?
3개월 전부터 자사 제품의 사용자 수가 감소하고 있다. 사용자 수를 늘리기 위한 포인트 이벤트를 하고 있지만, 효과가 없어 보인다. 또한 자사 제품 내 서비스 중 A 보다 B가 더 안 좋은 상황이다. 사용자가 줄었기 때문에, 수입도 감소하고 있다.
나의 답안: 사용자 수 감소, 비효율적인 이벤트 진행
강의 내용
1. 사용자 수가 감소하고 있다: 사용자 수는 충분히 생각해볼 만한 문제이나, 결과적으로 풀고자 하는 것이 수입 감소라고 한다면, 사용자 수는 문제가 아닌 원인이 됨.
이벤트 효과가 없다: 이벤트 효과가 없는 것은 충분한 살펴볼 만하다. 그러나, 이벤트가 효과적이지 않기 때문에 발생하는 문제가 근본적으로 해결되어야 하는 것일까?
A 서비스 보다 B 서비스가 상황이 안 좋아진 이유를 살펴보아야 한다: 분석 과정 중 확인해봐야 할 내용은 맞으나, 이를 근본적인 문제라고 하기에는 어려워 보임.
수입이 감소한 것이 문제다: 궁극적인 문제의 관점에서 수입의 감소는 매우 중요한 문제라고 판단할 수 있음. 그러나, 단어의 정의에 있어 더 명확할 필요가 있다. 가령 수입이 의미하는 것이 매출액인지, 순이익인지 등을 고려해야 함.
문제를 상호 배타적(mutually exclusive)이면서, 전체적으로 포괄적(collectively exhaustive)인 구성요소로 나누는 것.

중복/ 누락이 없어야 함.
로직트리 Cheet Sheet: Nescafe
- 시장 / 점유율에 따라 분류
- 개념적으로 분류
- 반대되는 말로 분류
- 세그먼트에 기반하여 분류
- 앱 서비스에 적용하기 위해 변경해 본다면? (비즈니스에 따라서 정의가 달라짐!)
- 세그먼트 분류
- 라이트유저, 일반유저, 헤비유저 > 구매 전 고객, 재구매 고객, VIP 고객
ex) 배달의 민족 고마운분, 귀한분, 더귀한분, 천생연분- 캡슐 점유율
- 해당 서비스 시장 점유율로 변화
문제정의는 풀고자 하는 것을 명확하게 정의하고, 데이터 분석의 방향성을 정하고 결과를 정리하고 해석하여 더 나이지기 위한 새로운 액션 플랜을 수립하기 위함.
문제정의의 핵심은 So What?, Why So?
To-do
-결과를 공유하고자 하는 사람이 누구인지 정의하기
-결과를 통해 원하는 변화를 생각하기
-반드시 혼자서 오래 고민해보는 시간을 가질 것
**정성적 데이터 vs 정량적 데이터
| 정량적 데이터 | 정성적 데이터 | |
|---|---|---|
| 유형 | 정형 데이터 | |
| 반정형 데이터 | 비정형 데이터 | |
| 특징 및 관점 | 여러 요소의 결합으로 의미 부여 | |
| 주로 객관적 내용 | 객체 하나가 함축된 의미 내포 | |
| 주로 주관적 내용 | ||
| 구성 및 형태 | 수치나 기호 | |
| 데이터베이스, 스프레드 시트 | 문자나 언어 | |
| 웹 로그, 텍스트 파일 | ||
| 위치 | DBMS, 로컬 시스템 등 내부 | 웹사이트, 모바일 플랫폼 등 외부 |
| 분석 | 통계 분석 시 용이 | 통계 분석 시 어려움 |
*정량적 분석은 지표설정과 분석에 활용하기 용이 (ex. 인구 통계 데이터, 수치형 설문조사 데이터, 비즈니스 성과 데이터, 행동 로그 데이터, 마케팅 데이터...)
객관적이고 측정가능한 지표 만들기에 적합하다.
분포, 평균, 중앙값 등을 계산하여 데이터의 경향성과 패턴을 파악할 수 있다.
비즈니스 분석, 예측 모델링, 추세 분석을 포함한 머신러닝과 같은 현대적 데이터 분석 기법에 활용할 수 있다.
: 데이터 집중/활용 직무 중 하나를 골라 조사하기