[내일배움캠프] 데이터 리터러시(~데이터의 유형), 직무 스터디(Data Scientist)

sleekstar·2025년 5월 12일

데이터 리터러시

데이터 리터러시란?

데이터 수집과 데이터 원천을 이해하고, 주어진 데이터에 대한 다양한 활용법을 이해하고, 데이터를 통한 핵심지표를 이해하는 것=> 즉, 데이터 리터러시는 올바른 질문을 던질 수 있도록 만들어 줌

데이터 해석 오류 사례

심슨의 역설

'부분'에서 성립한 대소 관계가 그 부분들을 종합한 '전체'에 대해서는 성립하지 않는 경우

예:
백신 미접종자의 치명률 .17%, 백신 2차 접종 완료 치명률 0.86%
백신 접종 완료자의 치명률이 미접종자에 비해 5배 이상 높게 나타남

  • 개인적 생각: 확진자 수 중 미접종자의 수가 월등히 높아 미접종자 사망자 수/ 확진자 수의 수치가 낮게 나와서가 아닐까?

Insight:
1. 전체에 대한 결론이 언제나 개별 집단에 그대로 적용되는 것은 아님
2. 데이터에 기반한 결론이라고 해서 이를 맹목적으로 받아들여서는 안됨

시각화를 활용한 왜곡

자료의 표현 방법에 따라서 해석의 오류 여지가 존재

예를 들어, 증가량 그래프에 log를 취하면 그래프의 기울기가 급격해진다. 따라서 같은 결과에 대해서 다른 해석이 나올 수 있다.

샘플링 편향

전체를 대표하지 못하는 편향된 샘플 선정으로 인해 오류가 발생

상관관계와 인과관계

상관관계=/=인과관계임을 항상 유의

Insight:
1. 상관관계만으로 섣불리 의사결정 하지 않기
2. 양쪽을 모두 활용하여 합리적인 의사판단 하기

  • 상관관계는 상관관계로만 남겨두자.

데이터 분석 접근법


우리의 목표는 결과 해석 및 액션 도출=>데이터 분석 자체가 목적이 되지 않도록 '왜?'를 항상 생각할 것.

문제 정의 예제

아래와 같은 상황에서 문제는 무엇일까?
3개월 전부터 자사 제품의 사용자 수가 감소하고 있다. 사용자 수를 늘리기 위한 포인트 이벤트를 하고 있지만, 효과가 없어 보인다. 또한 자사 제품 내 서비스 중 A 보다 B가 더 안 좋은 상황이다. 사용자가 줄었기 때문에, 수입도 감소하고 있다.

나의 답안: 사용자 수 감소, 비효율적인 이벤트 진행

강의 내용
1. 사용자 수가 감소하고 있다: 사용자 수는 충분히 생각해볼 만한 문제이나, 결과적으로 풀고자 하는 것이 수입 감소라고 한다면, 사용자 수는 문제가 아닌 원인이 됨.

  1. 이벤트 효과가 없다: 이벤트 효과가 없는 것은 충분한 살펴볼 만하다. 그러나, 이벤트가 효과적이지 않기 때문에 발생하는 문제가 근본적으로 해결되어야 하는 것일까?

  2. A 서비스 보다 B 서비스가 상황이 안 좋아진 이유를 살펴보아야 한다: 분석 과정 중 확인해봐야 할 내용은 맞으나, 이를 근본적인 문제라고 하기에는 어려워 보임.

  3. 수입이 감소한 것이 문제다: 궁극적인 문제의 관점에서 수입의 감소는 매우 중요한 문제라고 판단할 수 있음. 그러나, 단어의 정의에 있어 더 명확할 필요가 있다. 가령 수입이 의미하는 것이 매출액인지, 순이익인지 등을 고려해야 함.

문제 정의 방법론

MECE(Mutually Exclusive, Collectively Exhaustive)

문제를 상호 배타적(mutually exclusive)이면서, 전체적으로 포괄적(collectively exhaustive)인 구성요소로 나누는 것.

중복/ 누락이 없어야 함.

로직 트리(Logic Tree)

  • MECE 원칙을 기반으로 복잡한 문제를 더 작고 관리하기 쉬운 하위 문제로 분해하는데 사용

로직트리 Cheet Sheet: Nescafe

  • 시장 / 점유율에 따라 분류
  • 개념적으로 분류
  • 반대되는 말로 분류
  • 세그먼트에 기반하여 분류
  • 앱 서비스에 적용하기 위해 변경해 본다면? (비즈니스에 따라서 정의가 달라짐!)
    • 세그먼트 분류
      • 라이트유저, 일반유저, 헤비유저 > 구매 전 고객, 재구매 고객, VIP 고객
        ex) 배달의 민족 고마운분, 귀한분, 더귀한분, 천생연분
    • 캡슐 점유율
      • 해당 서비스 시장 점유율로 변화

문제정의는 왜 필요한가?

문제정의는 풀고자 하는 것을 명확하게 정의하고, 데이터 분석의 방향성을 정하고 결과를 정리하고 해석하여 더 나이지기 위한 새로운 액션 플랜을 수립하기 위함.
문제정의의 핵심은 So What?, Why So?

To-do
-결과를 공유하고자 하는 사람이 누구인지 정의하기
-결과를 통해 원하는 변화를 생각하기
-반드시 혼자서 오래 고민해보는 시간을 가질 것

데이터의 유형

**정성적 데이터 vs 정량적 데이터

정량적 데이터정성적 데이터
유형정형 데이터
반정형 데이터비정형 데이터
특징 및 관점여러 요소의 결합으로 의미 부여
주로 객관적 내용객체 하나가 함축된 의미 내포
주로 주관적 내용
구성 및 형태수치나 기호
데이터베이스, 스프레드 시트문자나 언어
웹 로그, 텍스트 파일
위치DBMS, 로컬 시스템 등 내부웹사이트, 모바일 플랫폼 등 외부
분석통계 분석 시 용이통계 분석 시 어려움

*정량적 분석은 지표설정과 분석에 활용하기 용이 (ex. 인구 통계 데이터, 수치형 설문조사 데이터, 비즈니스 성과 데이터, 행동 로그 데이터, 마케팅 데이터...)

정량적 데이터의 활용

객관적이고 측정가능한 지표 만들기에 적합하다.

통계적 분석 적용

분포, 평균, 중앙값 등을 계산하여 데이터의 경향성과 패턴을 파악할 수 있다.

다양한 데이터 분석 방법 적용

비즈니스 분석, 예측 모델링, 추세 분석을 포함한 머신러닝과 같은 현대적 데이터 분석 기법에 활용할 수 있다.

직무 스터디

: 데이터 집중/활용 직무 중 하나를 골라 조사하기

  • 내가 선택한 직무: 데이터 사이언티스트(Data Scientist)
  • 선정 이유: 데이터 분석가와 데이터 사이언티스트가 같은 직무인 줄 알고 있었는데, 두 직무는 약간 다르다는 것을 이전 아티클 스터디를 통해 알게 되었다. 데이터 사이언티스트 직무에 대해 더 알아보고자 조사 대상으로 선정하였다.

조사 내용 (노션 링크)

profile
기록용

0개의 댓글