오늘은 "데이터 리터러시" 에 대해 스터디를 해 보았다.
총 5개의 챕터로 된 강의를 수강하였으며, 내용 정리를 진행해보려고 한다.
내일 여유가 된다면 다시 한 번 회독해보려고 한다.
그만큼 유익하게 느껴졌기 때문이다.
"리터러시(Literacy)" 의 사전적 의미는 "읽고 쓰는 능력" 을 뜻한다.
확장된 의미로는, "정보를 이해하고 평가하며 활용하는 능력"이라고 볼 수 있다.
해당 글에서는 확장된 의미로 이해하면 되겠다.
- 데이터를 읽는 능력
- 데이터를 이해하는 능력
- 데이터를 비판적으로 분석하는 능력
- 결과를 의사소통에 활용할 수 있는 능력
풀어 쓰자면,
그렇다면 올바른 질문을 던지기 위해서는 데이터 분석만 잘하면 되는걸까?
데이터를 잘 분석하면 문제, 목적, 결론이 나올 것
문제 없이 가공하면 유용한 정보를 얻을 수 있음
분석에 실패한다면 방법론, 분석스킬의 부족이라고 생각
본 캠프 전 세미나를 수강하면서 머릿속을 맴도는 생각이 있었다.
얻고자 하는 결과를 위해 데이터 분석을 진행할 때,
"근거가 되는 데이터를 잘 선택한 걸까?" "방향성이 이게 맞나?" 라는 의문은 어떻게 대처해야할까
이러한 의문을 갖고, 대표적인 데이터 해석의 오류 사례 3가지를 살펴보자.
"부분"에서 성립한 대소 관계가
그 부분들을 종합한 "전체"에 대해서는 성립하지 않는 모순적인 경우를 뜻함
이해를 위한 아래 예시를 살펴보자.
## 출처 : 영궁공공보건국 발표한 브리핑 자료(202108)
위 표를 데이터를 확인해보면,
접종 완료자의 치명률이 미접종자에 비해 높다.. 그것도 5배정도 (??)

다음은 기존 표에서 연령 구분 데이터가 추가된 표이다.
연령 항목을 중심으로 정리하자면,
50세 미만인 경우 접종여부와 관계없이 치명률이 매우 낮다.
50세부터는 접종 시 치명률을 3배정도 낮출 수 있는 효과가 있음 으로 볼 수 있다.
"전체"(연령) 에 대한 결과(치명률) 가,
"부분"(50대 미만/이상의 데이터)에 대한 결과에 그대로 적용되는 것이 아님
해당 예시를 기억하면서,
데이터 기반의 결론이라도 맹목적으로 신뢰하지는 말자.
## 출처 : The Economist 자료
매년 노동자와 자본가가 버는 시간당 액수의 증가를 표현한 도식
(좌측은 원본, 우측은 로그를 취함)
원본을 보면 노동자의 임금이 현저히 낮은 것을 알 수 있음.
로그를 취한 도식의 경우,
노동자들의 임금 증가가 급격하게 이루어져 왔다고 해석 될 여지가 존재한다.
시각화 왜곡없게 잘하자
전체를 대표하지 못하는 편향된 샘플 선정으로 인해 오류가 발생
예시)
Digest 미국잡지사 1936년 미대통령 선거 전 우편물을 통한 천만 수준의 대규모 여론조사 사례
→ 명부 취합 시 자사 구독자 명부, 클럽 회원 등 부유층 계층으로 편향된 경향이 존재
→ 또한 정치 무관심 그룹, 자사를 싫어하는 그룹 등을 제외시킴으로써 편향성 역시 존재
표본을 위한 데이터 수집에 있어 누락/중복 문제는 없도록 신경쓰자
각 관계에 대한 정확한 정의가 필요
상관관계
- 두 변수가 얼마나 상호 의존적인지 파악하는 것
- 한 변수가 증가하면 나머지도 증가/감소, 추이를 따름
인과관계
- 하나의 요인으로 인해 다른 요인의 수치가 변하는 형태
- 원인과 결과가 명확
상관관계는 인과관계가 아닌 것을 항상 유의해야 한다.
앞선 의구심과 오류 케이스를 상기하면서, 올바른 접근 방식에 대해 알아보자.

데이터 분석은 크게 3가지로 나뉜다.
1) 문제 및 가설 정의
2) 데이터 분석
3) 결과 해석 및 액션 도출
"생각" 이 주요한 단게에서 "데이터 리터러시" 가 필요하다.
→ "작업"인 데이터 분석이 목적이 되지 않도록 항상 "Why"를 떠올리자
보통 데이터 분석에 실패하는 이유는 "문제에 대한 명확한 정의"를 하지 않기 때문이다.
★★★ 문제 정의함에 있어 정확한 정답은 없다.
많은 고민을 해보고 오류를 최소화 하기 위해 고민해보자 ★★★
예시 1) # 문제 정의 실습 진행 해보기 (보완 사항도 고민) #
상황 : 매출 증가가 목표인 패션 플랫폼 A
문제 정의 : 매출을 어떻게 늘릴 수 있을까?
예시 2) # 문제 정의 실습 고민해보기 (보완 사항도 고민) #
상황 :
3개월 전부터 자사 제품의 사용자 수가 감소하고 있다.
사용자 수를 늘리기 위한 포인트 이벤트를 하고 있지만, 효과가 없어보인다.
또한 자사 제품 내 서비스 중 A보다 B가 더 안 좋은 상황이다.
사용자가 줄었기에, 수입도 감소하고 있다.
문제 해결과 분석에서 널리 사용되는 접근 방식
상호 배타적이면서, 전체적으로 포괄적인 구성요소로 나누는 것
→ 복잡한 문제를 체계적으로 분해, 구조화된 방식으로 분석이 가능
설명이 어렵지만, 예시를 통해 쉽게 알아보자.

MECE 원칙을 기반으로 조금 더 복잡한 문제를 분해하는데 사용
상위부터 하위 문제로 계층적 접근
로직 트리는 사용자가 사용하는 기준과 생각에 따라 달라진다.
★★★ 시간 투자 많이 해서라도 해당 방법론에 익숙해지자
중복과 누락 오류를 최소화하고 제거하기 위한 투자 ★★★
예시) # 실습 진행 해보기 #
1. 살을 어떻게 뺄 것인가?
2. 수익성 개선 방법에는 무엇이 있을까?
## 참고자료 [nescafe - 로직트리]
풀고자 하는 것을 명확하게 정의하고, 해결하기 위한 데이터 분석의 방향성을 정한다.
결과를 정리하고 해석하여, 더 나아지기 위한 새로운 액션 플랜을 수립하기 위함
So What? (그래서 뭐? 결과가 뭔데?)
Why So? (왜 그렇게 말하는데? 근거가 뭔데?)
Why So?
- 구체적으로 무슨 뜻인지를 검증하고, 확인하는 작업
- 'So What' 요소의 타당성을 전체 혹은 그룹핑한 요소로 검증하고 증명하는 작업
오늘은 데이터 리터리시의 정의 ~ 문제정의 까지 진행하고,
명일 데이터의 유형, 지표 설정, 결론 도출을 순서로 마무리 작성예정이다.