Data Literacy:
데이터를 읽는 능력
데이터를 이해하는 능력
데이터를 비판적으로 분석하는 능력
결과를 의사소통에 활용할 수 있는 능력
Data Read-Understand-Analyst-Use
Data R.U.A.U.
데이터 리터러시는 '내가(분석가가)' 올바른 질문을 던질 수 있도록 만들어 줌.
데이터 분석 학습에 대한 일반적 접근
보통 데이터 분석을 배운다고 하면, SQL, PYTHON, TABLEAU 등 분석 스킬 학습
막상 데이터 분석을 하려고 보면 잘 되지 않음..
데이터 분석에 대한 착각
심슨의 역설 (Simpson's Paradox)
심슨의 패러독스란, '부분'에서 성립한 대소 관계가
그 부분들을 종합한 '전체'에 대해서는 성립하지 않는 모순적인 경우를 말한다.
- 위 표는 영국 공공보건국에서 21년 8월 발표한 코로나 변이 바이러스 브리핑 자료.
백신 미접종자의 치명률 0.17%, 백신 2차 접종 완료 치명률 0.86%
백신 접종 완료자의 치명률이 미접종자에 비해 5배 이상 더 높게 나타난 의문스러운 결과.
- 데이터를 50세 미만과 50세 이상으로 나누어 살펴보면 다른 결과를 확인할 수 있음.
즉, 개별 연령 집단 내에서 살펴보면 50세 미만은 백신 접종 여부에 관계없이 치명률이 매우 낮았고, 50세 이상의 위험군에서는 백신이 치명률을 낮추는 효과가 있음.
전체에 대한 결론이 언제나 개별 집단에 그대로 적용되는 것이 아니며,
데이터에 기반한 결론이라고 해서 이를 맹목적으로 받아들여서는 안됨.
시각화를 활용한 왜곡
(THE ECONOMIST) 자료.
-매해 노동자와 자본가가 버는 시간당 액수의 증가를 3가지 방식으로 나타낸 사례.
왼쪽: 있는 그대로 자료 /
중간: 증가량에 로그를 취한 자료 /
오른쪽: 노동자와 자본가의 최초 수입을 100%로 놓고 이후의 증가율에 대한 자료
샘플링 편향 (Sampling Bias)
전체를 대표하지 못하는 편향된 샘플 선정으로 인한 오류 발생
1936년 미국 대통령 선거에서 Literary Digest 잡지사가 천만 명에게 우편물을 보내 수행한 대규모 여론조사 사례.
240만 명의 응답을 받아 랜던이 57% 득표를 얻을 것이라고 높은 신뢰도로 예측,
루즈벨트가 62% 득표로 당선.
문제는 샘플링 방법.
상관관계와 인과관계
데이터 분석 접근법
크게 3가지 단계로 구분
'생각'이 주요한 단계(1, 3단계)에서 데이터 리터러시가 필요
데이터 분석(작업)이 목적이 되지 않도록 '왜?'를 항상 생각해야 함.