DATA LITERACY

codataffee·2024년 4월 24일
0

DATA

목록 보기
1/22
post-thumbnail

#데이터 리터러시


#데이터 리터러시의 정의

  • Data Literacy:
    데이터를 읽는 능력
    데이터를 이해하는 능력
    데이터를 비판적으로 분석하는 능력
    결과를 의사소통에 활용할 수 있는 능력

  • Data Read-Understand-Analyst-Use
    Data R.U.A.U.

  • 데이터 수집과 데이터 원천을 이해하고,
    주어진 데이터에 대한 다양한 활용법을 이해하고,
    데이터를 통한 핵심지표를 이해하는 것.

    데이터 리터러시는 '내가(분석가가)' 올바른 질문을 던질 수 있도록 만들어 줌.


#데이터 분석에 대한 착각

  • 데이터 분석 학습에 대한 일반적 접근
    보통 데이터 분석을 배운다고 하면, SQL, PYTHON, TABLEAU 등 분석 스킬 학습
    막상 데이터 분석을 하려고 보면 잘 되지 않음..

  • 데이터 분석에 대한 착각

  1. 데이터를 잘 분석하면 문제, 목적, 결론이 나올 것이라 생각
  2. 데이터를 잘 가공하면 유용한 정보를 얻을 수 있다고 생각
  3. 분석에 실패하면 방법론, 스킬이 부족하다고 생각

#데이터 해석 오류 사례

  1. 심슨의 역설 (Simpson's Paradox)

    • 심슨의 패러독스란, '부분'에서 성립한 대소 관계가
      그 부분들을 종합한 '전체'에 대해서는 성립하지 않는 모순적인 경우를 말한다.

      • 위 표는 영국 공공보건국에서 21년 8월 발표한 코로나 변이 바이러스 브리핑 자료.
        백신 미접종자의 치명률 0.17%, 백신 2차 접종 완료 치명률 0.86%
        백신 접종 완료자의 치명률이 미접종자에 비해 5배 이상 더 높게 나타난 의문스러운 결과.
      • 데이터를 50세 미만과 50세 이상으로 나누어 살펴보면 다른 결과를 확인할 수 있음.
        즉, 개별 연령 집단 내에서 살펴보면 50세 미만은 백신 접종 여부에 관계없이 치명률이 매우 낮았고, 50세 이상의 위험군에서는 백신이 치명률을 낮추는 효과가 있음.
    • 전체에 대한 결론이 언제나 개별 집단에 그대로 적용되는 것이 아니며,
      데이터에 기반한 결론이라고 해서 이를 맹목적으로 받아들여서는 안됨.

  2. 시각화를 활용한 왜곡

    • 자료의 표현 방법에 따라 해석의 오류 여지가 존재.


      (THE ECONOMIST) 자료.
      -매해 노동자와 자본가가 버는 시간당 액수의 증가를 3가지 방식으로 나타낸 사례.
      왼쪽: 있는 그대로 자료 /
      중간: 증가량에 로그를 취한 자료 /
      오른쪽: 노동자와 자본가의 최초 수입을 100%로 놓고 이후의 증가율에 대한 자료

  1. 샘플링 편향 (Sampling Bias)

    • 전체를 대표하지 못하는 편향된 샘플 선정으로 인한 오류 발생

    • 1936년 미국 대통령 선거에서 Literary Digest 잡지사가 천만 명에게 우편물을 보내 수행한 대규모 여론조사 사례.
      240만 명의 응답을 받아 랜던이 57% 득표를 얻을 것이라고 높은 신뢰도로 예측,
      루즈벨트가 62% 득표로 당선.

    • 문제는 샘플링 방법.

      • 첫째, 여론조사용 주소를 얻기 위해 전화번호부, 자사의 구독자 명부, 클럽 회원 명부 등을 사용, 이런 명부는 모두 공화당(랜던)에 투표할 가능성이 높은 부유한 계층에 편향된 경향 존재.
      • 둘째, 우편물 수신자 중 25% 미만의 사람이 응답, 이는 정치에 관심 없는 사람, 여론조사 회사를 싫어하는 사람과 다른 중요한 그룹을 제외시킴으로써 표본을 편향되게 만듦.
      • 표본이 편향되면서 실제와는 다르게 해석하게 될 수 있음.
  2. 상관관계와 인과관계



#데이터 리터러시가 필요한 이유

  • 데이터 분석 접근법

  • 크게 3가지 단계로 구분

    1. 문제 및 가설 정의
    2. 데이터 분석
    3. 결과 해석 및 액션 도출
  • '생각'이 주요한 단계(1, 3단계)에서 데이터 리터러시가 필요

  • 데이터 분석(작업)이 목적이 되지 않도록 '왜?'를 항상 생각해야 함.

profile
커피 좋아하는 데이터 꿈나무

0개의 댓글

관련 채용 정보