01. 데이터 리터러시

Suhyeon Lee·2024년 10월 14일
0

목표

  • 데이터를 올바르게 활용하고 해석할 수 있는 역량인 데이터 리터러시에 대해 알아보기

1) 데이터 리터러시의 정의

Data Literacy

  • 데이터를 읽는 능력
  • 데이터를 이해하는 능력
  • 데이터를 비판적으로 분석하는 능력
  • 위의 세 가지를 바탕으로 나온 결과를 의사소통에 활용할 수 있는 능력
    • 주제에 대한 명확한 이해가 없으면 말하는 것도 어려움

구성

데이터 리터러시란

  • 데이터 수집과 데이터 원천을 이해하고
  • 데이터에 대한 활용법을 이해하고
  • 데이터를 통한 핵심 지표를 이해하는 것
    → 데이터 리터러시는 위 3가지를 통해 자기 자신에게 올바른 질문을 던질 수 있도록 만들어 줌
    → 뚜렷한 목적 의식(왜 분석하는지, 어떠한 결과를 기대하는지 등)

2) 데이터 분석에 대한 착각

  • 데이터를 잘 분석하면 문제, 목적, 결론이 나올 것이라고 생각
  • 데이터를 잘 가공하면 유용한 정보를 얻을 수 있다고 생각
  • 분석에 실패하면 방법론, 스킬이 부족한 것이라고 생각

예시

  • "데이터 분석 스킬이 부족한 것 같아" → SQL, Python, Tableau를 배움
    • 보통 '데이터 분석을 배운다'고 하면 툴을 먼저 학습하게 됨
  • "이제 데이터 분석 해봐야지" → A사 매출 데이터 뜯어보니 매출이 비슷함(매출 변동 추이가 없음) → "방문자 수를 봐야 하나? 카테고리를 봐야 하나?" → "봐도 모르겠는데… 내가 뭘 못하고 있나? ML을 배워야 하나?"
    • 막상 데이터 분석을 하려고 보면 잘 되지 않음
      🡆 방법론, 스킬의 문제가 아닌 "리터러시"의 문제

3) 데이터 해석 오류 사례

심슨의 역설(Simpson's Paradox)

  • '부분'에서 성립한 대소 관계가 그 부분들을 종합한 '전체'에 대해서는 성립하지 않는 모순적인 경우

  • 전체에 대한 결론이 언제나 개별 집단에 그대로 적용되는 것은 아님

  • 데이터에 기반한 결론이라고 해서 이를 맹목적으로 받아들여서는 안됨

시각화를 활용한 왜곡

샘플링 편향(Sampling Bias)

  • 전체를 대표하지 못하는 편향된 샘플 선정으로 인해 오류가 발생
  • 표본이 편향되면서 실제와는 다르게 해석하게 될 수 있음

상관관계와 인과관계

상관관계

  • 두 변수가 얼마나 상호 의존적인지를 파악
  • 파악 방법
    • 한 변수가 증가하면 다른 변수도 따라서 증가/감소하되 그 추이를 따름

인과관계

  • 실질적으로 하나의 요인으로 인해 다른 요인의 수치가 변하는 형태
  • 원인과 결과가 명확한 것

상관관계는 인과관계가 아닌 점을 항상 유의하기

  • 상관관계만으로 섣불리 의사결정 하지 않기
  • 양쪽을 모두 활용하여 합리적인 의사판단 하기

사례: 소아마비와 아이스크림 섭취 간의 연구 결과

  • 1940년대 보건 전문가는 소아마비와 아이스크림 섭취량의 상관관계가 있는 것을 발견, 전국에 소아마비 예방을 위해 아이스크림 섭취량을 줄일 것을 권고 → 잘못된 분석
    • 소아마비는 여름에 많이 발생
      • 소아마비(Poliomyelitis)를 일으키는 폴리오바이러스(polio enterovirous)는 조리하지 않은 음식이나 물을 통해 전염되는데 여름에는 더워서 샐러드나 찬 음식 많이 먹고 물에도 잘 들어가기 때문
    • 아이스크림은 여름에 판매량이 급증
    • 즉 소아마비와 아이스크림 섭취 간에는 어떤 인과관계도 존재하지 않고 단순히 날씨라는 변수로 인해 공통으로 영향을 주게 됨

4) 데이터 리터러시 활용 예제

Q1. 위 그래프를 통해 어떤 것을 말할 수 있나요?

  • 개발 부서 직원의 수가 가장 많다.
  • 고객지원 부서 직원의 수가 가장 적다.
  • 인사 부서와 영업 부서의 인원수는 비슷하다.
  • 회사 내 부서별 인원수를 인원수가 많은 순으로 나열하면 '개발-마케팅-인사-영업-재무-고객지원' 순서이다.

Q2. 이 그래프를 작성한 사람은 무엇을 말하고 싶었을까요?

  • 고객지원 부서의 인원수가 너무 적으니 직원을 더 뽑아야 함을 말하고 싶었을 것 같다.

정리

  • 각 질문은 아래와 같이 생각해 볼 수 있음
    • Q1: '데이터를 읽는 것'에 치중한 질문
    • Q2: 데이터 작업 전 알고 싶은 것을 생각해보는 '목적 사고적 방식'을 가진 질문
  • 앞으로도 그래프를 봤을 때 '무엇을 말하고 싶은 건지', '이 그래프를 왜 사용했는지'를 떠올리는 습관을 들이자 → 데이터 리터러시에 대한 감을 익힐 수 있음

데이터 리터러시가 필요한 이유

데이터 분석에 대한 접근법

  • 크게 3가지 단계로 구분
    1. 문제 및 가설 정의
    2. 데이터 분석
    3. 결과 해석 및 액션 도출
  • 위 단계 중 데이터 리터러시가 필요한 '생각' 부분에서 문제가 되는 경우가 많음
    • 생각이 주요한 단계에서 데이터 리터러시가 필요
    • '생각' 부분에 비중을 많이 두고 고민을 많이 해야 함
  • 데이터 분석이 목적이 되지 않도록 '왜?'를 항상 생각해야 함
    • 데이터 리터러시란 방향을 잃고 데이터 분석을 위한 분석을 하지 않게 도와주는 능력
      (Soft Skill)
profile
2 B R 0 2 B

0개의 댓글