[SQL]TIL 9일차

Cherta·2024년 4월 26일
0

[TIL]

목록 보기
9/30

데이터 리터러시(Data Literacy)

  • 데이터 리터러시(Data Literacy) : 다양한 방법으로 데이터를 이해하고 분석하는 능력

데이터 해석 오류 사례

  • 심슨의 역설(Simpson's Paradox) :
    • '부분'에서 성립한 대소 관계가 그 부분들을 종합한 '전체'에 대해서는 성립하지 않는 모순적인 경우
    • 전체에 대한 결론이 언제나 개별 집단에 그대로 적용되는 것은 아님
    • 데이터에 기반한 결론이라고 해서 이를 맹목적으로 받아 들여서는 안됨
  • 시각화를 활용한 왜곡
    • 자료의 표현 방법에 따라서 해석의 오류 여지가 존재

  • 매해 노동자와 자본가가 버는 시간당 액수의 증가를 세 가지 방식으로 나타낸 사례 (The Economist의 자료)
    • 왼쪽은 있는 그대로의 자료
    • 중간은 증가량에 로그를 취한 자료
    • 오른쪽은 노동자와 자본가의 최초 수입을 100%로 놓고 이후의 증가율에 대한 자료
  • 왼쪽 그래프에서는 노동자의 임금이 현저히 낮은 것을 확인 가능
  • 중간 그래프에서는 노동자들의 임금 증가가 급격하게 이루어져 왔다고 해석될 여지 존재
  • 오른쪽 그래프에서는 노동자들의 임금 증가가 자본가의 수입 증가를 훨씬 능가한다고 해석할 여지 존재
  • 샘플링 편향(Sampling Bias)
    • 전체를 대표하지 못하는 편향된 샘플 선정으로 인해 오류 발생
    • 표본이 편향되면 실제와는 다르게 해석하게 될 수 있음

상관관계와 인과관계

  • 상관관계
    • 두 변수가 얼마나 상호 의존적인지를 파악하는 것을 의미
    • 파악 방법은 한 변수가 증가하면 다른 변수도 따라서 증가/감소하되 그 추이를 따름
  • 인과관계
    • 실질적으로 하나의 요인으로 인해 다른 요인의 수치가 변하는 형태를 의미
    • 원인과 결과가 명확한 것
  • 주의점
    • 상관관계만으로 섣불리 의사결정 하지않기
    • 양쪽을 모두 활용하여 합리적인 의사판단 하기

데이터 분석 접근법

  • 3가지 단계로 구분
    • 문제 및 가설정의 (생각)
    • 데이터 분석 (작업)
    • 결과 해석 및 액션 도출 (생각)
  • 문제 정의
    • 데이터 분석 프로젝트의 성공을 위한 초석
    • 분석하려는 특정 상황이나 현상에 대한 명확하고 구체적인 진술
    • 프로젝트의 목표를 설정하고 분석 방향을 설정
  • 문제 정의 방법론
    • MECE(Mutually Exclusive Collectively Exhaustive)
      • 문제 해결과 분석에서 널리 사용되는 접근 방식
      • 문제를 상호 배타적(Mutually Exclusive)이면서, 전체적으로 포괄적(Collectively Exhaustive)인 구성요소로 나누는 것
      • MECE를 통해 복잡한 문제를 체계적으로 분해하고, 구조화된 방식으로 분석할 수 있음
    • 로직 트리(Logic Tree)
      • MECE 원칙을 기반으로 복잡한 문제를 더 작고 관리하기 쉬운 하위 문제로 분해하는데 사용
      • 상위 문제로 부터 시작하여 하위 문제로 계층적 접근
      • 일반적으로 도표 형식으로 표현되어 쉽게 파악 가능

데이터의 유형

  • 정성적 데이터(Qualitative Data)
    • 비수치적인 정보로 사람의 경험, 관점, 태도와 같은 주관적인 요소를 포함
    • 대부분 덱스트, 비디오, 오디오 형태로 존재
    • 정형되지 않고 구조화 되어있지 않음
    • 데이터를 구조화하기 어려움
    • 새로운 현상이나 개념에 대한 이해를 심화하는데 사용
  • 정량적 데이터(Quantitative Data)
    • 수치적으로 표현되는 정보로 양적인 측정과 분석을 통해 얻을 수 있음
    • 데이터가 숫자 형태로 존재하기 때문에 통계적으로 분석하기 쉬움
    • 개인의 해석이나 주관이 적게 작용하는 객관성을 가짐
    • 지표로 만들기에 용이
    • 설문조사, 실험, 인구 통계, 지표 분석 등에 활용
  • 데이터 유형별 비교
정량적 데이터정성적 데이터
유형정형 데이터
반정형 데이터
비정형데이터
특징 및 관점여러 요소의 결합으로 의미 부여
주로 객관적 내용
객체 하나가 함축된 의미 내포
주로 주관적 내용
구성 및 형태수치나 기호
데이터베이스, 스프레드 시트
문자나 언어
웹 로그, 텍스트 파일
위치DBMS, 로컬 시스템 등 내부웹사이트, 모바일 플랫폼 등 외부
분석통계 분석 시 용이통계 분석 시 어려움

결론 도출

  • 결과와 결론의 차이
  • 결과
    • 데이터 처리, 분석, 모델링 후에 얻어진 구체적인 데이터의 출력
    • 숫자, 통계, 그래프, 차트 등의 형태로 나타낼 수 있음
    • 계산과 분석을 해서 나온 결과물
  • 결론
    • 분석된 데이터 결과를 바탕으로 이끌어낸 의미나 통찰
    • 데이터에 기반한 해석, 추론 또는 권고 사항을 포함
    • 목적에 대해 어떤 의미가 있는지 설명하는 것

0개의 댓글