cherta.log
로그인
cherta.log
로그인
[SQL]TIL 9일차
Cherta
·
2024년 4월 26일
팔로우
0
sql
0
[TIL]
목록 보기
9/30
데이터 리터러시(Data Literacy)
데이터 리터러시(Data Literacy) : 다양한 방법으로 데이터를 이해하고 분석하는 능력
데이터 해석 오류 사례
심슨의 역설(Simpson's Paradox) :
'부분'에서 성립한 대소 관계가 그 부분들을 종합한 '전체'에 대해서는 성립하지 않는 모순적인 경우
전체에 대한 결론이 언제나 개별 집단에 그대로 적용되는 것은 아님
데이터에 기반한 결론이라고 해서 이를 맹목적으로 받아 들여서는 안됨
시각화를 활용한 왜곡
자료의 표현 방법에 따라서 해석의 오류 여지가 존재
매해 노동자와 자본가가 버는 시간당 액수의 증가를 세 가지 방식으로 나타낸 사례 (The Economist의 자료)
왼쪽은 있는 그대로의 자료
중간은 증가량에 로그를 취한 자료
오른쪽은 노동자와 자본가의 최초 수입을 100%로 놓고 이후의 증가율에 대한 자료
왼쪽 그래프에서는 노동자의 임금이 현저히 낮은 것을 확인 가능
중간 그래프에서는 노동자들의 임금 증가가 급격하게 이루어져 왔다고 해석될 여지 존재
오른쪽 그래프에서는 노동자들의 임금 증가가 자본가의 수입 증가를 훨씬 능가한다고 해석할 여지 존재
샘플링 편향(Sampling Bias)
전체를 대표하지 못하는 편향된 샘플 선정으로 인해 오류 발생
표본이 편향되면 실제와는 다르게 해석하게 될 수 있음
상관관계와 인과관계
상관관계
두 변수가 얼마나 상호 의존적인지를 파악하는 것을 의미
파악 방법은 한 변수가 증가하면 다른 변수도 따라서 증가/감소하되 그 추이를 따름
인과관계
실질적으로 하나의 요인으로 인해 다른 요인의 수치가 변하는 형태를 의미
원인과 결과가 명확한 것
주의점
상관관계만으로 섣불리 의사결정 하지않기
양쪽을 모두 활용하여 합리적인 의사판단 하기
데이터 분석 접근법
3가지 단계로 구분
문제 및 가설정의 (생각)
데이터 분석 (작업)
결과 해석 및 액션 도출 (생각)
문제 정의
데이터 분석 프로젝트의 성공을 위한 초석
분석하려는 특정 상황이나 현상에 대한 명확하고 구체적인 진술
프로젝트의 목표를 설정하고 분석 방향을 설정
문제 정의 방법론
MECE(Mutually Exclusive Collectively Exhaustive)
문제 해결과 분석에서 널리 사용되는 접근 방식
문제를 상호 배타적(Mutually Exclusive)이면서, 전체적으로 포괄적(Collectively Exhaustive)인 구성요소로 나누는 것
MECE를 통해 복잡한 문제를 체계적으로 분해하고, 구조화된 방식으로 분석할 수 있음
로직 트리(Logic Tree)
MECE 원칙을 기반으로 복잡한 문제를 더 작고 관리하기 쉬운 하위 문제로 분해하는데 사용
상위 문제로 부터 시작하여 하위 문제로 계층적 접근
일반적으로 도표 형식으로 표현되어 쉽게 파악 가능
데이터의 유형
정성적 데이터(Qualitative Data)
비수치적인 정보로 사람의 경험, 관점, 태도와 같은 주관적인 요소를 포함
대부분 덱스트, 비디오, 오디오 형태로 존재
정형되지 않고 구조화 되어있지 않음
데이터를 구조화하기 어려움
새로운 현상이나 개념에 대한 이해를 심화하는데 사용
정량적 데이터(Quantitative Data)
수치적으로 표현되는 정보로 양적인 측정과 분석을 통해 얻을 수 있음
데이터가 숫자 형태로 존재하기 때문에 통계적으로 분석하기 쉬움
개인의 해석이나 주관이 적게 작용하는 객관성을 가짐
지표로 만들기에 용이
설문조사, 실험, 인구 통계, 지표 분석 등에 활용
데이터 유형별 비교
정량적 데이터
정성적 데이터
유형
정형 데이터
반정형 데이터
비정형데이터
특징 및 관점
여러 요소의 결합으로 의미 부여
주로 객관적 내용
객체 하나가 함축된 의미 내포
주로 주관적 내용
구성 및 형태
수치나 기호
데이터베이스, 스프레드 시트
문자나 언어
웹 로그, 텍스트 파일
위치
DBMS, 로컬 시스템 등 내부
웹사이트, 모바일 플랫폼 등 외부
분석
통계 분석 시 용이
통계 분석 시 어려움
결론 도출
결과와 결론의 차이
결과
데이터 처리, 분석, 모델링 후에 얻어진 구체적인 데이터의 출력
숫자, 통계, 그래프, 차트 등의 형태로 나타낼 수 있음
계산과 분석을 해서 나온 결과물
결론
분석된 데이터 결과를 바탕으로 이끌어낸 의미나 통찰
데이터에 기반한 해석, 추론 또는 권고 사항을 포함
목적에 대해 어떤 의미가 있는지 설명하는 것
Cherta
팔로우
이전 포스트
[SQL]TIL 8일차
다음 포스트
[Python]TIL 10일차
0개의 댓글
댓글 작성