<데이터 분석가의 숫자유감>

hy_jin·2023년 11월 22일

1화. 상관관계와 인과관계
__광고 덕분에 DAU가 늘었다?
2화. 숫자의 불확실성
__
큰 수를 더 크다고 말하지 못하고
3화. 모수와 표본
__모수가 이렇게 충분한데 그냥 쓰면 안 될까?
4화. 확률과 분포
__
그때는 맞고 지금은 틀린가?
5화. 실험을 통한 의사 결정
__실험의, 실험에 의한, 실험을 위한
6화. 그래프 읽기
__
백문이 불여일견이라는 거짓말
7화. 추세선 그리기
__엑셀이 이르시되 추세선이 있으라
8화. 시계열 데이터
__
나는 내일, 어제의 데이터와 만난다
9화. 별점의 함정
__나의 3점과 당신의 3점은 다르다
10화. 인구통계학 정보의 효용성
__
이 광고는 30대의 여성을 대상으로 타기팅했습니다?
11화. 조건부 확률
__그 식당이 맛집일 확률을 찾아서
12화. 범위 제한을 통한 정확도 향상
__
늘 옳은 말만 하는 법
13화. 평균이란 무엇인가?
__평균 연봉의 함정 281
14화. 데이터 문해력
__
데이터로 읽고 쓰기

2페이지에 네컷 분량이 들어가있기에 생각보다 금방 읽은 책이다.
책 내용은 데이터 분석가로 실무에서 마주하는 일과 데이터를 잘 모르는 직군의 사람들이 데이터에 대한 오해들을 만화로 잘 풀어써있다.
책은 데이터에 대한 상식을 알려주는 책이기에 데이터 공부를 시작하는 단계의 사람에게 적합한 책이란 생각이 들었다.

사람들은 문제를 해결하기 위해 숫자를 사용해서 문제와 관련된 사실을 그려내고, 그 숫자 간에 어떤 관계가 맺어지는 것처럼 보이면 이를 토대로 결론을 짓곤 한다. 우리는 이런 현상을 보고 ‘데이터 기반 의사결정’이라고 한다. 하지만 각자의 머릿속에는 각자의 이야기가 있고, 같은 숫자를 보고도 다른 결론을 꿈꾸기도 한다

실제로는 어떤 관계도 없지만 나비의 날갯짓 빈도와 태풍의 발생 빈도를 데이터로 나타냈을 때 우연히 상관관계가 있는 것처럼 보일 수도 있다. 이렇게 우연히 데이터가 들어맞을 때 혹여 나비의 날갯짓과 태풍에 대한 상관관계를 파악하고자 상관계수를 구한다면 태풍과 나비의 상관계수와 나비와 태풍의 상관계수는 같다.

수학은 불확실성에 쌓아 올려진 학문이고, 통계는 항상 확률과 같이 등장하며, 숫자는 한 번도 절대적인 적이 없다

데이터 분석에서 상관관계는 기본적이며 중요한 항목이다. 변수 간의 관계와 추세를 파악할 수 있고, 이후 여러 분석에서 고려할 수 있다. 하지만 이를 가지고 섣불리 어떤 결과를 내는 것은 위험하다.

profile
천천히 꾸준히

0개의 댓글