통계 | #1 비즈니스에서 데이터를 어떻게 써야 하는가?

소리·2024년 4월 19일
0

분석하는 힘

목록 보기
1/11
post-thumbnail

📗빅데이터를 지배하는 통계의 힘 1

니시우치 히로무

👩 읽게 된 계기 : Python를 사용하는 스킬은 늘어나는 것 같은데, 어떤 상황에 어떤 해석을 내놓아야 하는지 판단을 쉽사리 할 수 없었다. 그러던 중 선배 데이터분석가 글에서 이 책으로 분석에 대해 많은 도움을 받았다고 해서 책을 펼치게 되었다.

이 포스팅은 읽으면서 밑줄 친 부분과 내 생각으로 이루어져 있습니다.

제 1장 빅데이터, 통계학에서부터 시작하라

제 2장 정보비용을 대폭 줄여주는 통계

빅데이터는 올바른 판단에 필요한 최선의 데이터를 다룰 것은 추천한다.
만약 1% 오차가 앞으로 수년 동안 차곡차곡 쌓여 수 천만엔이나 되는 매출 혹은 비용으로 이어진다면 빅데이터 해석 기술은 분명 도움이 된다. 70쪽

제 3장 오차와 인과관계가 통계학의 핵심이다

비즈니스에 구체적으로 행동을 이끌어 내려면 적어도 다음 '세 가지 질문'에 답할 수 있어야 한다.

1. 어떤 요인을 변화시켜야 이익이 향상될까?

2. 그런 변화를 일으키는 행동은 실제로 가능한가?

3. 그에 따른 비용이 이익을 얼마나 상회할까?

만약 위에 대답할 수 없다면, 아무것도 대답해주지 않는 단순 집계는 별다른 도움이 되지 않는다에 전적으로 찬성한다. 73, 76쪽


기억의 편중

-소나기가 내려 우산을 사면 대부분 날이 바로 갠다. 
-토스트를 떨어뜨리면 언제나 버터 바른 쪽이 바닥에 닿는다
-어쩌다 지각할 가능성이 있을 때만 전철이 제시간에 오지 않는다

다음과 같은 말을 들으면 많은 사람들이 그래하며 고개를 끄덕일 것이다.

'그래그래'의 대부분은 기억의 편중 때문이다. 사람은 고작 몇 차례에 지나지 않은 편중된 경험을 과잉해 일반화 하기 쉽다. 누구나 한번 선입견을 가지면 모든 일을 자기 형편에 맞게 해석하는 경향이 있다
통계학은 그런 인간의 결함을 보완해준다 84, 85쪽


카이검정제곱

의미있는 편증인지 아니면 이정도 차이는 오차인지를 확인하는 해석 기법은 카이제곱검정이다. 즉 통계 해석을 더 정밀하게 만드는 카이제곱 검정과 p값! 94쪽

1) 적절히 비교할 것 
2) 단순 집계만 하지 말고 오차와 p값을 확인할 것. 

이 두 가지 통계학 법칙만 알아도 경험과 감을 뛰어넘어 데이터를 바탕으로 둔 실질적인 해결방법을 찾기가 쉬워진다. 그러나 두 가지를 이해했는데도 실제 분석에 들어가려 할 때 종종 문제가 되는 것들이 있다.
적절한 비교란 무엇인가, 즉 무엇과 무엇을 비교해야 하는가


비즈니스의 통계

비즈니스맨이라면 무엇을 목적으로 삼아야 할 지 명확하다. 바로 이익을 극대화하는 것이다.

비즈니스에서 마땅히 해석해야 할 지표는 직접적인 이익이 생기는가, 거기에 도달하는 인과관계의 과정이 확실하다.

데이터에서 무슨 해결책이 나오지 않을까 하는 막연한 질문이 아니라 그 많은 데이터 중 무엇이 어떤 관계성을 갖고 이익으로 이어지는가 를 생각해야한다. 97쪽


제 4장 임의화라는 최강의 무기 활용하기

  • 임의화 : (Randomization): 처리집단에 걸친 외부 효과를 차단하기 위해서 관심을 갖는 결과값의 변동성을 동일하게 배분
  • 무작위 : 인간의 의사가 포함되지 않도록 , 확률적이라는 뜻

오차에 접근하는 세 가지 방식이 있다.

1. 실제 데이터를 전혀 취급하지 않고 단지 가설이나 이런 사례가 있었다는 말만으로 
  이론 모델을 세우는 방식

2. 결과가 그렇게 나타난 사례만 보고하는 방식

3. 임의화를 활용해 인과관계를 확률적으로 표현하는 방식

3번 임의화는 100번 시도했을 때 100번 다 꼭 그렇지만은 않은 현상을 과학적으로 다루고자 할 때 가능한 방법이다.

임의화하면 비교하려는 두 그룹의 모든 조건이 거의 평균화된다.
실험을 통해 조절하려고 한 비료만 다른 상태에서 두 그룹의 수확량에 오차라 보기 힘든 차이가 생겼다면 그것은 비료로 인해 수확량에 차이가 났다라고 판단해 인과관계를 거의 실증했다고 볼 수 있다.


임의화를 대하는 태도

  • 통계학적 근거도 없이 반드시 옳다고 판단하는 것이 어리석은 만큼, 무조건 잘못이라고 여기는 것 또한 잘못이다. 124쪽

  • 회사 전반에 걸쳐 답을 끌어내기 힘든 판단도 개인 감각에 맡기기보다는 우선 임의화해 정기적으로 평가하는 방식이 장기적으로 볼 때 훨씬 효율적이다.

  • 사내에 수없이 산적해 있는 문제에 대해 정답이 없으면 우선 임의로 정해놓고 실험해보는 것의 가치는 생각 이상으로 크다


임의화의 한계는 3가지가 있다. 129쪽

현실 (세상에는 임의화 하는 것 자체가 불가능한 경우)
윤리 (임의화가 허용되지 않는 경우)
감정 (하는 것 자체는 아무 문제가 없는데 하면 큰 손해를 입는 경우)

역학을 활용한다.

임의화를 하지 않아도 다른 조건을 동등하게 갖춰놓고 조사를 하면 공정한 비교를 할 수 있다. (층별 해석)

  • 역학 : 부분을 이루는 요소가 서로 의존적 관계를 가지고 서로 제약하는 현상
  • 역학 조사 : 인과 관계를 역학적으로 해석하기 위해서 행하는 조사

역학 연구 - 코호트 연구(전향적 추적조사 / 특정한 코호트를 대상으로 장기간 추적 관찰함으로써 시간의 흐름에 따라 어떤 원인에 의해 어떤 결과가 나타나는지 탐구하는 종단적 연구방법)



평균값으로의 회귀를 분석하는 회귀분석

데이터의 관계성을 기술하는 것, 다시 말해 하나의 변수로 다른 변수의 값을 예측하거나 설명하는 것 148쪽

제 5장 통계학은 계속 발전하고 있다

회귀 계수 자체에는 불규칙성이 존재한다. 161쪽
현실의 데이터로부터 얻어지는 회귀 계수 등의 통계량은 어디까지나 이 참값에 대한 추정치이다. 단지 가장 타당한 값을 추정하는 데서 그치는 게 아니라, 참값에 대한 어느 정도의 오차를 가지는지 판단해 잘못된 결정을 내릴 위험성을 최소한으로 줄일 수 있다. 163쪽

일반화 선형모델

169쪽

기본적으로 같은 것으로 취급하고 마치 조감이라도 하듯 폭넓게 설명하자

공정한 비교를 막는 심슨의 패러독스

  • 전체 집단 간의 단순비교는 그 구성요소가 되는 소집단 간의 비교 결과와 모순되는 경우가 있다.
    예) A,B 고등학교 남녀 전체 학생 평균 점수에서 A학교가 더 성적이 높으나, 성별로만 보면 B 고등학교가 남녀 각각 평균 점수가 A보다 높다. (학생 수 차이로 생긴 결과)

  • 반대로 단순한 비교에서는 전혀 차이가 나타나지 않는 것도, 역시 구성요소의 차이 때문에 본래 있어야할 차이가 감춰져 있을 뿐인지도 모른다.

➡️ 같은 소집단 안에서 다시 비교하는 과정을 거치기만 하면 심슨의 패러독스는 거의 방지할 수 있다. '같은 소집단' 즉 층별로 나누어 분석하는 것을 층별해석이라고 한다.

* 패러독스는 방지하지만, 결과에 영향을 미칠 수 있는 조건이 많아 질 수록 효율적이지 않다. -> 다중 회귀분석은 층 분류를 하지 않아도 되므로 이 문제에서 위력을 발휘한다.


데이터를 분석해 겨우 알아낸 것이 '모두 제각기 다르다'라면 말이 되지 않는 이야기이다. 되도록 간단하게, '무엇이 결과변수에 가장 큰 차이를 나타내는가'를 알아내는 것이 통계학이다.195쪽

성향점수

: 흥미 있는 두 가지 설명변수가 있을 때 어느 쪽에 해당될까 하는 확률.
로지스틱 회귀에 의해서 간단하게 얻어진다.

예) 성향점수가 같은 집단, 즉 연령, 거주지역, 지겁 등의 조건으로부터 흡연할 확률이 같을 것이라 추정되는 집단끼리 비교하여 '그 외의 조건'과 '흡연 여부'의 관련성이 '흡연 여부'와 '폐암'의 관련성을 왜곡시키지는 않을 것이라고 판단했다. = 성별이나 거주지역 등 모든 조건으로부터 추정된 흡연율을 같은 집단 끼리로 범위를 좁혀버리면, 그 모든 조건이 흡연율에 영향을 미치는 일은 없다.


제 6장 통계학의 여섯가지 활용 분야

1) 실태를 파악하는 사회조사법
2) 원인을 규명하는 역학, 생물통계학
3) 추상적인 것을 측정하는 심리통계학
4) 기계적 분류를 위한 데이터마이닝
5) 자연언어 처리를 위한 텍스트마이닝
6) 연역에 관심을 두는 계량 경제학


🔎 통계를 공부할 때 그저 통계학문, 숫자 자체로만 봤다면, 이 책을 보고 좀더 비즈니스 관점에서 생각하고, 어떤 궁금증을 중심으로 문제를 제기해야 하는지에 대해 큰 방향성을 알 수 있었다.
책에서 얻은 내용을 내가 했던 프로젝트에 다시 적용해 방향을 수정해보겠다. 포스팅 링크

profile
데이터로 경로를 탐색합니다.

0개의 댓글