[데이터는 예측하지 않는다]

H Kim·2024년 3월 11일
0

기술 책 읽기

목록 보기
16/20
post-thumbnail
post-custom-banner

1부. 데이터 분석을 제대로 하려면

01. 분석의 목적 정의

  1. 데이터로 문제를 해결해야만 하는 사람
    -> 데이터 수집을 위한 '실험과 측정(혹은 분석)'을 설계할 수 있어야 함
  2. 데이터의 문제를 해결하는 사람
    -> 통계학적 이론과 이를 프로그래밍 할 수 있는 능력이 필요
  3. 데이터로 설득하려는 사람
    -> 시각화 능력 필요
  4. 데이터로 문제를 해결하려는 사람
    -> 문제의 본질을 파악하는 능력 필요

02. 가장 좋은 분석이란

  • 데이터 과학이 발달하고 데이터 분석 도구가 아무리 정교하다 하더라도 입력되는 데이터 자체가 쓰레기이면, 그 결과 값 또한 쓰레기이다(Garbage in, Garbage out).

03. 데이터 분석, 꼭 알야아 할 15가지

  • Garbage In, Garbage Out
  • 분석 자체보다 분석 과정 전체를 보는 것이 훨씬 더 중요하다.
  • 웬만한 건 고등학교 수준의 통계학만으로도 가능하다.
  • 모든 데이터 사이언스는 "측정 -> 수집 -> 분석"의 단계를 따른다.
  • 데이터 사이언스 실무에서 가장 중요한 것은 측정이다.
  • 측정에는 측정 장비와 스케일을 포함한다.
  • 그래서 중요한 것이 스케일이다.
  • 데이터 사이언스를 위해 필요한 기초 과목은 (실험)물리이다.
  • 대체 지표로 측정한 것은 가짜다.
  • 데이터 수집에는 전처리 과정을 포함한다.
  • 전처리에서 중요한 기초 과목은 신호처리이다.
  • 되도록이면 적은 데이터를 모으는 게 바람직하다.
  • 가장 좋은 해결은 데이터 분석 없이 문제를 해결하는 것이다.
  • 데이터 사이언스는 만병통치약이 아니다.
  • 데이터 분석이 강력한 한방일 필요는 없다.

04. 진짜 좋은 데이터란?

  • 데이터 분석보다 더 중요한 것은 데이터 자체이고, 데이터 자체보다 더 중요한 것은 바로 데이터가 내 것인지 남의 것인지를 아는 것이다.
  • 독립사건인 확률을 인과관계가 있는 확률이라고 착각하는 것이 가장 자주 저지르는 실수이다.

05. 분석 결과의 진실성

  • 데이터 분석(모델)의 타당성은 해당 사건(혹은 현상)이 실제로 일어났는지의 여부와는 전혀 상관이 없다.

06. 데이터의 상관관계, 인과관계

  • 올바른 데이터 분석을 위해서는 변수 사이의 관계를 분석하지 않고서도 상식처럼 알 수 있는 포인트는 놓쳐서 안 된다. 모기약을 많이 산다고 모기가 늘고, 치킨 판매량이 는다고 야구 경기력이 향상된다는 것이 틀렸다는 것 쯤은 누구나 알만한 상식 수준의 판단이다. 이를 좀 더 고급스럽게 표현하면, 변수들 사이의 관계를 파악하는 인사이트는 데이터 분석 능력이 아닌 다른 영역에서 우선하여 나온다는 것이다.

07. 데이터 사이언스의 한계

  • 세상에 일어나는 많은(사실상 거의 대부분) 현상에 대한 성찰이나 통찰은 "절대적"이라기 보다는 조건에 따라 바뀌는 경우가 훨씬 많다. 특히, 수학이나 과학으로 간략화하기 힘든 사회라든가 문화라든가 신념이라든가 철학 같은 경우에는 전제조건에 따라 성찰이나 통찰이 바뀔 가능성이 매우 높다.

  • 논리적으로 반드시 참(혹은 반드시 거짓)이 된다면 그걸로 수학적인 증명이 끝난 거다. 아무리 데이터 분석을 한다고 해도 더 이상 새로운 결과를 얻을 수는 없다. 그리고 이에 대한 반박은 아무리 데이터 사이언스 할아버지가 와도 절대 반박이 불가능하다. 아무리 데이터 사이언스가 날고 기어도 그 기본 전제인 수학의 테두리를 벗어날 수 없다. 그러니 우리가 무엇을 문제로 정의할 것인지, 그리고 무엇을 분석할 것인지 고민할 때는 이 같은 절대 진리를 위배하는 것은 아닌지 잘 따져보는 혜안이 필요하다. 단순히 분석 기술을 잘 아는 것과는 다르다.



2부. 데이터 사이언스의 오해와 진실

08. 언제까지 빅데이터?

  • 아무리 큰 데이터라 하더라도 데이터라는 모집합Superset에 속한 부분 집합Subset일 뿐이다. 앞서 얘기한 대로 빅데이터의 범주는 데이터 사이언스의 범주를 벗어날 수 없고, 이는 다시 통계학의 범주를 벗어날 수 없다(서 있는 곳이 아무리 바뀌어도 풍경은 변하지 않는 절대적으로 참true인 명제). 그래서 결론적으로 얘기하면, 빅데이터는 데이터 사이언스나 전산학 혹은 통계학을 하는 입장에서 컴퓨터로도 다루기 까다로운 큰 데이터일 뿐이지 그 이상의 어떤 대단한 무엇도 아니다(빅데이터가 마치 모든 걸 해결해줄것인냥 생각할 필요가 없다).
  • 빅데이터의 정의는 시대마다 환경마다 다르다. 예전에는 플로피디스크가 빅데이터였지만 지금은 너무나도 작아서 아무것도 하지 못하는 것처럼, 언젠가는 우리가 지금 쓰는 GB 단위의 데이터도 작은 데이터로 바뀔 수도 있는 것이다.

09. 데이터 지상주의

  • 비례적 등가(Proportionally Eqaul)
    논쟁의 근거가 되는 상대의 데이터가 조작되었다고 말하려면, 내 데이터 또한 조작되었다고 말해야 하고, 내 데이터가 신빙성이 있다(조작되지 않았다)라고 주장하려면, 남이 제시한 데이터 또한 신빙성이 있다고 봐야한다는 것을 뜻한다(데이터 사이언스적 관점에서도 훨씬 이치에 맞는 말이다).
  • 데이터에 근거한 어떤 주장(논쟁)을 할 때는 어느 누구라도(어떤 경우에서도) 데이터의 신빙성에 대한 문제에서 자유로울 수 없다. 이는 나 뿐만 아니라 제 3자(경쟁사든)의 누구에게라도 동일하게 적용된다. 데이터 지상주의나 데이터만이 모든 것을 다 말해줄 거라는 환상에 빠져서는 안 되는 이유이다(특히 내가 수집한 데이터에 있어서는 더더욱).

10. 데이터는 잘못이 없다

  • "데이터는 주장이나 사실을 객관적으로 뒷받침할 수 없다."
  • 데이터 수집에 한계가 존재하기 때문이다. 데이터 수집에서의 한계는 무엇보다 모집단의 수가 크면 클수록 전체를 대상으로 하는 것이 사실상 불가능하다는 것을 의미한다.
  • 데이터가 거짓 없이 사실을 기반으로 객관적으로 수집되었다 하더라도 말하는 사람에 따라 혹은 듣는 사람의 타성(이라 쓰고 "느낌"이라 읽는다)에 따라 그 해석은 얼마든지 달라질 수 있다. 이는 데이터 자체의 문제라기보다는 데이터를 사용하고 받아들이는 사람의 감성의 문제이다.

11. 데이터로 미래 예측이 가능?

  • 근본적으로 미래는 재현이 되지 않으며 ,어제가 오늘과 다르고 오늘은 내일과 다르다. 단지 비슷하게 보일 뿐이지 절대로 같지 않다. 따라서 통계(혹은 데이터 과학, 혹은 빅데이터)를 통한 미래 예측은 시뮬레이션처럼 미래를 모사만 할 수 있을 뿐이지 정확히 예측한다는 것은 불가능하다.
  • 시간의 영향력이 크면(즉, 시간에 따라 결과가 달라지거나 바뀌게 된다면) 예측의 문제가 되고, 시간의 영향력이 없거나 작으면 패턴의 문제가 된다.채턴도 데이터와 마찬가지로 '과거의 산물'이다. 시간의 영향력이 적다는 의미는 바로 시간과는 관계없이 특정 조건(혹은 상황)만 되면 결과 값(혹은 추측값)이 같다는 것을 의미한다. 바꿔 이야기하면 재현성이 높아진다는 의미이다. 즉, 시간과 관계없이 조건만 맞으면 동일한 결과가 재현된다는 의미이다.

12. 데이터 없이 문제 해결하기

  • 데이터 분석이 요구되는 문제(혹은 데이터 분석이 요구된다고 판단되는 문제)를 해결하는 최선의 방법은 데이터 없이 문제를 해결하는 것이다. 어쩔 수 없이 데이터 분석이 필요하고 이러한 분석을 위한 데이터 수집의 과정을 피할 수 없다면, 되도록 적은 양의 데이터를 갖고서 분석하는 것이 차선의 해결 방법이다.

13. 데이터 사이언스는 과학이 아니다

  • 수학은 수학적 증명을 통해 그 답의 진설성을 담보 받지만, 데이터 사이언스는 아무리 측정된(혹은 수집된) 데이터가 정확하고 충분하더라도 데이터 분석을 통해서 얻은 답이 진실한지(그 답이 참인지) 여부를 확실히 알 수 없다. 이는 앞에서도 여러 번 강조했지만 수집할 수 있는 데이터는 결국 한계를 가지고, 이러한 한계를 가진 데이터로 분석된 데이터 값은 수집된 데이터를 대표할 뿐이지, 모집단 전체를 대표하지는 않는다는 의미이다.
  • 이 근본적인 한계는 반드시 알고 있어야 한다. 데이터 기반의 의사 결정의 가장 큰 맹점은 데이터 이외의 것을 보지 않는 데 있다. 데이터 사이언스를 한답시고 이 한계를 모르고 있어서는 안 된다.

14. 도박과 확률이 다른 점

  • 둘이 다른 점은 목적이 "예측"에 있는 것이 아니라 "관리"에 있다는 것이다. 예측은 "맞는 경우"에만 관심이 있지만, 관리는 "맞는 경우"와 "맞지 않는 경우" 모두에 관심을 갖는다.

15. 실패한 기업에 다시 투자하는 이유



3부. 데이터 사이언스 더 잘하기

16. 효용성 높이기

  • 데이터 사이언스를 하고자 다양한 도구들을 사용할 줄 아는 것도 중요하지만, 효율적으로 하기 위해서는 최신 데이터 분석 도구 대신 문제의 본질에 따라 그에 맞는 적절한 자원과 도구를 분배할 수 있어야 한다.

17. 수학적 사고의 중요성

  • 왜곡된 위험에 대해서 합리적인 의심을 하도록 도와주는 것은 감성적인 사고가 아니라 수학적인 사고이다(이것이 필자가 얘기하는 데이터 리터러시다).

18. 나의 데이터 리터러시


19. 인지적 편향 깨기

  • 데이터 리터러시를 갖고 있다는 것은 어떤 의사결정이 필요한 문제를 과학적으로 접근해 모델링을 하고, 감정이나 감성이 아닌 합리적인 판단을 하도록 돕는 능력을 의미한다. 행동경제학은 바로 이러한 인지적 편향 문제를 해결해 나가는 학문이다. 행동경제학은 인간들이 이성적이고 합리적인 판단을 한다는 전제를 부수고 들여다보는 학문이기에, 개인이나 집단에서 표출되는 인간 습성의 데이터를 다루는 사회과학분야에서는 꼭 필요한 학문적 도구이다. 이러한 인지적 편향을 깨는 것들(행동경제학, 게임이론 등)을 잘 이용해야 데이터 리터러시를 갖게 된다.

20. 생활 속 게임이론


21. 데이터 사이언스 설계


22. 데이터 사이언스 설계, 원포인트 레슨

  • 이러한 개념은 오퍼레이션 관리뿐만 아니라, 일반 사회 현상이나 사회 문제에서도 그대로 적용할 수 있다. 예를 들어, 인구 감소 문제와 기후 변화 문제를 동시에 해결하려고 해서는 안 된다. 하나씩 해결해야 한다. 변수 모두를 건들게 되면, 결과 값을 논의할 때 무엇이 원인이었는지를 파악하지 못한다. "Everybody's responsibility is no one's responsibility."
    모두의 책임은 어느 누구의 책임도 아닌 것이 된다.

23. 문제의 본질 읽기

  • 리터러시는 정보를 읽고 이해하는 능력이다. 그 정보가 어떤 경로(책인지, 모니터인지, 킨들인지, 휴대폰인지 나아가 빅데이터인지, AI인지, 챗GPT인지)를 통해서 만들어지는지는 중요한 요소가 아니다. 리터러시를 향상하기 위해서는 주어진 문제의 문맥(상황)이나 인과관계를 논리적으로 추론할 수 있는 기본적인 소양을 갖추는 것이 중요하다. 이때 필요한 것이 수학적 사고력을 포함한 리버럴 아트, 인문학이다.


4부. 데이터 사이언스와 인문학

24. 데이터 사이언스와 챗GPT

  • "The technology shall come to you if you don't come to the technology"

25. 인공지능의 비합리성

  • 데이터 사이언스는 과학적 기법이라기보다는 다수결(데이터의 대표성)에 의해 정답이 바뀌기에 비과학적 기법으로 보는 것이 타당하다. 특히 찾고자 하는 해답이 사람이나 사회와 관련된 것들(사회 과학 분야)이라면 분석이나 학습을 위한 데이터는 해당 집단의 비과학성(혹은 비합리성)이 개입될 수밖에 없다. 그리고 이러한 데이터의 비합리성은 이후 아무리 정교한 데이터 사이언스 기법이 나온다 하더라도 올바른 해답을 찾기에는 역부족일 수 밖에 없다.

26. 인문학적 소양

  • 데이터 사이언스도, 생성형 인공지능도 흘러가는 세월이 바뀌면 함께 발전하는 최신 기술 중 하나이다. 그러니 현재 인기를 끌고 있는 데이터 사이언스 도구를 최신인 양 모두 습득하려고 애쓸 필요는 없다(따라가지 못한다고 불안해야 할 이유도 없다). 데이터 사이언스는 의사결정을 돕는 여러 최신기술 중 하나일 뿐이고, 빅데이터를 기반으로 한 생성형 인공지능 또한 스쳐 가는 최신 기술일 뿐이다. 그리고 최신 기술은 지금 내가(혹은 인류가) 직면한 문제를 해결하는 도구일 뿐이다.
    도구의 가치를 결정짓는 것은 그 도구를 사용하는 내가 어떤 목적을 ㅗ무엇을 하는 데 쓸 것이냐, 이다. 나에게 필요한 이유를 알고, 이를 위한 도구 선택을 잘하기 위해서는 앞서 얘기한 통찰과 인문학적 소양이 필요하다.
post-custom-banner

0개의 댓글