대럴 허프 ≪새빨간 거짓말, 통계≫(2004) : 숫자 앞에 눈 감지 마세요

이향기·2022년 1월 20일
0

★★ (2)

  • 지은이 : 대럴 허프
  • 제목 : 새빨간 거짓말, 통계(How to lie with statistics)
  • 옮긴이 : 박영훈
  • 출판사 : 더불어책
  • 초판 발행일 : 2004년 4월 12일
  • 최종쇄 발행일 : 2015년 3월 31일
  • 출간 연도 : 2004년
  • 원문 출간 연도 : 1954년
  • 페이지 : 192쪽
  • 가격 : 10,000원

작가 소개

  • 대럴 허프

    저자 대럴 허프 Darrell Huff는 1913년 미국 아이오와 주에서 태어나 아이오와 주와 캘리포니아 주에서 자라났다. 아이오와 주립대학을 우등으로 졸업하고 대학원 과정에서 통계학과 심리 검사 연구를 진행하며 사회심리학 분야의 석사 학위를 취득하였다. 여러 집지의 편집인 또는 편집책임자를 지내면서 거의 20년 동안 여러 잡지에 기고하는 자유기고가로 활약하였다. 그 중에는 Haper's, Saturday Evening Post, Esquire, New Yo가 Times 등이 있다. 그는 역시 기고가인 부인과 함께 스페인, 말로르카, 이탈리아, 프랑스, 그리스, 독일, 덴마크, 미국 등지에서 생활했다. (2001년 6월 27일 87세의 나이로 사망) 그는 수학과 관련된 많은 글들을 기고하였으며 1963년 National School Bell을 수상 하였다.

  • 박영훈

    역자 박영훈은 서울대학교 사범대학 수학교육과 졸업하고 동대학 교육학과 석사과정 수료 후 미국 몬타나 주립대학에서 수학과 M.A와 T.A를 취득했다. 중고등학교 수학교사, 수학능력시험 검토위원, 교육개발원 학교교육평가위원을 역임했다. 7차교육과정 중고등학교 교과서를 집필했으며 현재 나온교육의 대표를 맡고 있다. 2001년에는 과학도서 번역으로 과학기술부장관상을 받았다. 저저 〈수학은 논리다〉 〈원리를 찾아라〉 〈아무도 풀지 못한 문제〉와 번역서 〈ㅠ의 역사〉 〈화성에서 온 수학자〉 〈인간적인 너무나 인간적인 수학〉 〈아름다운 너무나 아름다운 수학〉이 있고 20여 종의 참고서를 집필했다.

고전의 조건이란 무엇일까. 언제 쓰여졌던 간에, 그 때 글쓴이가 느꼈던 감정과 묘사가 아주 먼 후대의 사람들에게도 울림을 준다면 그 글은 죽지 않고 오래 살아남을 것이다. 오래도록 잊혀지지 않고 여러 사람들에게 회자되며 기억될 것이다.

냉정하게, 이 책은 고전의 반열에 오를 수는 없을 것 같다.

나는 통계학을 전공하고 데이터를 계속해서 다루고 있어서, 책에서 다루는 내용들이 낯설거나 어렵지는 않았다. 어디서 한 번 쯤 들어봤던 얘기, 그래서 조금은 식상하다고 느껴졌던 이야기들. 이 책을 다 읽고나니, 내 전공에 대해 조금 더 아득해졌다. 통계는 결국 상식이다...?! 난 상식을 전공한 것인가?!

예전의 데이터 \ne 지금의 데이터

먼저 짚고 넘어가야할 것은 이 책에서 다루는 통계, 더 나아가 데이터는 2022년 현재와는 너무나도 다른 이야기이다. 기초통계를 배우던 시절로 잠시 돌아가볼까.

자, 모집단(true population)과 표본(sample)부터 시작한다. 통계학은 전체 모집단을 합리적으로 대표하는 일부분인 표본으로 전체를 파악하기 위해 시작된 학문이다. 또한, 당연하게도 표본으로 모집단을 오차없이 정확하게 파악하는 것은 불가능하기 때문에, 그 불확실성을 수량화하고자 애쓴다. 거기서 분포(probability distribution)의 개념이 나오고, 분포를 추정하기 위해 가능도(likelihood) 개념이 나오고, ... 이런식이다.

단언컨대, 나는 이러한 통계의 개념을 살린 업무를 해 본적이 없다. 데이터를 실무로 다루는 분야에서는 통계의 사고방식과 문제해결 방식이 별 도움이 안된다는 이야기다.

  • 일부분으로 전체를 파악한다? 왜?
    • 과거에는 주로 표본 조사(sample survey)로 데이터를 얻었다.
    • 지금은 전체 데이터를 얻는 것이 별로 비용이 크지 않다. (웹/모바일 환경의 발달)
    • 따라서, 애초에 표본을 상정하는 것 자체가 현실에 맞지 않는다.
  • 전체를 파악한다? 파악한다는 것이 어떤 의미인가? 파악해서 뭐하게?
    • 이제는 데이터를 통해 어떤 현상에 대한 지식과 통찰을 얻는 단계를 넘어섰다. 데이터를 통해 예측도 하고 분류도 하며 추천도 한다. 즉, 별의 별 것, 할 수 있는 것은 다 한다.

숫자를 적절히 요약해서 정보를 제공하는 것으로 찬사를 받는 시대는, 이제는 끝났다고 봐도 무방하다.통계가 나에게 잘못된 정보를 줄 수도 있어! 조심해!라는 이 책의 의미가 조금은 퇴색될만한 시대가 된 것이다.

데이터는 살아있다

통계학 전공자나, 데이터 분석을 업무로써 하다보면 주로 만나는 데이터는 아래와 같다.

  • 교과서에 나오는 예시 데이터들
  • 인터넷에 돌아다니는 테이블 데이터들
  • 현업이 분석 요청한다며 건내준 데이터

분석가라면 데이터에 대해 의심할 용기가 필요하다. 하지만 그 용기를 낸다는 것, 생각보다 쉽지 않다...!

  • 데이터를 모은 사람을 알기도 어려울 뿐더러, 연락하기는 더 어렵다!
  • 아...; 담당자 알아보고 다시 연락 드릴게요.
  • 아니 지금 저희 부서 데이터를 의심하시는 거에욧?
  • 어떻게 수집됐는지 들으시면 알아요? 예?!?

데이터는 테이블 안에 죽어있는 숫자가 아니고, 탄생의 역사와 맥락을 읽어줘야 하는 살아있는귀찮은 생명체이다.

이를 기억하고 데이터를 항상 성의있게 다루는 것. 또 데이터 분석을 위한 분석이 아닌, 목적을 뚜렷하게 가지고 데이터를 수단으로써 다룰 줄 아는 것. 상식에 어긋나는 숫자에 대해서는 질문하고 더 파헤쳐 볼 수 있는 깨어있는 의식을 가지는 것.

그래서 뭘 조심하라고?

  • 적절한 표본은 맞고?
    • 적절한(total-randomly) 표본 표집(sampling)의 어려움 (1장)
    • 원천 자료의 일관성 부족 (7장)
  • 숫자에 민감해 지세요
    • 적절한 대표값을 사용하라 (2장)
    • 표본의 주변 정보(표본 크기, 산포, 범위 등)을 생략하지 마라 (3장)
  • 그래프를 조심하라
    • 그래프 축의 생략, 잘못된 표기 (5장)
    • 그래프의 길이, 면적, 부피에 따른 오도 가능성 (6장)
  • 통계도 논리이다
    • 상관관계 \ne 전후관계 \ne 인과관계 (8장)

속임수를 피하는 다섯 가지 열쇠

아래 다섯 가지를 꼭 확인하라.

  • 출처
  • 조사 방법
  • 숨겨진 자료
  • 쟁점 바꿔치기
  • 상식

총평

데이터를 다루는 태도의 기강을 잡아주는 책. 사실 세세한 정보 하나하나가 도움이 된다기 보다는, 데이터를 다룰 때에 예민한 감각을 깨워 긴장감을 늦추지말고 대해야 한다는 초심을 일깨워주는 책이랄까. (팩트 : 그런 초심 없었음ㅋ)

대럴 허프가 이 책을 쓴 1956년 이후 68년이 지났다. 내가 통계학 전공을 시작한 2012년 이후 10년이 흘렀다. 그 세월동안 세상은 너무 빨리 변해버렸고, 대럴 허프가 써내려간 경고들은 조금은 무색해져버렸다. 대럴 허프가 경고를 날리던 통계, 내가 골터지게 배웠던 통계, 지금 세상이 필요로 하는 통계가 다 다르다. 하지만 과거를 잊은 민족에게 미래는 없다고 하지 않던가. 이 책은 다시금 과거를 되돌아보는 계기 정도는 제공해 주었다고 봐야겠다.

통계의 기초는 수학이지만 그 실제 내용은 과학이면서 동시에 예술이기도 하다. 주어진 범위 내에서 여러 가지 조작이나 왜곡이 가능하기 때문이다. 따라서 때때로 통계학자들은 어떤 사실을 설명하기 위해서 주관적으로 판단하여 자신에게 알맞은 방법을 선택해야만 한다.

이처럼 과학이라는 것에는 묘한 매력이 있다. 사실이라는 보잘것없는 투자로 추측이라는 이렇게 커다란 월척을 낚을 수 있으니 말이다.

profile
Data science & Machine learning, baking and reading(≪,≫)

0개의 댓글