이번 PART 4~7은 자르고, 붙이고, 이어서 사람의 눈을 속이는 그래프와 그림들이 주로 등장했다. PART 8에서는 상관관계를 비롯하여 원인과 결과를 뒤죽박죽으로 만들고, 통계를 헛된 주장에 남용하는 사례들이 등장했다. 역시나 쉽고 재밌는 사례들이라서 술술 익혔다. 더군다나 이번에 국회의원 선거가 있어서 더욱 공감하면서 읽을 수 있었다.
PART 4. 쓸데없는 숫자로 벌어지는 헛소동
PART 5. 사람 눈을 속이는 그래프
PART 6. 백문이 불여일견이라고? 천만에
PART 7. 아전인수를 위한 마구잡이 통계
PART 8. 통계도 논리다
PART 5에서는 그래프에서 작은 차이를 크게 느껴지는 속임수를 다양한 사례로 설명한다. 그래프 y축의 아래 혹은 중간 부분을 생략하고, 축의 눈금을 더 쪼개는 등의 방법은 같은 값과 같은 내용일지라도 아예 다른 해석을 가능케 한다. 이중 y축인 경우 눈금의 크기를 다르게 한다던가, 막대의 크기를 과대 또는 축소 하는 등 다양한 속임수도 존재한다.
그러나 단순히 ‘속임수’ 라기에는 결국 결국 그래프는 주장을 효과적으로 보여주는 수단 일 뿐이라는걸 생각하면, 그렇게 잘못된걸까? 하는 의문이 든다. 결국 내가 데이터를 똑바로 읽고 해석하는 역량을 기르는게 정답이 아닐까?
한글 번역본에는 나와있지 않지만, 원저에는 그래프의 속임수를 다음 그림들로 표현했다. y축 잘라내기 속임수를 아주 재밌고 직관적으로 잘 표현한 그림인데, 번역본에 없어서 아쉽다.
y축이 0부터 시작하는 그래프가 사람의 전신을 의미한다면,
y축의 아랫부분을 잘라놓은 그래프는 사람의 머리만 잘라서 보여주는 셈이고,
y축의 눈금을 더욱 쪼개고 길게 늘리는건 이 머리를 위로 쭉 늘린 셈으로, 머리를 아주아주 강조해서 기괴하게 표현한 셈이다. 이렇게 얼굴만 과장해서 강조하기 완성!
1.5배 차이의 용광로를 3배 크게 그리기, 800만 마리에서 2,500만 마리 이상 늘어난 젖소를 키, 폭, 두께를 각각 3배로 그려서 과장하기 등 도표의 크기에서는 많은 속임수가 발생하곤 한다. 이에 대해 불만을 제기하면, 거짓말은 아니고 단지 보기 좋게 과장했을 뿐이라는 변명이 돌아온다. 사실 요즘도 이런 속임수가 흔하다. ‘숫자’를 ‘그림‘으로 나타낸 순간, 이런 속임수는 감수해야만 하는걸까?
157쪽
“메사추세츠주의 어느 장로교 목사의 수입과 하바나의 럼주의 가격 사이에는 높은 상관관계가 성립한다.” 그렇다면 어느 쪽이 원인이고 어느 쪽이 결과일까? 즉 그 목사님이 럼주 무역이라도 해서 돈을 벌고 있다는 것일까? 또는 그 무역을 옹호하는 사람인가?
“상관관계는 인과관계가 아니다.” 기초통계에서 상관관계를 배울 때 강조하는 말이지만 가장 쉽게 빠지는 함정이기도 하다. 목사와 럼주 예시는 우스꽝스러워서 금방 함정에서 탈출할 수 있지만, 생활 속에 널린 상관관계의 함정은 그리 호락호락하지 않다. 원인이라고 생각한게 결과일 수도 있고, 제 3의 요인이 존재할 수도 있다. 심지어 세부 내용으로 쪼개보면 정반대의 상관을 관찰하기도 한다. 어떻게 하면 이런 함정을 빠르고 쉽게 간파할 수 있을까?
158쪽
상관관계에 관하여 경계하여야 할 점은 그 상관관계를 뒷받침하는 데이터의 범위를 넘어서까지 그 상관관계가 지속해서 성립할 것이라고 추측하는 일이다. 비가 많이 오면올수록 곡물은 더 잘 자라고 따라서 수확량도 늘어날 것이다. 그러니 비는 신의 은총과도 같은 것이다.
그러나 너무 많은 비는 곡물에 피해를 입히고 잘못하면 농사를 망치게 할 수도 있다. 양의 상관관계가 어느 한계에 다다르면 음의 상관관계로 돌변한다. 즉 어느 일정한 양 이상의 비가 더 오면 수확량은 오히려 감소하게 된다.
강수량과 수확량의 관계처럼, 데이터 분석 프로젝트를 할 때도 두 변수 긴 낮은 상관이 산점도에서는 경계값을 기준으로 범위별로 유의미하게 높은 상관이 관찰되는 경우가 많았다. 이처럼 상관관계를 살펴볼 때 간과하기 쉬운 부분이 바로 값의 범위이고, 이를 간파하기 위해서는 반드시 산점도를 그려봐야 한다.
선거는 통계적 속임수를 보여주는 좋은 예이다. 이번에 국회의원 선거에서 다양한 목적과 의미를 담은 시각화 예시를 찾을 수 있었다.
지도 위에 색과 농도로 양당의 지지율을 표시한 결과(출처: 네이버), 동서로 뚜렷하게 나뉜 양상이 보인다.
그런데 선거구는 면적이 아닌 인구수에 비례하기 때문에, 면적 대비 인구수가 많은 수도권에 더 많은 의석수가 존재한다. 이를 격자무늬 카토그램으로 나타내면(출처: 다음) 양당의 의석수는 현저한 차이를 보인다.
지난 대선과 비교하여 이번 총선에서 양당 중 어느 당으로 민심이 이동했는지 화살표로 표시한 지도도 있다(출처: 경향신문)
‘새빨간 거짓말, 통계’에서 다양한 사례를 들면서도 어느게 ‘나쁘다’ 라거나 ‘틀렸다’고 말하지는 않는다. 다만 과장된 해석과 속임수가 가능하니 조심하라고 말할 뿐이다. 선거가 통계적 속임수를 잘 보여주는 이유도 마찬가지이다. 지도든, 키토그램이든, 표심이동 화살표이든 각자 다른 해석과 의도를 담은 도구일 뿐이다.