📗새빨간 거짓말, 통계 / 대럴 허프
통계에서 조심해야 하는 부분을 짚어주는 책, 통계가 어떻게 사람을 속일 수 있는가! 내가 조심하고 넘어가지 않게!
여론조사 의심 포인트
표본이 왜곡되면 아무 소용이 없다. 통계에 있어서 가장 중요한 것은 표본을 근거로 어떤 결론을 내릴 때 그 표본이 모집단 전체를 대표하는 것이라야 한다는 사실이다. 즉, 왜곡의 원인이 되는 모든 것을 제거하고 난 표본이어야 한다. 22쪽
왜곡 가능성에 대한 의심을 품어보아야 한다.
기초가 될 표본은 '임의추출' 된 것이여야 한다.
임의 추출인지 아닌지 판정은 모집단 안에 있는 개체들이 표본에 선택될 기회가 동일한가라는 질문을 해보는 것이다.
경제적 대안으로 층별임의추출법을 사용할 수도 있다.
층별 표폰을 얻으려면 모집단을 이전에 알고 있는 비율에 따라 몇 개의 그룹으로 나누어야 한다. 이 때 비율에 관한 정보가 과연 신뢰할 정도로 옳은가의 문제가 생긴다.
질문자에 따른 왜곡된 결론, 누가 인터뷰 하느냐에 따라 결과는 미묘한 차이를 나타낸다. 33쪽
평균은 하나가 아니다.
평균으로 산술평균값, 중앙값, 최빈값이 있다. 상황에 따라 다른 종류의 평균값을 사용하는 속임수는 자주 사용된다.
예) 한 기업 임직원의 소득 분포
신뢰할 수 있는 평균값은 어떤 종류의 평균값이며, 정의를 어떻게 내렸는지, 확률과 오차한계까지 함께 명시되어있는 것이다.
작은 숫자를 생략하여 사기 치는 법
표본이 작은, 즉 통계적으로 불충분한 표본을 채택했을 때 아무런 차이도 없는 어떤 결과는 순전히 우연에 의해 만들어낼 수 있다. 53쪽
시행 횟수가 충분히 커야만 여러 현상을 제대로 설명하거나 쓸모 있는 예측을 할 수 있게 된다.
확실하지 않은 결론에 속지 않는 방법은 무엇일까? 유의판정법이다. (유의수준으로 적절한 판단을 내릴 수 있을 것이다.)
예상오차
전후 관계와 인과관계를 혼동하는 오류(시간적 발생에 따라 인과관계를 설명하려는 논리적 오류)를 범하지 않도록, 그리고 또 사실이 아닌 여러 현상을 사실이라고 믿는 일이 없도록 하기 위해 상관관계에 관해 언급할 때는 각별한 주의를 기울여야 한다. 126쪽
어떤 것의 원인이라는 것을 증명해 줄 것 같이 보이는 저 믿음직스럽게 정밀한 숫자인 상관관계에는 여러 가지 유형이 있다.
- 우연히 일어나는 상관관계, 특히 표본의 크기가 작을 때 당신이 생각하는 의미있는 상관관계를 항상 찾아낼 수 있다.
공분산(두 변량의 편차) 로 상관관계가 있다는 것은 명백하지만 어느 것이 원인이고 어느 것이 결과인지 분명하게 드러나지 않을 때 사용한다.
어떤 경우에는 원인과 결과가 때때로 서로 뒤바뀌는 경우도 있고, 또 양쪽이 동시에 원이이 되기도 하고 결과가 되기도 하는 경우가 있다.
가장 주의를 요하는 상관관계는 어떤 변수도 다른 변수에 대하여 아무런 영향이 없지만 두 변수 사이에는 분명히 어떤 상관관계가 존재하는 경우로 비교적 자주 발생하며 속임수나 사기 행각을 벌일 때에 많이 이용되는 수법이다.
또 하나 상관관계에 관하여 경계하여야 할 점은 그 상관관계를 뒷받침하는 데이터의 범위를 넘어서까지 그 상관관계가 지속해서 성립할 것이라고 추측하는 일이다. 130쪽
눈을 속이는 그래프
그래프의 가로축과 세로축 눈금 간격만 바꾸기만 해도 작은 상승폭을 쇼핑한 인상으로 만들 수 있다.
시각을 자극하고 과장된 도표를 조심하라
속이기 쉬운 백분율, 백분율점, 백분위수
백분율을 더할 수 있다고 생각하는 오류 때문에 피해를 보는 저자들이 많다. 퍼센트(백분율)끼리는 산술계산(+-*/)가 불가능하다. 156쪽
또 하나 속이기 쉬운 것은 백분율과 백분율점을 혼동하는데서 오는 착각이다.
백분율(%, 퍼센트) : 주어진 값이 전체에서 차지하는 비율을 100의 분수로 표현하는 방식 (양을 비교)
백분율점(%P, 퍼센트점) : 백분율로 값을 나타낸 지점을 의미
백분위수 : 데이터 분포를 일정 비율로 나눈 값을 의미 (구간을 분리하거나 위치, 순위를 표시)
예) 어느 년도의 인구증가율이 10%이고, 그 다음해의 인구증가율은 15%라고 한다. 퍼센트포인트로 5%P 증가한 것이고, 퍼센트로는 50% 증가했다고 이야기할 수 있다.
통계의 속임수를 피하는 다섯가지 열쇠
고의적인 왜곡을 반드시 찾아내야만 한다. 측정단위를 슬쩍 바꾸거나 애매하게 표현하여 자신에게 유리하게 끌고가거나 대놓고 거지말을 말할 수 있다. 부적절한 측정법을 사용되고 있는지도 확인한다.
권위 있는 이름이 인용되어 있을 때 그 권위자가 그 이야기와 관련되 어 있을 뿐만 아니라 그 사실을 지지하고 있는지도 확인해 볼 필요가 있다.
상관관계에 대해서도 마찬가지로 그 상관관계가 정말 의미있는 것으로 결론지을 만큼 표본의 크기가 큰지, 충분히 많은 사례가 있었는지를 물어보아야 한다.
표본 크기에 대한 자료, 신뢰도에 관한 자료(확률 오차, 표준편차) 가 빠져있는 상관관계는 심각하게 여길 필요가 없다
통계를 분석할 때에는 그 기초가 된 데이터와 결론 사이에 어떤 바꿔치기가 있었는지 주의해야 한다. 전혀 다른 것으로 둔갑하여 발표되는 경우가 많기 때문이다.
예를 들어 실제로 감염환자가 크게 늘지 않았으나 그 전과 달라진 응답자의 태도, 증상 판단의 정도, 기준의 변동, 정확하지 않아 반올림한 나이 등이 이 카테고리에 속할 수 있다.
너무나 정확한 숫자도 상식에 맞지 않는 점이 있다.
👩 다른 데이터 자료를 볼 때, 혹은 내가 분석한 것을 확인할 때 이 부분을 참고해서 오류를 최대한 줄일 수 있도록 노력하자