통계 | # 8 통계가 사람을 어떻게 속이는가, 조심해야 할 점들

소리·2024년 5월 9일
0

분석하는 힘

목록 보기
8/11

📗새빨간 거짓말, 통계 / 대럴 허프

통계에서 조심해야 하는 부분을 짚어주는 책, 통계가 어떻게 사람을 속일 수 있는가! 내가 조심하고 넘어가지 않게!


여론조사 의심 포인트

  • 표본이 왜곡되면 아무 소용이 없다. 통계에 있어서 가장 중요한 것은 표본을 근거로 어떤 결론을 내릴 때 그 표본이 모집단 전체를 대표하는 것이라야 한다는 사실이다. 즉, 왜곡의 원인이 되는 모든 것을 제거하고 난 표본이어야 한다. 22쪽

  • 왜곡 가능성에 대한 의심을 품어보아야 한다.

  • 기초가 될 표본은 '임의추출' 된 것이여야 한다.
    임의 추출인지 아닌지 판정은 모집단 안에 있는 개체들이 표본에 선택될 기회가 동일한가라는 질문을 해보는 것이다.

  • 경제적 대안으로 층별임의추출법을 사용할 수도 있다.
    층별 표폰을 얻으려면 모집단을 이전에 알고 있는 비율에 따라 몇 개의 그룹으로 나누어야 한다. 이 때 비율에 관한 정보가 과연 신뢰할 정도로 옳은가의 문제가 생긴다.

  • 질문자에 따른 왜곡된 결론, 누가 인터뷰 하느냐에 따라 결과는 미묘한 차이를 나타낸다. 33쪽


평균은 하나가 아니다.

  • 평균으로 산술평균값, 중앙값, 최빈값이 있다. 상황에 따라 다른 종류의 평균값을 사용하는 속임수는 자주 사용된다.
    예) 한 기업 임직원의 소득 분포

  • 신뢰할 수 있는 평균값은 어떤 종류의 평균값이며, 정의를 어떻게 내렸는지, 확률과 오차한계까지 함께 명시되어있는 것이다.


작은 숫자를 생략하여 사기 치는 법

  • 표본이 작은, 즉 통계적으로 불충분한 표본을 채택했을 때 아무런 차이도 없는 어떤 결과는 순전히 우연에 의해 만들어낼 수 있다. 53쪽
    시행 횟수가 충분히 커야만 여러 현상을 제대로 설명하거나 쓸모 있는 예측을 할 수 있게 된다.

  • 확실하지 않은 결론에 속지 않는 방법은 무엇일까? 유의판정법이다. (유의수준으로 적절한 판단을 내릴 수 있을 것이다.)


예상오차

  • 전후 관계와 인과관계를 혼동하는 오류(시간적 발생에 따라 인과관계를 설명하려는 논리적 오류)를 범하지 않도록, 그리고 또 사실이 아닌 여러 현상을 사실이라고 믿는 일이 없도록 하기 위해 상관관계에 관해 언급할 때는 각별한 주의를 기울여야 한다. 126쪽

  • 어떤 것의 원인이라는 것을 증명해 줄 것 같이 보이는 저 믿음직스럽게 정밀한 숫자인 상관관계에는 여러 가지 유형이 있다.
    - 우연히 일어나는 상관관계, 특히 표본의 크기가 작을 때 당신이 생각하는 의미있는 상관관계를 항상 찾아낼 수 있다.

  • 공분산(두 변량의 편차) 로 상관관계가 있다는 것은 명백하지만 어느 것이 원인이고 어느 것이 결과인지 분명하게 드러나지 않을 때 사용한다.
    어떤 경우에는 원인과 결과가 때때로 서로 뒤바뀌는 경우도 있고, 또 양쪽이 동시에 원이이 되기도 하고 결과가 되기도 하는 경우가 있다.
    가장 주의를 요하는 상관관계는 어떤 변수도 다른 변수에 대하여 아무런 영향이 없지만 두 변수 사이에는 분명히 어떤 상관관계가 존재하는 경우로 비교적 자주 발생하며 속임수나 사기 행각을 벌일 때에 많이 이용되는 수법이다.

  • 또 하나 상관관계에 관하여 경계하여야 할 점은 그 상관관계를 뒷받침하는 데이터의 범위를 넘어서까지 그 상관관계가 지속해서 성립할 것이라고 추측하는 일이다. 130쪽


눈을 속이는 그래프

  • 그래프의 가로축과 세로축 눈금 간격만 바꾸기만 해도 작은 상승폭을 쇼핑한 인상으로 만들 수 있다.

  • 시각을 자극하고 과장된 도표를 조심하라


속이기 쉬운 백분율, 백분율점, 백분위수

  • 백분율을 더할 수 있다고 생각하는 오류 때문에 피해를 보는 저자들이 많다. 퍼센트(백분율)끼리는 산술계산(+-*/)가 불가능하다. 156쪽

  • 또 하나 속이기 쉬운 것은 백분율과 백분율점을 혼동하는데서 오는 착각이다.

    • 백분율(%, 퍼센트) : 주어진 값이 전체에서 차지하는 비율을 100의 분수로 표현하는 방식 (양을 비교)

    • 백분율점(%P, 퍼센트점) : 백분율로 값을 나타낸 지점을 의미

    • 백분위수 : 데이터 분포를 일정 비율로 나눈 값을 의미 (구간을 분리하거나 위치, 순위를 표시)

      예) 어느 년도의 인구증가율이 10%이고, 그 다음해의 인구증가율은 15%라고 한다. 퍼센트포인트로 5%P 증가한 것이고, 퍼센트로는 50% 증가했다고 이야기할 수 있다.


통계의 속임수를 피하는 다섯가지 열쇠

1) 출처

  • 누가 발표했는가?
  • 목적이 무엇인가

고의적인 왜곡을 반드시 찾아내야만 한다. 측정단위를 슬쩍 바꾸거나 애매하게 표현하여 자신에게 유리하게 끌고가거나 대놓고 거지말을 말할 수 있다. 부적절한 측정법을 사용되고 있는지도 확인한다.

권위 있는 이름이 인용되어 있을 때 그 권위자가 그 이야기와 관련되 어 있을 뿐만 아니라 그 사실을 지지하고 있는지도 확인해 볼 필요가 있다.

2) 조사 방법

  • 어떤 방법으로 알게 되었는가
  • 표본이 왜곡되어 있는가

상관관계에 대해서도 마찬가지로 그 상관관계가 정말 의미있는 것으로 결론지을 만큼 표본의 크기가 큰지, 충분히 많은 사례가 있었는지를 물어보아야 한다.

3) 숨겨진 자료가 없는가?

  • 빠진 데이터가 없는가

표본 크기에 대한 자료, 신뢰도에 관한 자료(확률 오차, 표준편차) 가 빠져있는 상관관계는 심각하게 여길 필요가 없다

4) 쟁점 바꿔치기 주의

  • 내용이 뒤바뀐 것은 아닐까

통계를 분석할 때에는 그 기초가 된 데이터와 결론 사이에 어떤 바꿔치기가 있었는지 주의해야 한다. 전혀 다른 것으로 둔갑하여 발표되는 경우가 많기 때문이다.

예를 들어 실제로 감염환자가 크게 늘지 않았으나 그 전과 달라진 응답자의 태도, 증상 판단의 정도, 기준의 변동, 정확하지 않아 반올림한 나이 등이 이 카테고리에 속할 수 있다.

5) 석연찮은 부분 조사

  • 상식적으로 말이 되는 이야기인가

너무나 정확한 숫자도 상식에 맞지 않는 점이 있다.


👩 다른 데이터 자료를 볼 때, 혹은 내가 분석한 것을 확인할 때 이 부분을 참고해서 오류를 최대한 줄일 수 있도록 노력하자

profile
데이터로 경로를 탐색합니다.

0개의 댓글