통계학은?

Fine Tech Blog·2022년 10월 21일
0
post-thumbnail

# I. 통계학은 필요한가?

통계학은 자료를 모으고, 정리한 다음, 이를 분석하고 해석하는 학문이다.

통계학에서 다루는 자료는 주로 숫자로 표현되어 있다.

"어제 낮에 더웠냐"는 질문에 '더웠다', '괜찮았다' 등의 표현은 답변자의 주관적인 생각이 들어있다는 점에서 객관적이지 못하다. 반면에 '어제 최고 기온은 33도 였다' 등의 표현은 수치로 온도를 표현하였기 때문에 의사전달에 주관적인 요소가 개입될 여지가 없어 좋은 답변이라 볼 수 있다.

문장보다는 수치로 표현하는 것이 더 좋다. 숫자는 객관성을 유지하는 최고의 수단이기 때문이다.
그렇다면 통계자료까지 필요할까?

호주 여행을 계획하고 있는 홍길동은 건기에 여행을 하고 싶고, 옷을 준비하기 위해 기온을 알고 싶어한다.
이를 위해 네이버와 다음을 검색해 아래의 여러 답변들을 찾아내었다.

  1. 호주는 한국이랑 날씨가 반대입니다.
  2. 시드니의 경우에는 2007년 연평균 최저기온이 섭씨 15.2도이고, 연평균 최대기온이 섭씨 22.7도입니다. ...
  3. 계절은 한국과 완전히 반대입니다. 3,4월은 가을철이니 약간 스산합니다. 하지만 금년은 여름이 ...
  4. 북쪽 열대 지방을 제외하고는 대부분 사계절이 있습니다. 열대지방은 건기/우기로만 나누어집니다.
  5. 다음의 그림을 참고하세요.
  1. 다음의 표를 참고하세요.
호주/월123456789101112비고
평균온도
강수량
22
104
22
125
21
128
18
100
16
115
13
141
12
94
13
83
15
72
18
80
19
11
21
66
1~5월
우기(폭우)

위의 1~4. 답변은 문장이 많이 섞여 있어 의사전달에 객관성이 크게 떨어진다.
거짓말 없이 작성한 것이 틀림없지만 주관적인 판단이 개입하다 보니 어쩔 수 없이 모순된 표현이 나오게 된다.
5.는 시각적인 표현으로 한눈에 기온의 전국적인 분포를 알 수 있다는 장점이 있으나 구체적으로 기온이나 일교차 등을 파악하기 힘들다.

이런 문제를 해결한 답변으로 마지막 6.을 꼽을 수 있다. 이 표가 1~5. 답변보다 좋은 것은 호주의 온도와 강수량이 한눈에 들어온다는 점이다. 그러나 이 통계 자료도 완전하지는 못하다. 호주는 국토가 넓어 지역별로 온도와 강수량의 차이가 크게 나타날 수 있다는 점을 반영하고 있지 못하기 때문이다. 이런 문제를 해결하는 가장 좋은 방법은 지역별로 월별 최고기온, 최저기온, 강수량을 제시하는 것이다. 다음의 표를 보자.

이 통계자료는 지역별/월별로 최고기온, 최저기온, 강수량을 보여주고 있다.
이 표 하나로 홍길동이 여행하려는 지역의 온도와 강수량을 파악할 수 있다.
문장들이 많이 섞인 멋지고 성실한 답변도 이 통계자료 하나보다 못하다.

통계학은 모든 분야에 다양하게 응용되고 있음에도 불구하고 통계학을 좋지 않게 보는 견해도 많다.

마크 트웨인은 통계분석을 이용한 숫자의 함정이야말로 가장 지능적이고 사악한 거짓말이라고 이야기했다.
이런 견해에 많은 사람이 동감하는 이유는 1) 정확하게 자료를 처리했음에도 불구하고 통계가 지닌 속성 때문에 사실을 왜곡시키는 경우가 있고, 2) 누군가를 호도하고 자신의 주장을 뒷받침하기 위해 통계를 악용하는 경우가 주변에 널려 있기 때문이다.

예를 들어, 정부가 국민을 호도하기 위해 특정한 통계자료만 제시하고 이를 근거로 주장을 펼쳤다 하자.
국민은 통계학이라는 학문에 근거하여 나온 숫자이므로 정부의 주장에 설득당하기 쉽다.
설혹 거짓이라는 생각이 들어도 관련 자료에 접근할 수 없어 반대 논리를 펼 방법도 없다.

그러면 통계학은 이 사회를 나쁘게 하는 학문일까? 그렇지 않다는 견해도 많다.

진실을 왜곡하고 상대방을 호도하기 위해 통계를 악용하는 경우도 있다. 그러면 진실을 밝히고자 할 때는 어떤 방법을 써야 할까? 그것도 역시 통계이다. 진실임을 밝히기 위해서는 충분한 근거가 있어야 하는데, 그런 근거를 제시할 수 있는 방법으로 가장 많이 사용되는 게 통계이다.

종합해 보면, 상대방을 호도하기 위해 통계가 악용되고 있다. 그러나 통계는 어떤 견해나 주장을 입증하기 위해 꼭 필요한 수단인 것도 사실이다.

통계는 선한 면과 악한 면의 두 개의 얼굴을 가지고 있다. 이를 인식하고 통계분석에서 나타난 숫자의 함정에 빠지지 않고 숫자 뒤에 숨은 진실을 파악하는 노력이 필요하다.

# II. 척도

척도(scale)란, 측정하거나 평가할 때 의거할 기준이다.
주로 숫자나 기호로 표시하는데, 통계학에서 수집되는 자료는 주로 숫자이다. 숫자를 어떤 척도로 측정했는가에 따라 이 숫자가 지닌 의미가 다를 수 있다.

척도란 측정하거나 평가할 때 의거할 기준이다. 예) cm, m, kg 등등

예를 들어, 1) 2명이 보유한 현금(단위:만원)이 {10, 5}인 경우와 2) 10명의 학생에서 무작위로 번호를 부여한 후 2명을 선택해보니 {10, 5}가 나온 두 경우를 생각해보자. 전자인 1)의 경우는 이들의 산술 평균이 통계적 가치가 있으나, 후자인 2)의 경우는 산술 평균이 의미가 없다. 동일한 숫자가 수집되었다 하더라도 숫자가 어떤 의미를 지니고 있느냐에 따라 분석이 달라져야 한다.

측정된 수치가 지닌 의미가 어느 정도이냐에 따라 명목척도, 서열척도, 구간척도, 비율척도로 나뉜다.

[ 1. 명목척도 ]
숫자의 크고 작음에 따라 아무런 의미가 수반되지 않는 척도를 명목척도(nominal scal)라 부른다.

선호하는 학과를 조사하기 위해 아래와 같이 각 학과에 번호를 붙였다.

  1. 컴퓨터공학과    2. 경영학과    3. 화학과    4. 영문학과    5.방송학과

수집된 자료는 모두 20개로 3, 3, 4, 5, 1, ... 과 같이 수집되었다. 4는 2보다 숫자상으로는 크고 두 배이지만, 수반된 (학과) 특성이 크거나 두 배인 것은 아니다. 이러한 척도를 "명목척도"라 부른다. 이 경우 평균이나 분산 등의 통계분석은 아무런 의미가 없으며, 최빈값(mode) 등의 분석만 역할을 수행한다.

[ 2. 서열척도 ]
숫자가 순위의 의미를 가지는 척도를 서열척도(ordinal scale)라 한다.

직장인을 대상으로 소유 차량의 엔진 크기를 문의하였다.

   1. 1,000cc 미만                              2. 1,000cc 이상~2,000cc 미만   
   3. 2,000cc 이상~2,500cc 미만    4. 2,500cc 이상~3,000cc 미만
   5. 3,000cc 이상

이 때 수집된 자료에서 4는 2보다 숫자상으로 클 뿐만 아니라, 좀 더 큰 엔진이라는 의미를 지니고 있다. 1에서 5까지 숫자가 커짐에 따라 엔진의 크기가 커지므로 이들 숫자는 순위의 의미를 지니고 있다. 이와 같이 숫자가 순위의 의미를 가지는 척도를 "서열척도"라 부른다.

[ 3. 등간척도 ]
숫자 간의 간격이 일정한 경우 동일한 차이를 나타내는 척도를 등간척도(interval scale)라 한다.

섭씨 체계하에서 일정한 간격은 일정한 온도 차이를 나타낸다. 즉, 10oC10^{o}C17oC17^{o}C7oC7^{o}C의 차이를 보이고, 45oC45^{o}C52oC52^{o}C7oC7^{o}C의 차이를 보이므로, 이들의 온도 차이는 동일하다. 이와 같이 간격이 일정한 경우 동일한 차이를 나타내는 척도를 "등간척도"라 한다. 위의 서열척도의 특성을 지닌 엔진 크기의 설문에서 수집된 자료는 등간척도의 특성을 지니고 있지 않다. 1과 3, 2와 4의 차이가 모두 2로 동일하나 엔진 크기의 차이는 동일하지 않기 때문이다.

[ 4. 비율척도 ]
숫자의 비율이 동일한 비율의 의미를 지니는 경우 비율척도(ratio scale)라 부른다.

앞의 예제에서처럼 두 명이 보유한 현금(단위: 만원)이 {10, 5}이라 해 보자. 10은 5의 숫자상 2배로 현금 보유액이 2배라는 의미를 지니고 있다. 이와 같이 숫자의 비율이 동일한 비율의 의미를 지니고 있고, 0이 '없다'는 의미를 갖는 척도를 '비율척도'라 부른다. 등간척도의 특성을 지닌 섭씨 체계는 비율 척도의 의미를 지니고 있지 않다. 20oC20^{o}C10oC10^{o}C의 숫자상 2배이나 실제 두 배로 덥다는 의미는 아니기 때문이다.

다음은 이들 네 척도를 서로 비교한 표이다.

네 척도의 비교

-명목척도서열척도등간척도비율척도
숫자의 크기가 순위의 의미를 지니고 있는가?XOOO
숫자의 동일한 간격은 동일한 차이를 나타내는가?XXOO
숫자의 비율이 동일한 비율의 의미를 지니고 있는가?XXO
profile
Data Engineer @ SKT

0개의 댓글