기술통계와 추론통계

서니·2024년 8월 23일

weekly-paper

목록 보기
2/2

통계는 왜 사용하는 걸까요?

일반적인 경우, 주어진 데이터(표본 데이터)를 잘 파악해서 이를 통해 모집단에 대한 추론을 하기 위해 통계를 사용합니다.

이런 추론을 통해 미래에 대한 예측을 할 수도 있고, 비즈니스 인사이트를 얻을 수도 있을 거에요.

통계에서 데이터의 특징을 잘 파악하는 것과 추론을 하는 과정은 중요합니다.

데이터의 특징을 잘 파악하는 것을 기술통계라 하고, 이를 통해 추론을 하는 과정을 추론통계라 합니다.

기술통계

데이터의 특징을 잘 파악하기 위해서는 어떤 것들을 보아야 할까요?

핵심적인 세 가지가 있습니다.
바로 '위치', '변이', '분포'입니다.

위치

데이터를 제일 잘 설명해주는 위치는 어디일까요?

저희가 어떤 고등학교 남학생의 '키' 데이터를 본다면,
데이터를 파악하기 위해 가장 먼저 보는 게 아마 '평균'일 것입니다.

이처럼 데이터의 중앙과 관련한 값들은 데이터를 설명하는 데 핵심이 됩니다.
따라서 평균, 중앙값, 최빈수, 사분위수 등을 탐색합니다.

변이

데이터의 중앙과 관련한 값들을 보았다면, 데이터들이 중앙에서 얼마나 떨어져 있는지를 보는 것도 중요합니다.
이를 위해 분산, 표준편차와 같은 값을 구합니다.

분포

평균, 분산 등을 통해 데이터의 중심은 어디고 데이터들이 중심으로부터 어느 정도 퍼져있는지를 파악했다면, 이후 데이터의 전체적인 모양을 파악합니다.
첨도, 왜도와 같은 수치를 통해 파악이 가능합니다.

추론통계

통계적 추론이란?
모집단의 표본을 가지고 모집단의 모수를 추론하고 그 결과의 신뢰성을 검정하는 통계적 방법이다.

모집단의 모수를 추정하는 방법으로는 '점추정''구간 추정'이 있습니다.

점추정

점추정은 모수를 하나의 값으로 추정하는 기법입니다.

하나의 값이기 때문에 구간보다는 오차가 클 수밖에 없습니다.
따라서 편향과 분산을 최소화해 모수를 추정하게 되고, 이런 원리로 만들어지는 표본의 통계량이 '불편추정량'입니다.
이 불편추정량 값을 계산해 모수를 추정하게 됩니다.

구간 추정

오차가 클 수밖에 없는 점추정의 단점을 보완하고자, 모수를 범위로 추정하며 해당 범위에 대한 신뢰도를 제시하는 추정이 구간 추정입니다.
여기서 통계적으로 '범위'는 '신뢰구간'으로, '신뢰도'는 '신뢰수준'으로 표현합니다.

보통 '95%의 신뢰구간'처럼 모수에 대한 신뢰구간을 신뢰수준과 함께 제시하게 됩니다.

여기서 통계적으로 엄밀한 의미를 헷갈리기 쉬운데,
'95%의 신뢰구간'이란 신뢰구간 내에 모수가 포함될 확률이 95%라는 의미가 아닌, 신뢰구간을 100번 추정했을 때 95번은 모수가 그 구간 내에 포함되는 것을 의미합니다.

신뢰구간 내에 모수가 포함될 확률이 95%라는 의미가 아닌 이유는 신뢰구간이 제시되었을 때 신뢰구간 내에 모수가 포함될 확률은 100% 아니면 0%이기 때문입니다. (모수는 하나의 값으로 존재하므로)

따라서 신뢰구간은 변할 수 있는 '통계량'이기 때문에 100번 추정한다면 모두 다르게 나올 수 있고, '95%의 신뢰구간'이란 이 중 95번은 모수가 그 구간 내에 포함될 수 있는 통계량을 의미합니다.

가설 검정

모집단에 대한 통계적 가설을 세우고, 표본을 추출한 뒤 통계량을 가지고 통계적 가설의 진위를 판단하는 과정입니다.

단계는 다음과 같습니다.

  1. 가설을 설정합니다.
    귀무가설과 대립가설을 설정하고, 이에 따라 양측 검정을 진행할지 단측 검정을 진행할지 결정합니다.

  2. 유의수준을 설정합니다. (보통 0.05로 설정)

  3. 검정통계량을 산출하고 값을 계산합니다.
    이때 앞에서 설명한 점추정, 구간 추정이 사용됩니다.
    검정의 편의를 위해 p값(p-value)를 계산할 수도 있습니다.

  4. 검정통계량 값(혹은 p값)과 유의수준을 비교해 귀무가설을 기각할지 기각하지 않을지 의사결정을 합니다.

profile
☀️

0개의 댓글