[통계] t 검정 이해하기 (2)

신현호·2022년 4월 8일
0

통계

목록 보기
2/2

1편 링크 https://velog.io/@shh0422/통계-t-검정-이해하기-1

이번 포스팅에서는 표본평균이 특정한 분포를 따른다는 사실로부터 내 표본의 평균이 얼마나 나오기 힘든 값인지 수치화하는 과정을 따라가볼 것이다.
이를 위해서는 선행지식이 필요한데, 바로 다음 문장을 이해하는 것이다.

표본평균은 분포를 이룬다

만약 이 문장이 이해되지 않는다면 문장 그대로 유튜브에 검색했을 때 나오는 영상을 시청하고 오는 것을 추천한다.


표본평균은 분포를 이룬다

표본(sample)은 말 그대로 표본이기 때문에 모집단으로부터 여러 표본을 뽑을 수 있다.

(여기서는 크기가 10인 표본만 뽑았지만 꼭 그러지는 않아도 된다)

표본을 여러개 뽑으면 각 표본마다 표본평균이 하나씩 생기므로 표본평균도 여러개가 생기는데
여기서 중요한 사실은

크기가 같은 표본을 여러개 뽑았을 때 생기는 표본평균들은 특정한 분포를 이룬다

는 사실이다. 이 분포가 바로 t 분포! 라고 하면 좋겠지만 그렇지는 않고, 조금 주물러주면(평행이동, 양쪽으로 잡아 늘이거나 중앙으로 모으기) t 분포가 되는 분포이다.
이 포스팅의 목적은 엄밀한 설명에 있지 않으므로 이 분포가 도대체 무엇인지 규명하는 것은 넘어가고 전체적 맥락에만 집중해보도록 하겠다.

이 분포에서 가장 중요한 사실은 바로 다음이다.

표본평균의 평균은 모평균이다. 즉 표본평균이 따르는 분포의 평균은 모평균이다.

이것은 수식으로 증명할 수도 있지만 조금 생각해보면 당연한 말이다. 표본평균에 평균이 있다면 그것이 모평균이 아니고 무엇이겠는가? (하나의 표본평균이 모평균과 같다는 얘기가 아님에 주의하자!)

그러면 우리는 표본평균의 분포(정확히는 확률밀도함수)를 다음과 같이 그려볼 수 있다. (모양이 왜 정규분포와 비슷한지는 아쉽지만 넘어가자!)

우리는 현재 모평균이 500g 이라고 가정한 상태이므로, 모평균 자리에 500g 을 써넣자.

그리고 우리가 실험을 위해 산 10개의 A 아이스크림 무게 평균, 즉 표본평균은 499g 이었으므로 이것을 그래프 위에 표시해보자.

이제 499g 이 이 분포상에서 얼마나 나오기 힘든 값인지, 즉 특이한 값인지를 수치화하면 그 값은 곧 모평균이 500g 아님을 뒷받침하는 훌륭한 근거자료가 된다.

그렇다면 499g 이 이 분포상에서 얼마나 특이한 값인지를 어떻게 수치화하면 좋을까?
물론 방법은 여러가지가 있겠지만 t 검정에서는 다음 문장과 같은 맥락으로 수치화한다.

나보다 더 특이한 사람이 있다면 나의 특이한 정도는 줄어든다.
즉, 나의 특이한 정도는 나보다 더 특이한 사람의 비율로 측정할 수 있다.

그래프에서 499g 보다 더 특이한 곳을 표시하라고 하면 빗금친 부분과 같이 표시할 수 있다.

확률밀도함수는 아래쪽 면적이 곧 확률이 되므로, 빗금친 부분이 곧

499g 보다 더 특이한 표본이 뽑힐 확률 = 499g 이 얼마나 특이한지를 나타내주는 척도

가 된다.

그런데 여기서 혹자는 다음과 같은 의문을 제기할 수도 있다.
"저 반대쪽 부분도 499g 보다 특이하다고 볼 수 있지 않나요? 이렇게요"

물론 그렇다! 그래서 499g 이 얼마나 특이한지를 판단하는 지표로 양쪽 빗금친 부분을 사용할 수도 있고, 한쪽만을 사용할 수도 있다.
이것은 무엇이 옳은지의 문제가 아니라 선택의 문제이다.
검정 상황의 맥락에 맞게

어느 부분을 내 표본평균보다 특이하다고 볼 것인가

를 결정하면 되는 것이다.
양쪽 빗금을 전부 499g 보다 특이하다고 보는 방식을 양측검정, 499g 왼쪽만을 특이하다고 보는 방식을 단측검정이라고 한다.

또한 얼마나 특이한지를 나타내는 지표를 p-value 라고 부른다. (여기서는 실제로 p-value 를 구하는 과정은 생략한다)

일반적으로 p-value 가 0.05 이하이면, 즉 내 표본보다 특이한 녀석의 비율이 5% 이하이면 "무언가 이상하다" 고 판단한다.
그리고 모평균을 500g 으로 가정한 것이 잘못되었다는 판단을 내린다.

내 표본이 낮은 확률을 뚫고 특이한 값으로 뽑힌 경우는 안타깝게도 무시된다. (이런 상황을 1종오류라고 부른다)


끝! (오류가 있으면 댓글로 알려주세요)

profile
수학요정니모

0개의 댓글