[통계] t 검정 이해하기 (1)

신현호·2022년 4월 8일
1

통계

목록 보기
1/2

2편 링크 https://velog.io/@shh0422/통계-t-검정-이해하기-2

t 검정을 하는 방법은 간단하다. 구글에 python t test 라고 치면 수많은 예제 코드들이 나오기 때문이다.
그러나 정말 중요한 것은 t 검정을 할 줄 아는 것이 아니라 t 검정이 무엇인지를 이해하는 것이다.

이 글에서는 t 검정의 맥락에 대해 설명해보고자 한다.


t 검정 맥락 짚기

쉬운 이해를 위해 예시를 하나 들어보자.

A 아이스크림의 표기 무게가 500g 인데 아무리봐도 500g 보다는 적은 것 같은 느낌이 드는 상황을 가정해보자.
이 상황을 정리해서 표현하면 다음과 같다.

  1. 아이스크림 회사는 A 아이스크림 무게가 500g 이라고 주장하고 있다. 즉, A 아이스크림 무게의 모평균이 500g 이라고 주장하고 있다.
  2. 나는 A 아이스크림의 무게가 500g 보다 가볍다고 생각한다. 즉, A 아이스크림 무게의 모평균이 500g 이라는 주장이 잘못되었음을 보이고 싶다.

아이스크림 회사의 주장이 거짓임을 밝히려면 어떻게 해야 할까?
단순하게 생각해보면 A 아이스크림을 10개정도 사서 무게의 평균을 내보면 된다.
만약 A 아이스크림 10개 무게의 평균이 300g 이라면 아이스크림 회사에 강하게 클레임을 걸 수 있을 것이다.

그런데 만약 A 아이스크림 10개 무게의 평균이 499g 이라면 어떻게 해야 할까?
500g 보다는 적으니 뭔가 기분은 나쁘지만 1g 정도의 차이는 봐줄 수 있을 것도 같다.

이런 상황에서

1g 의 차이가 통계적으로 어떤 의미를 갖는지 수치화 하는 것이 t 검정

이다.
정확히 말하면 1표본 t 검정(1 sample t test)이다. 하나의 표본을 가지고 하는 t 검정이라는 의미이다.

그러면 2표본 t 검정(2 sample t test)도 있을까?
물론 있다. 이것도 예시를 통해 감을 잡아보자.

이번에는 B 아이스크림이 있는데, 이 아이스크림은 바닐라맛과 딸기맛 두 종류가 있다고 하자.
아이스크림 회사에서는 두 아이스크림의 무게를 둘 다 500g 으로 표기했으나 아무리봐도 바닐라맛이 딸기맛보다 더 많은 것 같은 느낌이 드는 상황이다.
이 상황을 정리해서 표현하면 다음과 같다.

  1. 아이스크림 회사는 바닐라 맛 아이스크림의 무게와 딸기 맛 아이스크림의 무게가 똑같다고 주장하고 있다. 즉, 바닐라 맛 아이스크림의 모평균과 딸기 맛 아이스크림의 모평균이 서로 같다고 주장하고 있다. (여기서는 500g 이라는 수치는 그리 중요하지 않다)
  2. 나는 바닐라 맛 아이스크림이 딸기 맛 아이스크림보다 더 많다고 생각한다. 즉, 바닐라 맛 아이스크림과 딸기 맛 아이스크림의 모평균이 서로 같다는 주장이 잘못되었음을 보이고 싶다.

이 상황에서도 똑같이 각 맛의 아이스크림을 10개씩 사서 무게의 평균을 내볼 수 있다.
만약 바닐라맛 아이스크림 무게 평균이 501g 이고, 딸기맛 아이스크림 무게 평균이 499g 이라면,

두 평균의 차이 인 2g 이 통계적으로 어떤 의미를 갖는지 수치화 하는 것이 2표본 t 검정

이다.


맥락 구체화하기

먼저 1표본 t 검정부터 이해해보자.
역시 쉬운 이해를 위해 위에서 들었던 예시를 그대로 사용하겠다.
예시 상황에서 모집단은 A 아이스크림 전체, 그리고 표본은 우리가 구매한 A 아이스크림 10개이다.

그리고 우리의 크기 10개짜리 표본의 평균은 499g 이었고 표준편차는 계산해보니 5g 이었다고 하자.

우리가 무얼 하고 싶었는지 다시 상기해보면, 모평균이 500g 이라는 아이스크림 회사의 주장을 부정하고 싶었다.
t 검정에서 이를 달성하는 방법은 다음과 같다.

  1. 모평균이 500g 이라고 가정
  2. 그랬을 때 1g 의 차이가 통계적으로 얼마나 큰지 수치화 = 내 표본의 평균(499g)이 얼마나 나오기 힘든 값인지 수치화

만약 내 표본의 평균 499g 이 얼마나 나오기 힘든 값인지 수치화했는데,
정말 나오기 힘든 정도라고 판명된다면 아이스크림 회사의 주장을 부정할 수 있을 것이고
반대로 이정도는 충분히 나올만한 값이다 라고 판명된다면 아쉽게도 아이스크림 회사의 주장을 부정할 수 없을 것이다.



다음 포스팅에서는 표본평균이 특정한 분포를 따른다는 사실로부터 내 표본의 평균이 얼마나 나오기 힘든 값인지 수치화하는 과정을 따라가볼 것이다.
이를 위해서는 선행지식이 필요한데, 바로 다음 문장을 이해하는 것이다.

표본평균은 분포를 이룬다

만약 이 문장이 이해되지 않는다면 문장 그대로 유튜브에 검색했을 때 나오는 영상을 시청하기를 추천한다.

2편 링크 https://velog.io/@shh0422/통계-t-검정-이해하기-2

profile
수학요정니모

0개의 댓글