[통계] t-test (1)

JONGYOON JEON·2024년 2월 5일
0

통계

목록 보기
5/13

t-test 란?

모집단의 표준편차가 알려지지 않았을 때,
정규분포의 모집단에서 모은 샘플(표본)의 평균값에 대한 가설검정 방법

? ?? ?
어렵다.

왜 이름이 t-test 인가?

썰에 의하면, 개발자의 가명이 student였다고 함.. 그래서 t를 따서...

t-test의 목적

쉽게, 두개의 집단이 같은지 다른지 비교하기 위해 사용

그런데 '집단'이라는 표현이 다소 애매하다.
통계에서는 일반적으로 집단을 샘플(표본)으로 한다.
그러나 샘플(표본)만 존재하지 않고
모집단(population)이 있다.

모집단

관측치 = N
평균값 = 뮤
분산 = sigma^2
표준편차 = sigma

표본(샘플)

관측치 = n
평균값 = X 바
분산 = s^2
표준편차 = s

t-test의 목적 2

두 집단이 같은지 다른지 어떻게 비교할까
두 집단의 평균값이 통계적으로 같은지 다른지 확인
-> 하나하나 다 비교할 수 없기 때문.

t-test 예시

A 대학 남학생 평균키 = 178.5cm
B 대학 남학생 평균키 = 179.9cm
차이 = 1.4cm

t-test를 위한 통계적 질문

  1. A대학 남학생 평균키와, B대학 남학생 평균키가 우연히 같은 확률은 얼마나 될까?
  2. A대학과 B대학의 남학생 평균키 차이인 1.4cm가 우연히 발생했을 확률은 얼마나 될까?

1.4cm가 우연히 발생했으면 같은 것!

t-test를 위한 보다 깊은 이해

  1. 그렇다면 과연 차이가 얼마나 커야 우연히 발생하지 않았다고 발생할 수 있을까?
  2. 1.4cm 차이는 과연 큰 것인가 작은 것인가?

차이 만으로는 1.4cm가 얼마나 큰지 작은지 알 수 없다.

기준이 필요하다. 비교 대상이 필요하다. 무엇이 필요한가?

왜 표준편차가 비교의 대상인가?

data = c{1,2,3,4,5}
mean = 3
variance = 4 = {(1-3)^2 + (2-3)^2 + (3-3)^2 + (4-3)^2 + (5-3)^2} / (5-1)
sd = 1.58

위 데이터는 평균값 3을 중심으로 평균적으로 1.58만큼 퍼져 있다는 의미.

1.42(=3 - 1.58) //// 4.58(=3 + 1.58)

이렇게 +- 1.58 정도 퍼져 있다는 것은 의미 있는 중요한 퍼짐인건가? 아니면 우연한 건가?

표준편차는 데이터에 큰 문제가 없는 한 의미 없이 우연히 퍼져있는 정도

즉 데이터는 평균값 3을 중심으로 랜덤하게 1.58 정도 좌우로 퍼져 있다는 것

앞에 A대학과 B대학의 키차이인 1.4cm도 결국 두 집단의 평균적인 거리다 !!

비교해보자.

두 집단 A와 B의 데이터 사이의 평균적인 거리는 1.4cm 이다.
두 집단 A와 B의 데이터들의 표준편차는 X cm 이다.

따라서,

만약 이 1.4cm가 표준편차 X cm보다 현저히 작다면,
우리는 이 1.4cm에 의미를 둘 수 없다.(관계없음 = 우연히 발생했다.)

그러나 1.4cm가 표준편차 X cm보다 현저히 크다면,
우리는 이 1.4cm에 의미를 둘 수 있다.(관계있음 = 우연히 발생하지 않았다.)

결론적으로

t-test는 평균값의 차이와 표준편차의 비율이 얼마나 큰지 혹은 작은지를 보고 결정하는 통계적 과정

다시 한번 강조!! 통계=분산(표준편차)의 마법

profile
효율적인 걸 좋아해요

0개의 댓글