모집단의 표준편차가 알려지지 않았을 때,
정규분포의 모집단에서 모은 샘플(표본)의 평균값에 대한 가설검정 방법
? ?? ?
어렵다.
썰에 의하면, 개발자의 가명이 student였다고 함.. 그래서 t를 따서...
쉽게, 두개의 집단이 같은지 다른지 비교하기 위해 사용
그런데 '집단'이라는 표현이 다소 애매하다.
통계에서는 일반적으로 집단을 샘플(표본)으로 한다.
그러나 샘플(표본)만 존재하지 않고
모집단(population)이 있다.
관측치 = N
평균값 = 뮤
분산 = sigma^2
표준편차 = sigma
관측치 = n
평균값 = X 바
분산 = s^2
표준편차 = s
두 집단이 같은지 다른지 어떻게 비교할까
두 집단의 평균값이 통계적으로 같은지 다른지 확인
-> 하나하나 다 비교할 수 없기 때문.
A 대학 남학생 평균키 = 178.5cm
B 대학 남학생 평균키 = 179.9cm
차이 = 1.4cm
1.4cm가 우연히 발생했으면 같은 것!
차이 만으로는 1.4cm가 얼마나 큰지 작은지 알 수 없다.
기준이 필요하다. 비교 대상이 필요하다. 무엇이 필요한가?
data = c{1,2,3,4,5}
mean = 3
variance = 4 = {(1-3)^2 + (2-3)^2 + (3-3)^2 + (4-3)^2 + (5-3)^2} / (5-1)
sd = 1.58
위 데이터는 평균값 3을 중심으로 평균적으로 1.58만큼 퍼져 있다는 의미.
1.42(=3 - 1.58) //// 4.58(=3 + 1.58)
이렇게 +- 1.58 정도 퍼져 있다는 것은 의미 있는 중요한 퍼짐인건가? 아니면 우연한 건가?
즉 데이터는 평균값 3을 중심으로 랜덤하게 1.58 정도 좌우로 퍼져 있다는 것
앞에 A대학과 B대학의 키차이인 1.4cm도 결국 두 집단의 평균적인 거리다 !!
두 집단 A와 B의 데이터 사이의 평균적인 거리는 1.4cm 이다.
두 집단 A와 B의 데이터들의 표준편차는 X cm 이다.
따라서,
만약 이 1.4cm가 표준편차 X cm보다 현저히 작다면,
우리는 이 1.4cm에 의미를 둘 수 없다.(관계없음 = 우연히 발생했다.)
그러나 1.4cm가 표준편차 X cm보다 현저히 크다면,
우리는 이 1.4cm에 의미를 둘 수 있다.(관계있음 = 우연히 발생하지 않았다.)
t-test는 평균값의 차이와 표준편차의 비율이 얼마나 큰지 혹은 작은지를 보고 결정하는 통계적 과정