모집단의 표준편차를 알고 있으면 원래 배운 z분포를 쓰면 되지만,
현실적으로 모집단의 정보는 모르는 경우가 더 많음.
↓
모집단 분산(σ2) 모르는 경우, 추정치로 표본 분산(S2) 사용하면 됨.
(※ 이때의 S2은 과소추정을 막기 위해 N이 아니라 (N-1)로 나눠줘야 함)
↓
그런데 N이 작은 경우 (N<30), 좌우대칭이긴 한데 z분포보다 표준오차가 더 크게 나옴.
➡️ 이 분포가 바로 t분포 !!
t분포의 개념
모집단의 분산을 모르거나, N<30 이면, 표본평균 Yˉ가 t분포를 이루게 된다.
평균 = 0 · · · · · · · · · · · · · z분포와 동일
표준편차 = nS · · · · · · · · z분포보다 더 큼
자유도 (df = N-1) : t분포의 모수
t라는 통계량 자체가 이미 z값과 유사한 성질을 갖고 있음. 그런데 이 t값의 분포는 자유도에 따라 달라짐. 그래서 t분포의 핵심은 자유도가 됨.
자유도가 ∞이면z분포와 동일해지며, 30 이상만 돼도 z분포에 근사할 수 있음.
↪ 그래서 현실적으로 (모집단 분산 아는 경우 적으니) 대부분 t검증 실시!
t검증의 절차
기본 가설 검증의 절차와 동일한데, 상정하는 표집분포가 t분포일 뿐!
① 영가설 설정 (등가설 or 부등가설)
② 표본 데이터에 대한 기술통계 분석 (with Graph)
③ 표본 평균의 표집분포 상정 ("Yˉ가 자유도 ~인 t분포를 따른다")
④ 내가 구한 표본평균을 t값으로 변환 & 분포상 위치 확인
⑤ 유의확률(p값)과, 미리 정해둔 유의수준(α)을 비교하여 영가설 기각여부 결정!!
p > α : 영가설 기각 불가능 / p < α : 영가설 기각 가능
2. 두 종속표본 t검증
독립표본과 종속표본
독립표본
: 각 표본이 서로 다른 피험자들로 구성된 경우
ex) 주로 처치군 vs 대조군 있는 약물 실험 등
종속표본
: 두 표본이 동일한 피험자들로 구성되거나, 쌍으로 묶을 수 있는 피험자들로 구성된 경우
ex) 한 사람을 두 번 반복 측정하기, 부부를 함께 표집하기 등
Q1. 패널연구에서 동일한 학생들을 1차 조사하고 5년 뒤에 다시 조사했다면, 이 경우는 (독립표본/종속표본) 이다.
두 종속표본 t검증
"두 표본의 평균이 같은가?" (ex. "실험 전 간수치와 실험 후 간수치가 다른가?")
검증 논리
: 각 pair의 차이점수(Dˉ) 로 치환하여 가설 검증을 진행
→ 그래서 사례 수= 전체 피험자수(x) 묶은 pair의 수(o)
검증 절차 & 사례
3. 두 독립표본 t검증
독립표본 t검증의 기본가정
독립성 가정
: 두 표본이 서로 독립이어야 함. → 피험자 무선할당이 필요! ("가장 취약한 가정이니, 확실하게 체크하고 넘어가야 합니다")
정규성 가정
: 두 모집단 모두에서 관심변수가 정규분포를 이뤄야 함.
등분산성 가정⭐
: 두 모집단에서 관심변수의 분산이 서로 동일해야 함.
➡️ Levene test를 통해서 확인 (Levene test의 영가설은 '(σ1)2=(σ2)2 ' 으로 설정)
성립 O : 두 분산을 '통합분산'으로 합치고, 일반적인 t검증 사용!
성립 X : (통합분산 사용불가) Welch의 t검증을 사용!
두 독립표본 t검증
"두 표본의 평균이 같은가?" (ex. "약 먹은 집단과 먹지 않은 집단의 면역력이 다른가?")
검증 논리
: 이번에도 차이점수(Y1ˉ−Y2ˉ) 로 치환하여 가설 검증 진행
※ 근데 종속표본보다 자유도와 표준오차가 좀 더 복잡해짐..!
검증 절차 & 사례
: 다 똑같은데, "가정 확인" 단계가 추가됨!⭐
➕ 등분산성 위배하는 사례
Q2. 두 독립표본 t검증에서 기본가정인 등분산성이 성립하지 않을 경우, 영가설은 기각할 수 없게 된다. (O/X)