가설 검정
수집된 데이터를 바탕으로 모집단의 특성의 가설에 대한 통계적 유의성을 검정하는 일련의 과정
영 가설(귀무 가설)과 대립 가설
p-value
영 가설이 '참'이라고 가정할 때 얻은 결과와 다른 결과가 관측될 확률로, 그 값이 작을 수록 영 가설을 기각(보통 p < 0.05)할 근거가 됨
영 가설이 '참'일 때 기대할 수 있는 데이터의 분포가 클 수록 p-value 커지고, 작다면 '거짓'일 확률이 커진다.
영 가설이 '거짓'이라고 대립 가설이 '참'인 것은 아니다.
그룹의 평균이 기준 값과 차이가 있는지를 확인하는 것으로 수집된 데이터의 표본 평균이 어떤 기준 값(영 가설)과 같은지 검정
선행 조건
해당 변수가 정규 분포를 따라야 수행할 수 있으므로 Kolmogorov-Smornov(KS test) 혹은 Shapiro-Wilk를 사용하여 정규성 검정 진행
정규성을 띄지 않는다면 월콕슨 부호-순위검정 수행
t = 표본 평균 - 기준 값 / (표본 표준편차 / 표본 수**1/2)
비모수일 경우(정규성을 따르지 않을 경우) 기준 값 대신에 '중위 값'으로 계산된다.
검정
키 데이터를 가지고 확인해 보자.
KS test(정규성 검정)은 scipy로 아래와 같이 p-value가 0.05 미만으로 정규성을 띈다고 확인할 수 있고
t 검정을 수행하면 pvalue가 0.05 미만이므로 영가설(data의 평균 == 163)을 기각하고, 통계량이 음수이므로 data 평균이 163보다 작다는 것을 확인할 수 있다.
실제 평균값
정규성을 띄지 않을 경우에는 윌콕슨 부호-순위 검정은 아래와 같이 수행할 수 있다.