가설 검정
수집된 데이터를 바탕으로 모집단의 특성의 가설에 대한 통계적 유의성을 검정하는 일련의 과정
영 가설(귀무 가설)과 대립 가설
p-value
영 가설이 '참'이라고 가정할 때 얻은 결과와 다른 결과가 관측될 확률로, 그 값이 작을 수록 영 가설을 기각(보통 p < 0.05)할 근거가 됨
영 가설이 '참'일 때 기대할 수 있는 데이터의 분포가 클 수록 p-value 커지고, 작다면 '거짓'일 확률이 커진다.
영 가설이 '거짓'이라고 대립 가설이 '참'인 것은 아니다.
서로 다른 두 그룹의 데이터 평균 비교
선행 조건
t = 그롭a 표본 평균 - 그룹b 표본 평균 / (통합분산 / (1/그룹a 샘플 수 + 1/그룹b 샘플 수)**1/2)
검정
두 그룹의 데이터로 확인해보자.
먼저 두 그룹이 정규성(p-value < 0.05)을 띄는지 확인하고 정규성을 띈다면 두 그룹간의 등분산성을 확인한다.
p-value가 0.05 이상이기에 분산의 수준이 '같다'라고 판단할 수 있다.
그리고 분산이 같기에 equal_ver인자는 True로 설정하여 독립 표본 t검정을 하면 아래와 같다.
statistic 양수이기에 그룹 A의 데이터들의 평균이 더 큰 것을 알 수 있다.