[데이터 전처리] 가설 검정 - 단일 표본 t검정

Bpius·2023년 10월 11일
0

데이터 EDA & 전처리

목록 보기
13/46
post-thumbnail

가설 검정

수집된 데이터를 바탕으로 모집단의 특성의 가설에 대한 통계적 유의성을 검정하는 일련의 과정

  • 수집된 데이터는 대부분 샘플이며(모집단의 부분집합) 모집단 전체를 알 수 없는 경우가 대부분
  • 통계적 유의성 : 수집된 데이터가 확률적으로 의미가 있는 경우
  • 단계 : 영 가설(귀무가설) & 대립 가설 설정 -> 검정 통계량 설정 -> 기각역 설정 -> 검정통계량 계산 -> 의사 결정

영 가설(귀무 가설)과 대립 가설

  • 영 가설 : 특정 데이터가 없으면 '참'으로 추정(ex. 무죄 추정의 원칙)
  • 대립 가설 : 특정 데이터가 없으면 '거짓'으로 추정하며 관심 대상인 가설

p-value

영 가설이 '참'이라고 가정할 때 얻은 결과와 다른 결과가 관측될 확률로, 그 값이 작을 수록 영 가설을 기각(보통 p < 0.05)할 근거가 됨
영 가설이 '참'일 때 기대할 수 있는 데이터의 분포가 클 수록 p-value 커지고, 작다면 '거짓'일 확률이 커진다.
영 가설이 '거짓'이라고 대립 가설이 '참'인 것은 아니다.

  • ex) 영 가설: 한국 남성의 키 평균은 160이다. 영 가설에서 데이터의 실 분포는 175라면(p<0.05) 영 가설 기각

단일 표본 t검정

그룹의 평균이 기준 값과 차이가 있는지를 확인하는 것으로 수집된 데이터의 표본 평균이 어떤 기준 값(영 가설)과 같은지 검정

선행 조건

해당 변수가 정규 분포를 따라야 수행할 수 있으므로 Kolmogorov-Smornov(KS test) 혹은 Shapiro-Wilk를 사용하여 정규성 검정 진행
정규성을 띄지 않는다면 월콕슨 부호-순위검정 수행

t = 표본 평균 - 기준 값 / (표본 표준편차 / 표본 수**1/2)
비모수일 경우(정규성을 따르지 않을 경우) 기준 값 대신에 '중위 값'으로 계산된다.

검정

키 데이터를 가지고 확인해 보자.

KS test(정규성 검정)은 scipy로 아래와 같이 p-value가 0.05 미만으로 정규성을 띈다고 확인할 수 있고
t 검정을 수행하면 pvalue가 0.05 미만이므로 영가설(data의 평균 == 163)을 기각하고, 통계량이 음수이므로 data 평균이 163보다 작다는 것을 확인할 수 있다.
실제 평균값
정규성을 띄지 않을 경우에는 윌콕슨 부호-순위 검정은 아래와 같이 수행할 수 있다.

profile
데이터 굽는 타자기

0개의 댓글