[데이터 전처리] 가설 검정 - 카이제곱 검정

Bpius·2023년 10월 12일

데이터 EDA & 전처리

목록 보기

18/46

가설 검정

수집된 데이터를 바탕으로 모집단의 특성의 가설에 대한 통계적 유의성을 검정하는 일련의 과정.

수집된 데이터는 대부분 샘플이며(모집단의 부분집합) 모집단 전체를 알 수 없는 경우가 대부분.
통계적 유의성 : 수집된 데이터가 확률적으로 의미가 있는 경우.
단계 : 영 가설(귀무가설) & 대립 가설 설정 -> 검정 통계량 설정 -> 기각역 설정 -> 검정통계량 계산 -> 의사 결정

영 가설(귀무 가설)과 대립 가설

영 가설 : 특정 데이터가 없으면 '참'으로 추정(ex. 무죄 추정의 원칙)
대립 가설 : 특정 데이터가 없으면 '거짓'으로 추정하며 관심 대상인 가설.

카이제곱 검정

두 변주형 변수가 서로 독립적인지 검정(영 가설: 두 변수가 서로 독립)

남/여 만족도 데이터를 가지고 살펴보자.

교차 테이블과 기대값

교차 테이블(contingency table)은 두 변수가 취할 수 있는 값의 조합의 출현 빈도
기대값 : (값 i를 갖는 샘플 수 * 값 j를 갖는 샘플 수) / 전체 샘플 수

pandas 모듈인 crosstab(변수A, 변수B)로 교차 테이블을 사용하여 실제값을 확인해보자.

교차테이블을 통해 얻은 수치를 scipy 모듈을 사용하여 검증하기 위해서 value값만 가져와서 서로 독립인지 확인하자.
p-value(유의 수준: 0.05)가 낮은 수준인 것으로 보아 서로 독립적이지 않다는 것을 예측할 수 있다.

카이제곱 검증을 통한 기대값은 expected를 통해 확인할 수 있는데, p-value에서 확인했듯 실제값과 기대값의 차이가 발생한 것을 확인할 수 있다.