[통계] 카이제곱 검정

JONGYOON JEON·2024년 2월 20일

통계

목록 보기

11/13

t-test anova 같은 경우 연속형 종속변수, 명목척도(범주형) 독립변수
만약 둘다 명목 척도라면? t-test,m ANOVA 못씀
이때 사용하는 것이 교차분석

변수가 명목척도 일 때,
자료의 값은 개수여야함.

앞의 t-test나 ANOVA의 경우 둘/셋 이상의 집단의 같은지 다른지

카이제곱 검정의 목적은
변수가 한개인 경우 : 변수 내 그룹 간의 비율이 같은지 다른지
그룹이 단 2개인 경우에는 Binomial test
그룹이 여러개인 경우 카이제곱 검정

변수가 두개 인 경우 : 변수 사이의 연관성이 있는지 없는지
휴대폰 사용과 뇌암
인종과 특정 질병

예시
관찰빈도 : 총 고객데이터
기대 빈도 : 총 1,000명의 고객데이터가 있다면 남성/여성 고객 빈도는 500 / 500

변수가 1개라는 의미. 변수가 한개이기 때문에 칼럼 한개로 넣어야함.
당연히 명목척도

카이스퀘어 값이 278 확실이 큼.
=확실히 유의하다 = 확실히 누군가는 다름

일월 카이제곱 검정의 유의성이 의미하는 것은 무엇인가 다르다 정도임
여기서 다르다는 것 또한 사전에 정해진 기대빈도와 다르다라는 의미
만약 기존의 연구/이론에 의해서 각 범주의 빈도가 다르게 나온다면
기대 빈도 자체를 바꿔서 테스트해야함.

변수가 2개라는 의미. 변수가 두개이기 때문에 칼럼도 두개로 나옴.
당연히 명목척도
가장 단순한 형태는 2X2 분석
이때 사용하는 것이 분할 표. = 데이터의 빈도만 단순화 표 작성

예제)

통계적 연관성을 찾을 수 있으나, 범주 간의 확률의 차이가 얼마나 큰지 알 수 없음
이러한 문제를 해결하기 위해 CI(confidence interval) 을 사용.

일원 카이제곱 검정의 경우 범주가 2개 이거나, 이원 카이제곱 검정에서 2x2 인 경우, 비연속성의 조건부 확률을 연속성의 카이제곱분포에 적용함으로써 문제 발생
연속성 보정을 하는 Yate's correction 또는 x2 continuity correction을 사용해야함
만약 이원 카이제곱 검정의 2x2인 경우 x2 test 결과와 Yate's correction이 다를 경우 피셔의 정확검정을 사용해야함

오즈란? Odds = p/1-p
- 확률이 1/2 인 경우 Odds는 1(같음)
- 확률이 3/4 인 경우 Odds는 3(3배 높다)
오즈비란? 두 오즈의 비율

결론 : 핸드폰 비사용자에 비해 3배 높다.
- 행렬을 바꿔도 오즈비는 거의 비슷하다.
- 그러나 단순 오즈나 상대 위험도는 변한다.