카이제곱 검정

오상윤·2022년 12월 28일
0

통계 기초

목록 보기
6/7

카이제곱검정

  • 카이제곱 통계량은 데이터 분포와 가정된 분포 사이의 차이를 나타내는 측정값
  • 카이제곱 검정통계량이 카이제곱분포를 따른다면 카이제곱분포를 사용해서 검정 수행
  • 카이제곱 분포에서 일어나기 불가능한 일이면 귀무가설 기각, 대립가설 채택

독립성검정

  • 두 변수는 서로 연관성이 있는가?

적합성검정

  • 실제 표본이 내가 가정한 분포와 같은가?

동일성 검정

  • 두 집단의 분포가 같은가?

카이제곱검정 순서

  • 1. 기대값을 구한다
  • 2. 카이제곱을 구한다
    • (관측값 - 기대값)을 제곱하여 기대값으로 나눈다
  • 3. 2번을 합하여 전체의 카이제곱 값을 구한다.
  • 4. 카이제곱의 자유도를 구한다

독립성 검정

  • 모집단을 범주화하는 두 변수 A,B가 서로 독립적으로 측정값에 영향을 미치는지 여부를 검정

귀무가설

  • 유저 A군과 B군이 C페이지에 진입하는 것은 관련이 없다

대립가설

  • 유저 A군과 B군이 C페이지에 진입하는것은 관련이 있다.
import pandas as pd
import scipy.stats as stats
import matplotlib.pyplot as plt
from numpy import linspace
# 데이터 프레임 생성
df = pd.DataFrame([[200, 100], [400, 50]], columns=['pv_t', 'pv_f'])
stats.chi2_contingency(observed=df)
# 결과 : (54.17534722222223, 1.833731033899248e-13, 1, array([[240.,  60.],
        [360.,  90.]]))

결과값 해석

  • Chi-square : 54.17534722222223
  • p-value:1.833731033899248e-13
  • df:1
  • expected value:array
    => 귀무가설 기각, 대립가설 채택
profile
가보자가보자~

0개의 댓글