1. 정의
- 카이제곱 분포에 기초한 통계적 방법
- 두 개의 질적 자료 간에 통계적으로 관련성이 있는지 분석하는 방법
- t분포와 같이 자유도가 커질수록 볼록한 부분이 오른편으로 이동
- 카이제곱 분포는 항상 양수

2. 가설
- 귀무가설 : ~와 ~간에는 관련성이 없다.
- 대립가설 : ~와 ~간에는 관련성이 있다.
3. Code
result = pd.crosstab(질적 자료, 질적 자료)
stats.chi2_contingency(observed = result)

- 4391.398 = Chi-square
- 0.0 = P-value
- 28 = df
- 결론 : 유의확률이 0.000이므로 유의수준 0.05에서 cut과 clarity 간에는 통계적으로 유의한 관련성이 있는 것으로 나타났다.