카이제곱 분포
⭐️독립성 검정이나 적합도 검정에 사용되는 분포

- k는 자유도.
- k가 커질수록 정규분포에 가까워짐.
- 범주형 데이터의 독립성 검정이나 적합도 검정에 사용되는 분포
- 자유도에 따라 모양이 달라짐
- 상관관계나 인과관계를 판별하고자 하는 원인의 독립변수가 '완벽하게 서로 다른 질적 자료'일 때 활용
- ex) 성별이나 나이에 따른 선거 후보 지지율
- 범주형 데이터 분석에 사용
독립성 검정
- 두 범주형 변수 간의 관계가 있는지 확인할 때 사용
ex) 성별과 직업 간의 독립성 검토
ex) 성별이 후보 지지율에 어떤 영향을 끼치는지 검토
적합도 검정
- 관측한 값들이 특정 분포에 해당하는지 검정할 때 사용
ex) 주사위의 각 면이 동일한 확률로 나오는지 검토
ex) 노란색 완두와 녹색 완두의 비율이 3:1로 나오는지 검토
추후에 더 공부 예정!
실습
- np.random.chisquare(자유도, 샘플 개수)
# 카이제곱분포 생성
chi2_dist = np.random.chisquare(df=2, size=1000)
# 히스토그램으로 시각화
plt.hist(chi2_dist, bins=30, density=True, alpha=0.6, color='m')
# 카이제곱분포 곡선 추가
x = np.linspace(0, 10, 100)
p = stats.chi2.pdf(x, df=2)
plt.plot(x, p, 'k', linewidth=2)
plt.title('카이제곱 분포 히스토그램')
plt.show()
