카이제곱분포

김요한·2024년 8월 2일

통계학

목록 보기
8/30

카이제곱분포

  • 카이제곱 분포는 범주형 데이터의 독립성 검정이나 적합도 검정에서 사용되는 분포

특징

  • 자유도에 따라 모양이 달라짐
  • 상관관계나 인과관계를 판별하고자 하는 원인의 독립변수가 '완벽하게 서로 다른 질적 자료'일 때 활용

ex) 성별이나 나이에 따른 선거 후보 지지율

  • 범주형 데이터 분석에 사용

어떻게 사용될까?

독립성 검정이나 적합도 검정이 필요할 때

  • 독립성 검정
    • 두 범주형 변수 간의 관계가 있는지 확인할 때 사용됨
    • 성별과 직업 선택간의 독립성 검토
    • 성별이 후보지지율에 영향을 끼치는지
  • 적합도 검정
    • 관측한 값들이 특정 분포에 해당하는지?
    • 주사위의 각 면이 동일한 확률로 나오는지 검토
    • 노란색 완두와 녹색완두가 3:1의 비율로 나와야 하는데 실험적 측정 데이터가 그렇게 나오는지
      # 카이제곱분포 생성
      chi2_dist = np.random.chisquare(df=2, size=1000)
      
      # 히스토그램으로 시각화
      plt.hist(chi2_dist, bins=30, density=True, alpha=0.6, color='m')
      
      # 카이제곱분포 곡선 추가
      x = np.linspace(0, 10, 100)
      p = stats.chi2.pdf(x, df=2)
      plt.plot(x, p, 'k', linewidth=2)
      plt.title('chi2 distribution histogram')
      plt.show()

0개의 댓글