[statistics] πœ’2 -test

λ°•κ²½κ΅­Β·2021λ…„ 12μ›” 2일
0

Statistics

λͺ©λ‘ 보기
5/16
post-thumbnail

πœ’2 -testλ₯Ό μ‚¬μš©ν•˜λŠ” 이유

1. t-testλ₯Ό μ‚¬μš©ν•˜κΈ° μœ„ν•΄μ„œλŠ” λͺ‡κ°€μ§€ 쑰건이 있음

1) ν‘œλ³Έμ΄ μ„œλ‘œ 독립적이여야 ν•œλ‹€.
2) ν‘œλ³Έμ΄ μ •κ·œλΆ„ν¬λ₯Ό 이뀄야 ν•œλ‹€.

  • scipy.stats의 normaltestλ₯Ό 톡해 확인
from scipy.stats import normaltest
import numpy as np

sample = np.random.normaal(size =  1000) # normal 뢄포가 μ•„λ‹˜
normaltest(sample) 

3) λΉ„κ΅ν•˜λŠ” 두 ν‘œλ³Έμ˜ 뢄산이 ν†΅κ³„μ μœΌλ‘œ μœ μ‚¬ν•΄μ•Όν•œλ‹€. (p > 0.05)

2. πœ’2 -testλŠ” λͺ¨μ§‘단이 νŠΉμ • ν™•λ₯  뢄포λ₯Ό λ”°λ₯΄μ§€ μ•Šμ•„λ„ μ‚¬μš©ν•  수 있음.

1) Categorical 데이터에 μ ν•©ν•œ λͺ¨λΈλ§μ΄ κ°€λŠ₯함
2) 극단적 outlierκ°€ μžˆλŠ” κ²½μš°μ—λ„ μ‚¬μš©ν•  수 있음
3) distribution free method라고도 뢀름

πœ’2 -test의 κ°€μ„€ 섀계

  1. one - sample πœ’2 -test의 경우
  • 귀무가섀 : 데이터가 μ˜ˆμƒλ˜λŠ” 뢄포와 μœ μ‚¬ν•œ 뢄포λ₯Ό 그릴 것이닀.

  • λŒ€λ¦½κ°€μ„€ : 데이터가 μ˜ˆμƒλ˜λŠ” 뢄포와 μœ μ‚¬ν•˜μ§€ μ•Šμ„ 것이닀.

  • μ˜ˆμƒλ˜λŠ” λΆ„ν¬λŠ” λŒ€κ°œ λ°μ΄ν„°μ˜ 평균을 μ‚¬μš©ν•¨

     πœ’2 = βˆ‘(π‘œπ‘π‘ π‘’π‘Ÿπ‘£π‘’π‘‘iβˆ’π‘’π‘₯𝑝𝑒𝑐𝑑𝑒𝑑𝑖)^2 / (𝑒π‘₯𝑝𝑒𝑐𝑑𝑒𝑑𝑖)
     
     ns_obs = np.array([[5, 23, 26, 19, 24, 23]])
import numpy as np
from scipy.stats import chisquare  

chisquare(a, axis=None)

2. Two - sample πœ’2 test의 경우

  • 귀무가섀 : 두 λ³€μˆ˜κ°€ μ„œλ‘œ 독립적이닀.
  • λŒ€λ¦½κ°€μ„€ : 두 λ³€μˆ˜κ°€ μ„œλ‘œ 독립적이지 μ•Šλ‹€.
  • λ³€μˆ˜ 쀑 ν•˜λ‚˜λŠ” categorical 데이터여야 ν•œλ‹€.

ex1) 마슀크 착용 여뢀와 μ½”λ‘œλ‚˜19 감염 μ—¬λΆ€
ex2) 혼인 여뢀에 λ”°λ₯Έ μ—¬κ°€ λΉ„μš©

from scipy.stats import chi2_contingency

a= pd.crosstab(customer['marriage'], customer['consum_alchol'])
print(chi2_contingency(a)

0개의 λŒ“κΈ€