Chi-Square Test

제이브로·2021년 11월 25일

1종오류 AI부트캠프 Statistics chi-square test 자유도 카이제곱 코드스테이츠

AI부트캠프

목록 보기

9/32

Chi-Square Test

Statistics

1. T-test +

T-test는 특정한 조건에서 그룹의 평균을 비교하기 위한 가설검정 방법이다.

T-Test를 사용하기 위한 조건
독립성 : 두 그룹이 연결되어 있는 쌍(paired)인지
정규성 : 데이터가 정규성을 나타내는지
등분산성 : 두 그룹이 어느정도 유사한 수준의 분산 값을 가지는지

1.1 정규성

정규성 확인

from scipy.stats import normaltest

sample = np.random.poisson(5, 1000) # normal 분포가 아님
normaltest(sample)

# NormaltestResult(statistic=20.30705116357633, pvalue=3.89385583211646e-05)
# 정규분포가 아니다

Q . 데이터의 등분산성을 확인하는 방법은?
A .

2. Type of Error

FP : False Positive, 1종오류
FN : False Negative, 2종오류

2.1 Non-Parametric Methods( 비모수적 방법 )

모집단이 특정 확률 분포 (normal과 같은)를 따른다는 전제를 하지 않는 방식

Parameter estimation이 필요하지 않기에 non-parametric이라고 한다.

Categorical data를 위한 모델링

극단적 outliner가 있는 경우 아주 훌륭한 방식이다.

distribution free method 라고 부르기도 한다.

Kruskal-Wallis Test (비모수적 평균 비교법)
- Kruskal-Wallis H-test - 2개 이상 그룹의 중위 랭크를 통한 차이 비교 ( extended X2 )
- 샘플 수가 > 5 일때 좋음

from scipy.stats import kruskal

x1 = [1, 3, 4, 8, 9]
y1 = [1, 4, 6, 7, 7]
kruskal(x1, y1) # 약간은 다르지만, "유의한" 차이는 아님

3. Chi-Square Tests

Q . Chi-Square Tests란?
A . 주어진 데이터가 특정 예상되는 분포와 동일한 분포를 나타내는지에 대한 가설검정

통계치를 pvalue로 바꾸는 방법?? stats.chi2.cdf
표준화 : 의미는 비슷하지만 통계치는 다르므로 표준화를 해줘야 한다.
$\chi^2$ 통계치 의 계산식
$\chi^2$ = $\sum_{}\frac{(observed_i-expected_i)^2}{(expected_i)}$

3.1 One Sample Chi-Square Tests

적합도 검정, 관찰되는 분포가 예상되는 분포와 동일한지

from scipy.stats import chisquare  

s_obs = np.array([[18, 22, 20, 15, 23, 22]]) # Similar
chisquare(s_obs, axis=None) # One sample chi-square

3.2 Two Sample Chi-Square Tests

독립성 검정, 두 표본집단의 분포가 동일한지에 대한 가설검정( 두 표본집단의 연관성을 본다 )

from scipy.stats import chi2_contingency

chi2, pvalue, dof, expected = chi2_contingency(data)

chi2_contingency(data, correction=True)
correction = True : True( default ) 자유도가 1이라면 관측치는 0.5씩 기대값으로 옮기는 Yata's correction이 적용되어 검정통계량이 더 낮게 나온다.