독립변수의 수
ex) x+y+z = 10 : 독립변수2, 종속변수1
그룹의 평균값 비교
두 그룹이 paired한 쌍이 아니어야함
두 그룹이 어느정도 유사한 수준의 분산 값을 가지는지
정규(noraml) 분포인지
모집단이 특정 확률 분포 (normal과 같은)를 따른 다는 전제를 하지 않는 방식
test도 Non parametric methods의 한 종류
주어진 데이터가
Null Hypothesis : Distribution is similar (or specific input)
Alternative Hypothesis : Distribution is not similar (or specific input)
제곱 -> 모든 값을 양수로 만들고 관측과 예측값의 차이를 더 강조
*exp = sum(obs) / count
: 데이터 scale에 따라 같은 분포여도 다른값
-> 표준화 된 값 필요
Null Hypothesis : Varialbe is independent
귀무가설 : 두 변수간 연관이 없다
Alternative Hypothesis : Varialbe is not independent (or specific input)
대안가설 : 두 변수간 연관이 있다
numerical 이지만, continuous하지 않은 경우
바로 category로 사용
ex) 1, 2, 3 -> 1, 2, 3
numerical 이지만, continuous
구간별로 나누어 사용
ex) 1.4, 2, 3.1, 2.8, 1.1, 2.5 -> A : 1 ~ 2, B : 2 ~ 3, C : 3 ~ 4
해당 parameter를 결정짓기 위한 독립적으로 정해질 수 있는 값의 수
보통
test 자유도
1-sample (적합도 검정), DF = # categories-1
2-sample (독립성 검정), DF = (#행 - 1)*(#열 - 1)
scipy.stats.chi2_contingency
시행 결과값은 순서대로
1 : statistic 2 : p-value 3 : degree of freedom 4 : expected value for Observed
을 의미
*correction은 default로 True(자유도 = 1)