[Today I Learned]
Warm-up
- 자유도 (Degree of Freedom) : 주어진 조건 하에서 통계적 제한을 받지 않고 자유롭게 변화될 수 있는 요소의 수 or 독립변수의 수
- n - 1
- 행렬의 경우 : (row - 1) * (column - 1)
- One-tail vs Two-tail test
- 카이제곱 검정 (Chi-square test)
- 카이제곱 분포에 기초한 통계적 방법
- 관찰된 빈도가 기대되는 빈도와 의미있게 다른지의 여부를 결정
- 카이제곱 값을 가지고 귀무가설 채택 or 기각 결정
- 카이제곱 값 = (관측치 - 기대치)^2/기대치의 합
Session - n122
-
T-test: 그룹의 평균 값에 대해서 비교하는 가설 검정 방법
-
T-test를 위해서는 3가지 조건이 필요
- 독립성: 두 그룹이 연결되어 있는 쌍인가?
- 정규성: 데이터의 분포가 정규분포를 따르는가?
- 등분산성: 두 그룹이 어느정도 유사한 수준의 분산 값을 가지는가?
-
위에 조건들을 확인하는 방법은 scipy에 다 구현되어 있다.
-
stats.normaltest() 으로 정규성 테스트
null : 정규분포 X
alternative : 정규분포 O
-
Non parametric methods (비모수적 방법)
모집단이 특정 확률 분포를 따른 다는 전제를 하지 않는 방식으로 distribution free method라고도 부른다.
- Categorical 데이터 혹은 극단적 outlier가 있는 경우 유효한 방식
- Chisquare
Spearman correlation
Run test
Kolmogorov Smirnov
Mann-Whitney U
Wilcoxon
Kruskal-Wallis - 2개 이상 그룹의 중위 랭크를 통한 차이 비교
-
카이제곱 검정 : 데이터의 분포, 빈도, 비율을 검정하는 방법
과제
<과제 하면서 새롭게 배운 내용>
stats.chisquare(region)
stats.chi2_contingency(df)
- 카이제곱 값을 P-value(표준화된 값)으로 변환
stats.chi2.cdf(chi, 3)
df.reindex(index = row)
df.sum(axis = 1)
-
파이썬으로 분산분석
-
Sign test (부호 검정)
- 어떠한 값보다 크고 작음만 따져 계산하는 테스트
- 부호 검정의 통계량은 이항분포를 따른다
- Binomial Test(이항 검정)를 이용해 P-value값 계산
Reference
Reference 공부는 나중에.....