[데이터 분석] T-test, X^-test

Colacan·2022년 1월 26일

[데이터 분석]

목록 보기

6/9

t-test : 그룹의 평균값에 대해서 비교하는 가설검정
t-test를 사용하기 위한 조건
1) 독립성 : 두 그룹이 연결되어있는 쌍인지
2) 정규성 : 가설검정하고자하는 데이터가 정규분포와 일치하는지
3) 등분산성 : 두 그룹의 분산이 얼마나 유사한지
데이터에서 조건확인하는 것도 scipy에 구현되어 있다
데이터의 정규성확인
1) python normal test 검색
2) scipy.stats.normaltest 이용
Description 찾아보는 것을 습관화하자
정규성이 없을 때
1) 데이터의 분포를 가설검정으로 확인하고 잘맞는 것을 시도하는 것이 좋지만 어려움
2) 따라서 non-parametric(비모수적 방법) 이용
정규성이 없을 때 예시
1) categorical (통계치가 나오지않는 데이터)
2) outlier (통계치가 있어도 의미가 없는 경우)
Kruskal-Wallis Test(비모수적 평균 비교법) : 중위수(중앙값)의 차이가 있는지 비교
Type of Error : 가설검정내용과 실제내용의 차이로 인한 에러
Type 1 Error : 귀무가설은 참인데 가설검정이 거짓 (알파)
Type 2 Error : 귀무가설은 거짓인데 가설검정이 참 (베타)

X^-test : 데이터의 분포,비율에 대한 검정
one sample x^2 test : 주어진 데이터가 유사한 분포를 나타내는지 제곱을 통해서 차이를 확장가능
x^2를 pvalue로 변환
1) x^2은 통계치의 크기에 따라서 값이 다르다.
2) 따라서 표준화된 값이 필요
3) x^2를 pvalue로 바꾸는 과정 필요
4) scipy chi to pvalue rjator 검색
5) stats.chi2.cdf 이용
two sample x^2 test : 2개의 샘플의 분포,비율이 비슷한지 (2개 변수간의 연관성 확인)
귀무가설 : 두개의 변수의 연관성이 없다 (독립)
대안가설 : 두개의 변수의 연관성이 있다 (독립이 아니다)
Numerical 을 Categorical 변환
1) Type casting : Numerical 이지만 continuous 하지 않으면 바로 변환가능
2) Binning : Numerical 이지만 continuous 해서 데이터가 너무 많을 때, 구간별로 나눔
자유도
1) 주어진 데이터를 만들기 위해서 데이터를 선택할 수 있는 가지의 수
2) 해당 parameter를 결정짓기 위한 독립적으로 정해질 수 있는 값의 수
scipy에서 one sample x^2 test 의 경우 chisquare, two sample x^2 test 의 경우 chi2_contigency 메소드 이용
correction 옵션 : 샘플로부터 통계치 계산하는지, 모집단으로부터 통계치 계산하는지 결정
chi2_contigency 결과 해석
1) x^2 statistic
2)p-value
3) 자유도
4) 관측치에 대한 기대값

For DE, DA / There is no royal road to learning