[데이터 분석] T-test, X^-test

Colacan·2022년 1월 26일
1

[데이터 분석]

목록 보기
6/9

T-test

  • t-test : 그룹의 평균값에 대해서 비교하는 가설검정

  • t-test를 사용하기 위한 조건
    1) 독립성 : 두 그룹이 연결되어있는 쌍인지
    2) 정규성 : 가설검정하고자하는 데이터가 정규분포와 일치하는지
    3) 등분산성 : 두 그룹의 분산이 얼마나 유사한지

  • 데이터에서 조건확인하는 것도 scipy에 구현되어 있다

  • 데이터의 정규성확인
    1) python normal test 검색
    2) scipy.stats.normaltest 이용

  • Description 찾아보는 것을 습관화하자

  • 정규성이 없을 때
    1) 데이터의 분포를 가설검정으로 확인하고 잘맞는 것을 시도하는 것이 좋지만 어려움
    2) 따라서 non-parametric(비모수적 방법) 이용

  • 정규성이 없을 때 예시
    1) categorical (통계치가 나오지않는 데이터)
    2) outlier (통계치가 있어도 의미가 없는 경우)

  • Kruskal-Wallis Test(비모수적 평균 비교법) : 중위수(중앙값)의 차이가 있는지 비교

  • Type of Error : 가설검정내용과 실제내용의 차이로 인한 에러

  • Type 1 Error : 귀무가설은 참인데 가설검정이 거짓 (알파)

  • Type 2 Error : 귀무가설은 거짓인데 가설검정이 참 (베타)

X^-test

  • X^-test : 데이터의 분포,비율에 대한 검정

  • one sample x^2 test : 주어진 데이터가 유사한 분포를 나타내는지 제곱을 통해서 차이를 확장가능

  • x^2를 pvalue로 변환
    1) x^2은 통계치의 크기에 따라서 값이 다르다.
    2) 따라서 표준화된 값이 필요
    3) x^2를 pvalue로 바꾸는 과정 필요
    4) scipy chi to pvalue rjator 검색
    5) stats.chi2.cdf 이용

  • two sample x^2 test : 2개의 샘플의 분포,비율이 비슷한지 (2개 변수간의 연관성 확인)

  • 귀무가설 : 두개의 변수의 연관성이 없다 (독립)

  • 대안가설 : 두개의 변수의 연관성이 있다 (독립이 아니다)

  • Numerical 을 Categorical 변환
    1) Type casting : Numerical 이지만 continuous 하지 않으면 바로 변환가능
    2) Binning : Numerical 이지만 continuous 해서 데이터가 너무 많을 때, 구간별로 나눔

  • 자유도
    1) 주어진 데이터를 만들기 위해서 데이터를 선택할 수 있는 가지의 수
    2) 해당 parameter를 결정짓기 위한 독립적으로 정해질 수 있는 값의 수

  • scipy에서 one sample x^2 test 의 경우 chisquare, two sample x^2 test 의 경우 chi2_contigency 메소드 이용

  • correction 옵션 : 샘플로부터 통계치 계산하는지, 모집단으로부터 통계치 계산하는지 결정

  • chi2_contigency 결과 해석
    1) x^2 statistic
    2)p-value
    3) 자유도
    4) 관측치에 대한 기대값

profile
For DE, DA / There is no royal road to learning

0개의 댓글