[데이터 분석] Hypothesis Test

Colacan·2022년 1월 25일
0

[데이터 분석]

목록 보기
7/9

Hypothesis Test

  • 가설검정 : 기존 데이터를 보고 가설을 세운 뒤 다른 데이터를 통해서 가설을 확인하는 과정 (충분한 확인 필요)

  • 데이터가 가설이 틀렸다는 강한 증거를 보여줄시 가설이 틀림

  • 데이터가 같지는 않지만 비슷할시 가설이 틀리진 않음

  • 귀무가설
    1) 어떤 것의 차이가 거의 없다고하는 가설
    2) 아주 많은 수의 가설을 세우는 것보다 효율적

  • 통계검증 : 귀무가설이 틀렸는지에 대한 결정

  • 통계검증이 필요한것 3가지
    1) 데이터가 필요
    2) 귀무가설 혹은 일차가설
    3) 대안가설

  • 대안가설 : 단순히 귀무가설을 반대로 한 것

  • 귀무가설이 전체 평균의 차이라면 대안가설은 각각의 평균의 차이

  • 귀무가설이 틀렸다는 것을 보이는데 실패 -> 과적합된다

  • 여러개의 대상이 있는 경우
    1) 대립가설의 선택사항이 생김
    2) 대립가설을 통해서 귀무가설이 틀렸는지에 대한 결정가능
    3) 하지만 대립가설을 받아들이진 않음 (더 좋은 대립가설이 있을 수 있기에)

  • p-value
    1) 0과 1사이의 값
    2) 데이터의 차이를 보여주는 값
    3) 0에 가까울수록 차이가 존재
    4) 주로 0.05를 이용 (5%실험결과만이 0.05보다 작은 p-value를 생성함을 의미)
    5) 결과가 꽤 다르게 나오는 실험에서는 0.01을 이용
    6) p-value는 차이의 유무를 언급할 뿐 차이의 크기를 언급하진 않는다.

  • 거짓양성 : 실제론 차이가 없지만 작은 p-value 얻는 것 (위의 0.05가 거짓양성을 의미)

  • stats.ttest_lsamp(샘플데이터, 비교하려는 값) : t-value와 p-value 추출

  • two side test : 특정상수 x와 같은지 다른지 (양방향 검증필요)

  • one side test : 특정상수 x보다 큰지 작은지

  • stats.ttest_ind(샘플데이터1, 샘플데이터2) : 샘플 여러개일 때 t-value와 p-value 추출

  • binomial() : 두가지의 결과만 나오게함 (베르누이 분포)

  • 표본 평균의 표준 오차 : s/root(n) s는 표준편차, n은 표본수 , 즉, 표본의 수가 많아질수록 추측은 정확

기술통계 vs 추리통계

  • 기술 통계치
    1) 데이터를 설명하는 값
    2) boxplot으로 시각화 가능
    3) bagplot : 두가지의 박스플롯 동시에 봄
    4) violin plot : box plot을 개량한 것

  • 왜도 : 분포의 비대칭성

  • 첨도 : 그래프의 뾰족한 정도

  • 추리 통계치 : 일부 데이터를 통해서 추론하여 모집단의 파라미터를 측정하는 것

sampling 기법

  • simple random sampling : 무작위로 샘플링

  • Systematic sampling : 규칙을 가지고 샘플링

  • Stratified random sampling : 여러 그룹으로 나누고 그룹별로 무작위 추출

  • Cluster sampling : 여러그룹으로 나누고 특정그룹을 무작위로 선택

profile
For DE, DA / There is no royal road to learning

0개의 댓글