AI 부트캠프 2기 - Day 7

Jeongwoo Lee·2021년 3월 14일

Codestates AI Bootcamp

목록 보기
7/19

[Today I Learned]

Warm-up

  • 자유도 (Degree of Freedom) : 주어진 조건 하에서 통계적 제한을 받지 않고 자유롭게 변화될 수 있는 요소의 수 or 독립변수의 수
    • n - 1
    • 행렬의 경우 : (row - 1) * (column - 1)
  • One-tail vs Two-tail test
  • 카이제곱 검정 (Chi-square test)
    • 카이제곱 분포에 기초한 통계적 방법
    • 관찰된 빈도가 기대되는 빈도와 의미있게 다른지의 여부를 결정
    • 카이제곱 값을 가지고 귀무가설 채택 or 기각 결정
    • 카이제곱 값 = (관측치 - 기대치)^2/기대치의 합

Session - n122

  • T-test: 그룹의 평균 값에 대해서 비교하는 가설 검정 방법

  • T-test를 위해서는 3가지 조건이 필요

    • 독립성: 두 그룹이 연결되어 있는 쌍인가?
    • 정규성: 데이터의 분포가 정규분포를 따르는가?
    • 등분산성: 두 그룹이 어느정도 유사한 수준의 분산 값을 가지는가?
  • 위에 조건들을 확인하는 방법은 scipy에 다 구현되어 있다.

  • stats.normaltest() 으로 정규성 테스트
    null : 정규분포 X
    alternative : 정규분포 O

  • Non parametric methods (비모수적 방법)
    모집단이 특정 확률 분포를 따른 다는 전제를 하지 않는 방식으로 distribution free method라고도 부른다.

    • Categorical 데이터 혹은 극단적 outlier가 있는 경우 유효한 방식
    • Chisquare
      Spearman correlation
      Run test
      Kolmogorov Smirnov
      Mann-Whitney U
      Wilcoxon
      Kruskal-Wallis
      - 2개 이상 그룹의 중위 랭크를 통한 차이 비교
  • 카이제곱 검정 : 데이터의 분포, 빈도, 비율을 검정하는 방법

과제

<과제 하면서 새롭게 배운 내용>

  • chi-square test
# one-sample chi-square test
stats.chisquare(region)

# two-sample chi-square test
stats.chi2_contingency(df)
  • 카이제곱 값을 P-value(표준화된 값)으로 변환
stats.chi2.cdf(chi, 3)
  • index 순서 변경 .reindex 사용
df.reindex(index = row)
  • 행 기준 합계 (열 기준은 axis = 0)
df.sum(axis = 1)
  • 파이썬으로 분산분석

  • Sign test (부호 검정)

    • 어떠한 값보다 크고 작음만 따져 계산하는 테스트
    • 부호 검정의 통계량은 이항분포를 따른다
    • Binomial Test(이항 검정)를 이용해 P-value값 계산

Reference

Reference 공부는 나중에.....

profile
열심히 하자

0개의 댓글