[Data Analysis] 12. 분산분석 (ANOVA; Analysis of Variance) (1)

Fly High!·2020년 8월 25일
0

Data Analysis

목록 보기
12/17
post-thumbnail

1. 개요

  • 세 집단 이상 간의 평균에 통계적으로 유의한 차이가 있는지 검정하는 방법 (유한한 k집단 비교)
    ex) 코로나 바이러스 약물 3종류 투여 후 효과의 차이 검정

    확장 개념
    : 일표본 < 독립 2표본 < 분산분석 < 회귀분석

1) 전제조건

  • 집단의 양적 자료 모두 정규성 가정을 만족할 때 사용
  • 집단은 서로 독립

2) F 분포

  • 정규분포를 이루는 모집단에서 독립적으로 추출한 표본들의 분산비율을 나타냄
  • F 분포의 기본은 카이제곱 분포

2. 가설 검정

1) 가설

  • 귀무가설 (H0) : μ1=μ2=μ3
  • 대립가설 (H1) : not H0 (적어도 한 가지는 다르다.)

2) Sum of square

  • SST = SSB + SSE
  • SSB : 집단 간 변화량
  • SSE : 집단 내 변화량
  • MSB = SSB/df; df : k - 1 (k = 집단의 개수)
  • MSE = SSE/df; df : n - k (n = 표본의 개수)
  • F = MSB/MSW (검정통계량)
  • F에 해당하는 P-value가 0.05보다 크다면, 귀무가설 작다면, 대립가설을 채택

    SST : Sum of square for Total
    SSB : Sum of square between factor
    SSE : Sum of square for error

3. 다중비교 & 사후분석

1) 개요

  • 분산분석의 결과로 대립가설이 채택되면 다중비교를 실시해 어느 표본 간에 차이가 있는지 확인
  • 통계적 검정을 반복하게 되면 familywise type 1 error가 증가하기 때문에 다중비교 실시

    표본 집단 모두 모수분포일 경우 Multicomparison(다중비교)
    표본 집단 중 비모수분포가 하나라도 존재할 경우 Post-hoc(사후분석)

2) 이유

  • 대립가설을 채택할 유의수준을 α로 가정하면, 귀무가설은 1 - α
  • n번의 test를 수행했을 경우의 귀무가설은 (1 - α)^n, 대립가설은 1 - (1 - α)^n
    ex) 3번의 검정을 거치면 유의수준은 0.143으로 커지게 되고 귀무가설을 채택해야할 검정통계량에서 대립가설을 채택하는 오류를 범할 가능성이 매우 높아진다.

3) FDR (False Discovery Rate)

(1) 탄생 이유

  • Bonferonni 방법은 보수적이어서 귀무가설을 기각해야 하는 경우가 있음에도 채택하는 오류를 범할 수 있는 것을 해소하기 위해 등장

(2) 정의

  • FDR = False positive / total positive (total positive = false positive + true positive)

    Holm's 방법, Hochberg 방법, Benjamin-Hochberg 방법 등 다양한 방법이 존재; Benjamin-Hochberg 방법이 가장 대표적

profile
Back-end, Python, Data

0개의 댓글