[data&ML] t-test 와 ANOVA의 은밀한 관계

Leo Kim·2022년 10월 3일
0

t-test와 ANOVA는 어떤 관계인가?

일단 이름만 보면 전혀 닮지 않았다..
먼저 Independent Sample t-test 와 ANOVA를 먼저 비교해보자.

공통점 먼저 알아보자.

  1. 가설을 검증하는 통계적 방법이다.
  2. 적용할 수 있는 상황에 대한 가정이 동일하다.
    a. 랜덤 샘플링을 통해 얻은 샘플이다.
    b. 등분산: 비교하려는 집단들의 분산이 동일
    (등분산이 아니면 Welch's t-test)
    c. 정규성: 샘플이 뽑힌 모집단은 정규분포를 따름
    (정규성은 Shapiro-wilk normality test 혹은 Q-Q plot, Histogram으로 확인)
    d. 독립성: 그룹간 서로 독립
    (독립성을 가정하지 못하면 Paired Sample t-test)

차이점은 표로 정리해보자.

/t-testANOVA
정의두 모집단의 평균을
비교하는 가설 검증 방법
3개 이상의 모집단의 평균을
비교하는 가설 검증 방법
Null
Hypothesis
H0: µ(x) = µ(y)H0: All population means
are the same
Alternative
Hypothesis
H1: µ(x) ≠ µ(y)H1:
At least one population mean
is different

검증하려는 가설을 보면 명확하다.
t-test는 두 집단의 평균이 같은지 다른지를 보려는 것이고, ANOVA는 세 집단 이상이 있을 때 평균이 같은지 다른지를 보려는 것이다.

다른 t-test

사실 t-test는 종류가 많다.
1. One Sample t-test: 그룹이 1개일 때, 알고있는 모집단의 평균이 맞는지 검증

  • (예시) 애플은 맥북의 무게가 1.24Kg이라고 알려져있다. 애플의 주장이 신뢰할 만한지 샘플을 가져와서 검정을 진행해보려 할 때.
  1. Paired Sample t-test: 같은 항목에 대해서 짝지어진 데이터가 존재할 때 얻은 두 관측치의 평균을 비교한다.
  • (예시) Independent가 그냥 남녀의 체온을 비교한다고 하면, Paired는 부부의 체온을 비교한다고 생각하자.

3개 그룹일 때 t-test를 세 번 하면 안되나요?

네.. 곤란합니다..
한 번 t-test를 했을 때 1종오류를 저지를 확률이 (유의수준 5% 일 때) 5% 인 것인데, 3번 하게되면 14.3%까지 1종오류 확률이 커지게 된다. (=0.95^3)

  • 1종오류: 실제로는 H0이 맞는데, H0를 기각해버릴 확률 (신중하지 못함!)
  • 3개의 집단 예시로 들자면, 실제로는 차이가 없는데 차이가 있다고 결론을 내려버리는 것.

    그룹이 3개 이상일 때는 1종오류를 피하기 위해 ANOVA를 사용한다.

ANOVA 사후검정

3개의 그룹이 다르다는 것은 알겠는데,,,
어떤 애들이 다르다는거지?
에 대한 답은 사후검정(Post-hoc)을 통해 알 수 있다.
대표적으로 몇가지만 소개하자면,

  1. Tukey
  • 집단 별 표본수가 동일할 때 사용하는 것으로 고안됐지만 현재는 집단수가 다르면 Tukey-Kramer를 사용
  • 모든 집단 조합에 대해 분석
  1. Duncan
  • Tukey와 마찬가지로 집단 별 표본수가 동일할 때.
  • 가장 loose한 방법
  1. Scheffe
  • 집단 별 표본수가 달라도 됨
  • 가장 보수적인 사후검정

구체적으로 어떻게 다른지는 아직 잘 이해하지 못했다. Scheffe > Tukey > Duncan 정도로 민감하다는 점 // 추후에 조금 더 찾아보고 업데이트 예정!

profile
🤿 deep in data

0개의 댓글