[통계] 다중 검정

hyun·2022년 8월 17일
0

통계

목록 보기
24/37

📚 다중검정

여러 개의 가설검정을 동시에 시행하는 것.
이는 문제가 있다.

😱 다중검정의 문제-알파 인플레이션

  • 예를 들어, 20개의 예측변수와 1개의 결과변수가 모두 임의로 생성되었다고 하자. 그리고 이걸 가지고 유의수준 5%에서 20번 다중검정을 시행한다고 하자.
  • 그러면 20번 수행에서 적어도 한 번은 '통계적으로 유의하다' 라는 결과가 나오게 된다(유의수준 5%이므로).
  • 적어도 1회 이상 '통계적으로 유의하다' 라는 결과를 낼 확률을 해보면, 10.9520=0.641-0.95^{20}=0.64이다.
  • 따라서 다중검정 시에는 유의확률이 중첩되므로 1종 오류를 범할 확률이 급증하는데, 이를 알파 인플레이션이라고 한다.

💡 이 문제는 데이터 마이닝에서 모델이 잡음까지 학습하는 과대적합 문제와도 관련이 있다.
⭐️ 잡음까지 학습하는 것을 막기 위해 홀드아웃 세트(검증세트)를 이용해야 한다.

👍 해결법

  • 단순히 알파를 n으로 나눠 더 엄격한 잣대를 준다.
  • 투키의 HSD를 이용한다.

🧐 투키의 HSD

  • 분산분석에서 사후검정으로 사용한다.

  • 사후검정은 분산분석에서 그룹 간 평균이 정확히 얼마나 다른지 보여준다.

  • 3가지 가정이 필요하다.
    1) 각 그룹의 관측치가 서로 독립적일 것
    2) 각 그룹의 분포가 정규분포를 따를 것
    3) 그룹 간 등분산이 성립할 것

  • But 모든 실험군의 사례 수가 같아야 한다.

0개의 댓글