📚 다중검정
여러 개의 가설검정을 동시에 시행하는 것.
이는 문제가 있다.
😱 다중검정의 문제-알파 인플레이션
- 예를 들어, 20개의 예측변수와 1개의 결과변수가 모두 임의로 생성되었다고 하자. 그리고 이걸 가지고 유의수준 5%에서 20번 다중검정을 시행한다고 하자.
- 그러면 20번 수행에서 적어도 한 번은 '통계적으로 유의하다' 라는 결과가 나오게 된다(유의수준 5%이므로).
- 적어도 1회 이상 '통계적으로 유의하다' 라는 결과를 낼 확률을 해보면, 1−0.9520=0.64이다.
- 따라서 다중검정 시에는 유의확률이 중첩되므로 1종 오류를 범할 확률이 급증하는데, 이를 알파 인플레이션이라고 한다.
💡 이 문제는 데이터 마이닝에서 모델이 잡음까지 학습하는 과대적합 문제와도 관련이 있다.
⭐️ 잡음까지 학습하는 것을 막기 위해 홀드아웃 세트(검증세트)를 이용해야 한다.
👍 해결법
- 단순히 알파를 n으로 나눠 더 엄격한 잣대를 준다.
- 투키의 HSD를 이용한다.
🧐 투키의 HSD
-
분산분석에서 사후검정으로 사용한다.
-
사후검정은 분산분석에서 그룹 간 평균이 정확히 얼마나 다른지 보여준다.
-
3가지 가정이 필요하다.
1) 각 그룹의 관측치가 서로 독립적일 것
2) 각 그룹의 분포가 정규분포를 따를 것
3) 그룹 간 등분산이 성립할 것
-
But 모든 실험군의 사례 수가 같아야 한다.