다중검정은 더 이상 서로간의 1대1 대응으로 검정하는 것이 아닌 더 많은 대상들간의 유의성검정을 하는것을 말한다.
예를 들어, T검정의 경우 각각 A, B 웹페이지를 랜덤하게 보여준다고 가정했을때, A를 보였을때 머문시간, B를 보였을때 머문시간의 차이가 유의미한 차이인지를 유의성 검정을 하는것인데 이때는 각각의 p-value값이 0.05로서(0.05라고 가정) 100번을 했다고 가정했을때 적어도 다섯번은 통게적으로 유의미한 결과를 (실수로)초래할 가능성이 꽤 있다. 이를 1종오류(실제로 유의미 하지 않는것을 유의미 하다고 판단하는것) 라고 부른다.
그런데 만약에 A, B, C이렇게 세가지의 웹페이지를 보여준다고 가정하면 어떻게 될까?? 먼저 검정은 다음과 같이 시행이 될것이다.
이렇게 세번을 시행하게 되는데 이때도 마찬가지로 알파값을 0.05 라고 가정했을때 100번 모두 무의미 하다고 제대로 검정 결과를 보일 확률은 0.95 X 0.95 X 0.95= 0.36 이다. 즉, 적어도 다섯번의 예측이 유의미하다고 검정 결과가 나올 확률은
1 - 0.36(모든 시행에서 무의미하다는 결론이 나올 확률) = 0.64 이다. 이것을 알파 인플레이션 이라고 부르며, 이것이 다중검정을 위한 보정법이 나오게 된 계기가 된다.
따라서 더 많은 연구가 반드시 더 나은 연구를 의미하는것은 아니다. 유명한 예시로서 바이엘 제약회사는 67개의 과학 연구를 재현하려고 도전을 하였으나 그 중 14개만 성공을 하였고 나머지는 모두 실패하였습니다. 즉, 3분의 2는 재현에 성공하지 못한것입니다.
이를 해결하기 위한 방법중 하나인 FDR에 대해 설명해보고자 한다.
FDR 은 뜻을 직역하면 거짓 발견 비율 이라고 할 수 있는데, 이것은 내가 귀무가설을 기각 한 검정중 틀린것의 비율을 줄이자는 방식이라고 보면된다.
즉, 공식으로 보면 FP / (TP + FP)
FDR이외에도 여러 방법이 있지만 이러한 방법들은 정의가 너무분명하고, 이미 잘 구조화된 통계검정 수정 절차이다. 하지만 일반화 하기에는 특정한 상황을 위한 것이므로 다양한 분야에 종사하는 데이터과학자들이 적용하기에는 무리가 있다. 그렇다면 데이터 과학자들은 어떻게 해야하는 것일까??