다중검정(Multiple Comparison)

생각하는 마리오네트·2022년 1월 8일
0

통계

목록 보기
36/41

다중검정은 더 이상 서로간의 1대1 대응으로 검정하는 것이 아닌 더 많은 대상들간의 유의성검정을 하는것을 말한다.

예를 들어, T검정의 경우 각각 A, B 웹페이지를 랜덤하게 보여준다고 가정했을때, A를 보였을때 머문시간, B를 보였을때 머문시간의 차이가 유의미한 차이인지를 유의성 검정을 하는것인데 이때는 각각의 p-value값이 0.05로서(0.05라고 가정) 100번을 했다고 가정했을때 적어도 다섯번은 통게적으로 유의미한 결과를 (실수로)초래할 가능성이 꽤 있다. 이를 1종오류(실제로 유의미 하지 않는것을 유의미 하다고 판단하는것) 라고 부른다.

그런데 만약에 A, B, C이렇게 세가지의 웹페이지를 보여준다고 가정하면 어떻게 될까?? 먼저 검정은 다음과 같이 시행이 될것이다.

  1. A와 B가 서로 다른가?
  2. B와 C가 서로 다른가?
  3. C와 A가 서로 다른가?

이렇게 세번을 시행하게 되는데 이때도 마찬가지로 알파값을 0.05 라고 가정했을때 100번 모두 무의미 하다고 제대로 검정 결과를 보일 확률은 0.95 X 0.95 X 0.95= 0.36 이다. 즉, 적어도 다섯번의 예측이 유의미하다고 검정 결과가 나올 확률은
1 - 0.36(모든 시행에서 무의미하다는 결론이 나올 확률) = 0.64 이다. 이것을 알파 인플레이션 이라고 부르며, 이것이 다중검정을 위한 보정법이 나오게 된 계기가 된다.

따라서 더 많은 연구가 반드시 더 나은 연구를 의미하는것은 아니다. 유명한 예시로서 바이엘 제약회사는 67개의 과학 연구를 재현하려고 도전을 하였으나 그 중 14개만 성공을 하였고 나머지는 모두 실패하였습니다. 즉, 3분의 2는 재현에 성공하지 못한것입니다.

다중검정 보정 방법

이를 해결하기 위한 방법중 하나인 FDR에 대해 설명해보고자 한다.

FDR(False Discovery Rate)

FDR 은 뜻을 직역하면 거짓 발견 비율 이라고 할 수 있는데, 이것은 내가 귀무가설을 기각 한 검정중 틀린것의 비율을 줄이자는 방식이라고 보면된다.

즉, 공식으로 보면 FP / (TP + FP)

데이터 과학자로서의 다중검정에 대한 결론

FDR이외에도 여러 방법이 있지만 이러한 방법들은 정의가 너무분명하고, 이미 잘 구조화된 통계검정 수정 절차이다. 하지만 일반화 하기에는 특정한 상황을 위한 것이므로 다양한 분야에 종사하는 데이터과학자들이 적용하기에는 무리가 있다. 그렇다면 데이터 과학자들은 어떻게 해야하는 것일까??

  1. 예측(Predict) 모델링의 경우 Cross-Validation/ Hold-Out 두가지를 활용하여 우연히 발견한 것을 겉보기에 유효한것으로 보이는 모델을 만들 위험성을 낮추는 방법.
  2. 미리 분류되어 있는 Hold-Out Sample이 없는 다른 절차의 경우 다음 사항에 의존해야 한다.
  • 데이터를 더 여러번 사용하고 조작할 수록 우연이 더 큰 역할을 할 수 있다는 것을 인식해야 한다.
  • 재표본 추출과 시뮬레이션 결과들을 사용하여 무작위 모델의 기준값을 만들어 관찰된 결과를 비교한다.
profile
문제를해결하는도구로서의"데이터"

0개의 댓글