P-해킹

김요한·2024년 8월 5일

통계학

목록 보기
26/30
post-thumbnail

1) P-해킹

  • 인위적으로 p-값을 낮추지 않을 수 있도록 조심해야함

p-해킹이란?

  • 데이터 분석을 반복하여 p-값을 인위적으로 낮추는 행위
  • 유의미한 결과를 얻기 위해 다양한 변수 시도, 데이터를 계속해서 분석하는 등의 방법을 포함.

문제점

  • p-해킹은 데이터 분석 결과의 신뢰성을 저하시킴.

2) p-해킹은 언제 조심해야하나?

여러 가설 검정을 시도 할 때

  • 여러 가설 검정을 시도, 유의미한 p-값을 얻을 때까지 반복 분석을 조심
  • p-해킹은 유의한 결과를 얻기 위해 p-값 0.05 이하인 결과만 선택적 보고하는 행위 조심
  • 데이터의 수를 늘리다보니 특정 데이터 수를 기록할 때 잠깐 0.05 이하를 기록함으로 이를 바탕으로 대립가설 채택하는 것 조심
  • 즉, 결과를 보며 데이터 개수를 틀려서는 안됨
  • 다양한 상황 중 p값이 유리하게 나오는 상황만 선별적으로 보고하는 것을 조심
  • 다양한 변수를 건드리며 유리한 결과가 나올 때 다시 처음 부터 가설을 그 결과에 맞게 세우는 것.
  • 즉, 마음에 드는 상황만 골라서 보고해도 안됨. 모든 결과를 다보고하거나 엄격한 추가실험을 수행
  • 가능한 가설을 미리 세우고 검증하는 가설검증형 방식으로 분석을 해야하며 만약 탐색적으로 분석한 경우 가능한 모든 변수를 보고하고 본페로니 보정과 같은 방법을 사용해야함.

0개의 댓글