통계학 기초 06 가설검정의 주의점
6.1 재현 가능성
- 우연히 결과가 나오는 것이 아닌 항상 일관된 결과가 나오는지 확인
- 동일한 연구나 실험을 반복했을 때 일관된 결과가 나오는지 여부, 연구의 신뢰성을 높이는 중요한 요소
- 최근 p값에 대한 논쟁이 두드러지고 있음
- p값을 사용하지 않는 것이 좋다
- 유의수준을 0.05에서 변경하는 것이 좋다
- 가설검정 원리상의 문제나 가설검정의 잘못된 사용이 낮은 재현성으로 이어진다는 문제 발생
- 최근 논문을 다시 재현해서 실험을 해보는데 똑같은 결과가 나오지 않는 사례가 많음, 재현성 위기가 문제가 되고 있음
2) 재현성 위기의 원인
- 실험 조건을 동일 조성의 어려움
- 완전 동일하게 다시 똑같은 실험을 수행하는 것이 쉽지 않음
- 가설검정 자체도 100% 검정력을 가진 것이 아니기 때문에 오차가 발생 가능
- 가설검정 사용방법의 잘못
- p값이 0.05가 유도되게끔 조작하는 것이 가능(p해킹)
- 실제로는 통계적으로 아무 의미가 없음에도 의미 있다고 하는 제 1종 오류 발생
- 0.05라는 것은 100번 중에 5번 즉, 20번 중에 1번은 귀무가설이 옳음에도 불구하고 기각될 수 있음
- 유의수준으로 통제하는 것이 중요
- 유의 수준을 너무 낮추면 β값이 커져버리는 문제 발생
→ 유의수준을 0.005로 설정하면서 데이터 수를 70%이상 늘려 β 값을 컨트롤
- 잘못된 가설을 세우더라도 우연히 0.05보다 낮아서 가설이 맞는 것처럼 보일 수도 있음
→ 가능한 좋은 가설을 세우는 것도 중요
6.2 p-해킹
- 인위적으로 p-값을 낮추지 않을 수 있도록 조심
1) p-해킹
- 데이터 분석을 반복하여 p-값을 인위적으로 낮추는 행위
- 유의미한 결과를 얻기 위해 다양한 변수를 시도하거나, 데이터를 계속해서 분석하는 등의 방법을 포함
문제점 : p-해킹은 데이터 분석 결과의 신뢰성을 저하
2) p-해킹은 언제 조심?
- 여러 가설 검정을 시도 할때
- 여러 가설 검정을 시도하여 유의미한 p-값을 얻을 때까지 반복 분석하는 것을 조심
- p-해킹은 유의한 결과를 얻기 위해 p-값이 0.05 이하인 결과만 선택적으로 보고하는 행위를 조심
- 데이터의 수를 늘리다보니 특정 데이터 수를 기록할 때 잠깐 p값이 0.05 이하를 기록함으로 이를 바탕으로 대립가설 채택하는 것을 조심
- 결과를 보며 데이터 개수를 늘려서는 안됨
- 다양한 상황 중에 p값이 유리하게 나오는 상황만 선별적으로 보고하는 것을 조심
- 다양한 변수를 건드리며 유리한 결과가 나올 때 다시 처음부터 가설을 그 결과에 맞게 세우는 것
- 모든 결과를 모두 보고하거나 더 엄격한 추가실험을 수행
- 가설을 먼저 세우고 가설을 검증하는 가설검증형 방식으로 분석
탐색적으로 분석할 경우 모든 변수를 보고하고 본페로니 보정과 같은 방법을 활용
6.3 선택적 보고
- 유의미한 결과만을 보고하고, 유의미하지 않은 결과는 보고하지 않는 행위
- 데이터 분석의 결과를 왜곡하고, 신뢰성을 저하시킴
유의미한 결과만 공개할 때
결과를 보면서 가설을 다시 새로 설정했는데 마치 처음부터 설정한 가설이라고 얘기할 때 주의
6.4 자료 수집 중단 시점 결정
- 원하는 결과가 나올 때 까지 자료를 수집하는 것을 조심
- 데이터 수집을 시작하기 전에 언제 수집을 중단할지 명확하게 결정하지 않으면, 원하는 결과가 나올 때까지 데이터를 계속 수집할 수 있음. 이는 결과의 신뢰성을 떨어뜨림
- 결과를 이미 정해 놓고 자료수집을 할 때
6.5 데이터 탐색과 검증 분리
- 검증하기 위한 데이터는 반드시 따로 분리 해놓아야함
1) 데이터 탐색과 검증 분리란 무엇인가?
- 데이터 탐색과 검증 분리
- 데이터 탐색을 통해 가설을 설정하고, 이를 검증하기 위해 별도의 독립된 데이터셋을 사용하는 것
- 이는 데이터 과적합을 방지하고 결과의 신뢰성을 높임
2) 데이터 탐색과 검증 분리는 언제 사용해야하는가?
- 검증하기 위한 데이터가 따로 필요할 때
- 데이터셋을 탐색용(training)과 검증용(test)으로 분리하여 사용