p-value란, 귀무가설이 참
일 때 관찰된 데이터와 같거나 더 극단적인 결과가 우연히 발생할 확률을 의미한다
쉽게 말하자면,우연히 또는 자연스레 이런 결과가 나올 확률
이 바로 p-value 인 것.
역설적으로, p-value가 낮으면, 우리가 관찰한 현상이 단순한 우연이 아닐 가능성이 높다는 뜻이 된다.
그렇기에 p-value가 실험에서 설정한 유의 수준
보다 낮은 경우에 귀무가설을 기각하고, 그 결과 대립가설이 더 타당하다고 결론내려진다.
귀무가설
연구나 실험에서차이가 없다
또는효과가 없다
는 기본 가정을 의미한다.
통계적 검정의 시작점이 되는 것으로, 데이터를 통하여 이 가정이 옳지 않음을 보여줄 증거를 찾게 된다.대립가설
귀무가설에 반대되는 가설로,차이가 있다
거나효과가 있다
는 주장을 담고 있다.
데이터를 통해 귀무가설이 기각되면, 대립가설이 지지된다고 결론내리게 된다.
차이가 없다
혹은 효과가 없다
는 가정을 귀무가설로 세운다.z
t
카이제곱
등)을 선택한다.t-검정
에서는 두 그룹의 평균과 표준편차를 이용하여 t-값
을 구한다.표준정규분포
t분포
)를 결정한다.p-value
값은 관찰된 값보다 큰 값이 나올 확률로 계산된다.p-value
와 사전에 정한 유의수준(ex. 0.05)을 비교하여, 귀무가설을 기각할지 여부를 결정한다.실험 상황:
10번 동전을 던졌을 때, 앞면이 8번 나왔다고 가정.
귀무가설(H₀):
동전은 공정하여 앞면이 나올 확률이 0.5이다.
대립가설(H₁):
동전은 공정하지 않다. (여기서는 한쪽 방향, 즉 앞면이 나올 확률이 0.5보다 크다는 가설로 할 수도 있음.)
p-value의 정의:
p-value는 귀무가설이 참일 때, 관찰된 결과(혹은 그보다 극단적인 결과)가 나타날 확률을 의미.
이 예에서는 "공정한 동전으로 10번 던졌을 때 앞면이 8번 이상 나올 확률"을 계산함.
동전 던지기는 이항분포를 따른다.
이항분포란
두가지 결과(성공/실패)
만 가능한 독립된 시행을 여러번 했을 때 성공의 횟수를 나타내는 확률 분포이며, 다음을 만족함
1. 각 시행은 독립적임.
2. 각 시행에서 성공할 확률 p는 일정함.
3. 각 시행의 결과는 성공 또는 실패 두가지 결과만 나옴.
따라서, 한 번 앞면이 나올 확률 이고, 총 던진 횟수 일 때,
번 앞면이 나올 확률은
이다.
관찰된 결과는 앞면이 8번 나왔으므로,
p-value는 인 경우의 확률 합이다.
각 항을 계산해보면
인 경우:
인 경우:
인 경우:
이제 세 값을 합산하면 아래와 같다.
0.05(5%)
로 설정했다면, p-value가 약간 높으므로 귀무가설을 기각하기에는 부족하다는 결론을 내릴 수 있음.즉, 귀무가설은 유지됨
물론 통계적인 유의미성이 효과의 크기를 담보해주지 않기에, p-value 하나만으로 가설을 검정하는 것은 다소 무리가 있을 수 있다. 즉, p-value는 단일 척도
인 바, 귀무가설 하에서 관찰된 데이터보다 극단적인 결과가 나타날 확률만을 알려주기에 이것이 과연 통계적으로 유의미함을 넘어서 실제로 임상적
실무적
으로 의미가 있는지는 p-value만으로 판단할 수 없는 것이다.
다만, 그렇다고 p-value 자체가 현대에 들어와 무의미해진 것은 아니다.
현대 통계 분석은 p-value에 더하여 효과 크기, 신뢰 구간, 베이지안 분석등 다양한 척도를 함께 사용하여 단순한 통계적 유의미성 검정 보다, 실제 효과의 크기와 신뢰도를 더 잘 반영하기 위해 노력하는 바, 결국 p-value는 다른 분석기법들과 함께 사용되며 더 정교한 통계 분석 결과를 제공하는 데 여전히 쓰이고 있는 것이다.
너무 큰 표본
미미한 차이도 통계적으로 유의하게 나와서 실제 중요성이 과대평가될 수도 있다.
왜냐하면, 표본의 크기가 매우 크면 미세한 차이더라도 (예를 들어 평균 혈압이 1mmHg 감소한 경우) 이를 감지해내기 쉬워진다.
다만, p-value 자체는 중요성그 자체를 의미하지 않는바, 미세한 차이 그 자체가 단순 우연히 발생할 가능성이 매우 낮아 실제 대립가설이 지지되었더라도, 실제로는 그 차이 (예를 들어 신약으로 인해 평균 혈압이 1mmHg 감소한 경우)가 실질적이지 않은 경우가 있을 수 있다.
그런데, 단순히 p-value가 큰 표본을 통해 낮게 나와 대립가설이 지지되었다면, 그것을 보고 신약이 효과가 있다
라고 말하기는 어려울 것이다.
너무 작은 표본
위와는 반대로 표본이 너무 작은 경우에는, 실제 중요한 효과를 가진 대립가설이라도 하더라도, 검정력이 부족하여 p-value가 높게 나올 수도 있다. 즉, 우연히 혈압이 낮게 나올 확률이 작은 표본으로 인해 높아진다는 것.
이런 경우에는 위의 너무 큰 표본의 경우와 반대로 중요한 효과를 단순히 p-value가 높다는 이유로 간과하게 되는 것.
상황
어떤 연구에서 20개의 서로 다른 효과를 테스트할 때에 각 효과에 대하여 효과가 있다
라는 대립가설을 세울 때에 유의수준을 5%로 한다면, 애당초 아무런 효과가 없더라도 20개중에서 평균적으로 1개 정도는 우연히 5%
(1/20
)확률로 유의미한 결과가 나올 수 있다.
문제점
만약 각 가설을 독립적으로 0.05의 기준만으로 판단하게 된다면, 위와 같이 실제로는 아무 효과도 없는데도 우연에 의하여 효과가 있다
라는 잘못된 결론에 이르게 되는 것이다.
해결 방법
이러한 문제를 피하기 위해서 보니페로니 보정
과 같은 통계적 보정을 사용하여 여러 검정에 대한 전체 유의수준을 조정한다.
예를 들어서 20개의 가설을 테스트하는 경우에는 각 개별 테스트의 유의수준을 0.05 대신 0.05를 다시 20으로 나눈 0.0025로 설정하는 것이다.
이렇게 하면, 전체적으로 잘못된 결론을 내릴 확률을 낮출 수 있다.
결론
여러 가설을 동시검정하는 경우 우연히 유의미한결과가 나올 확률이 커지기 때문에 적절히 보정을 하지 않으면 실제 무의미한 결과를 유의미하다고 받아들일 위험이 있다.