p-value: 통계적 유의미성이 효과 크기를 보장하는가?

SeongGyun Hong·2025년 2월 28일
0

데이터 분석

목록 보기
11/11

1. p-value란?

p-value란, 귀무가설이 일 때 관찰된 데이터와 같거나 더 극단적인 결과가 우연히 발생할 확률을 의미한다
쉽게 말하자면,우연히 또는 자연스레 이런 결과가 나올 확률이 바로 p-value 인 것.

역설적으로, p-value가 낮으면, 우리가 관찰한 현상이 단순한 우연이 아닐 가능성이 높다는 뜻이 된다.

그렇기에 p-value가 실험에서 설정한 유의 수준보다 낮은 경우에 귀무가설을 기각하고, 그 결과 대립가설이 더 타당하다고 결론내려진다.

귀무가설
연구나 실험에서 차이가 없다 또는 효과가 없다는 기본 가정을 의미한다.
통계적 검정의 시작점이 되는 것으로, 데이터를 통하여 이 가정이 옳지 않음을 보여줄 증거를 찾게 된다.

대립가설
귀무가설에 반대되는 가설로, 차이가 있다거나 효과가 있다는 주장을 담고 있다.
데이터를 통해 귀무가설이 기각되면, 대립가설이 지지된다고 결론내리게 된다.


2. p-value의 계산 과정

2.1 귀무가설 설정 및 검정 통계량 선택

  • 먼저 연구에서 차이가 없다 혹은 효과가 없다는 가정을 귀무가설로 세운다.
  • 그 다음, 데이터에 맞는 검정 통계량(ex. z t 카이제곱 등)을 선택한다.

2.2 검정 통계량 계산

  • 관찰한 데이터를 바탕으로 선택한 검정 통계량의 값을 계산한다.
  • 예를 들어, 두 그룹 간 평균 차이를 비교하는 t-검정에서는 두 그룹의 평균과 표준편차를 이용하여 t-값을 구한다.

2.3 확률 분포 결정

  • 귀무가설이 참이라는 가정 하에, 검정 통계량이 따르는 확률 분포(ex. 표준정규분포 t분포)를 결정한다.

2.4 p-value 계산

  • 계산된 검정 통계량이 분포상 어느 위치에 있는지를 확인하고, 그보다 극단적인 값이 나올 확률을 구한다.
  • 한쪽 검정
    예를 들어, 오른쪽 꼬리 검정이라면 p-value 값은 관찰된 값보다 큰 값이 나올 확률로 계산된다.
  • 양쪽 검정
    관찰값의 절대값보다 더 극단적인 값이 양쪽 꼬리에서 나올 확률의 합(보통 2배로 계산)을 구한다.
  • 수학적으로는 p-value = ∫[관찰값, ∞) f(x) dx (또는 양쪽 꼬리의 경우 두 배)와 같이 확률 밀도 함수(f(x))를 적분하는 방식으로 계산된다.

2.5 해석 및 결론 도출

  • p-value와 사전에 정한 유의수준(ex. 0.05)을 비교하여, 귀무가설을 기각할지 여부를 결정한다.

3. 동전던지기 예시

  • 실험 상황:
    10번 동전을 던졌을 때, 앞면이 8번 나왔다고 가정.

  • 귀무가설(H₀):
    동전은 공정하여 앞면이 나올 확률이 0.5이다.

  • 대립가설(H₁):
    동전은 공정하지 않다. (여기서는 한쪽 방향, 즉 앞면이 나올 확률이 0.5보다 크다는 가설로 할 수도 있음.)

  • p-value의 정의:
    p-value는 귀무가설이 참일 때, 관찰된 결과(혹은 그보다 극단적인 결과)가 나타날 확률을 의미.
    이 예에서는 "공정한 동전으로 10번 던졌을 때 앞면이 8번 이상 나올 확률"을 계산함.

3.1 구체적인 수식

동전 던지기는 이항분포를 따른다.

이항분포두가지 결과(성공/실패)만 가능한 독립된 시행을 여러번 했을 때 성공의 횟수를 나타내는 확률 분포이며, 다음을 만족함
1. 각 시행은 독립적임.
2. 각 시행에서 성공할 확률 p는 일정함.
3. 각 시행의 결과는 성공 또는 실패 두가지 결과만 나옴.

따라서, 한 번 앞면이 나올 확률 p=0.5p = 0.5이고, 총 던진 횟수 n=10n = 10일 때,
kk번 앞면이 나올 확률은

P(X=k)=(nk)pk(1p)nkP(X = k) = \binom{n}{k} p^k (1-p)^{n-k}

이다.

3.2 p-value 계산 과정

관찰된 결과는 앞면이 8번 나왔으므로,
p-value는 k=8,9,10k = 8, 9, 10인 경우의 확률 합이다.

p-value=P(X8)=k=810(10k)(0.5)10\text{p-value} = P(X \geq 8) = \sum_{k=8}^{10} \binom{10}{k} (0.5)^{10}

각 항을 계산해보면

  • k=8k = 8인 경우:

    (108)=45,P(X=8)=45×(0.5)10=4510240.04395\binom{10}{8} = 45,\quad P(X=8)=45 \times (0.5)^{10} = \frac{45}{1024} \approx 0.04395
  • k=9k = 9인 경우:

    (109)=10,P(X=9)=10×(0.5)10=1010240.00977\binom{10}{9} = 10,\quad P(X=9)=10 \times (0.5)^{10} = \frac{10}{1024} \approx 0.00977
  • k=10k = 10인 경우:

    (1010)=1,P(X=10)=1×(0.5)10=110240.00098\binom{10}{10} = 1,\quad P(X=10)=1 \times (0.5)^{10} = \frac{1}{1024} \approx 0.00098

이제 세 값을 합산하면 아래와 같다.

p-value=45+10+11024=5610240.0547\text{p-value} = \frac{45 + 10 + 1}{1024} = \frac{56}{1024} \approx 0.0547

3.3 해석

  • p-value ≈ 0.0547:
    이는 귀무가설(동전이 공정하다)이 참일 때, 10번 던져서 앞면이 8번 이상 나올 확률이 약 5.47%임을 의미함.
  • 만약 유의수준을 0.05(5%)로 설정했다면, p-value가 약간 높으므로 귀무가설을 기각하기에는 부족하다는 결론을 내릴 수 있음.
    즉, 귀무가설은 유지됨

4. p-value는 요즘 시대에도 유효한가?

물론 통계적인 유의미성이 효과의 크기를 담보해주지 않기에, p-value 하나만으로 가설을 검정하는 것은 다소 무리가 있을 수 있다. 즉, p-value단일 척도인 바, 귀무가설 하에서 관찰된 데이터보다 극단적인 결과가 나타날 확률만을 알려주기에 이것이 과연 통계적으로 유의미함을 넘어서 실제로 임상적 실무적으로 의미가 있는지는 p-value만으로 판단할 수 없는 것이다.

다만, 그렇다고 p-value 자체가 현대에 들어와 무의미해진 것은 아니다.
현대 통계 분석은 p-value에 더하여 효과 크기, 신뢰 구간, 베이지안 분석등 다양한 척도를 함께 사용하여 단순한 통계적 유의미성 검정 보다, 실제 효과의 크기와 신뢰도를 더 잘 반영하기 위해 노력하는 바, 결국 p-value는 다른 분석기법들과 함께 사용되며 더 정교한 통계 분석 결과를 제공하는 데 여전히 쓰이고 있는 것이다.


5. p-value가 실제를 호도하는 경우

5.1 표본 크기의 영향

  • 너무 큰 표본
    미미한 차이도 통계적으로 유의하게 나와서 실제 중요성이 과대평가될 수도 있다.
    왜냐하면, 표본의 크기가 매우 크면 미세한 차이더라도 (예를 들어 평균 혈압이 1mmHg 감소한 경우) 이를 감지해내기 쉬워진다.
    다만, p-value 자체는 중요성그 자체를 의미하지 않는바, 미세한 차이 그 자체가 단순 우연히 발생할 가능성이 매우 낮아 실제 대립가설이 지지되었더라도, 실제로는 그 차이 (예를 들어 신약으로 인해 평균 혈압이 1mmHg 감소한 경우)가 실질적이지 않은 경우가 있을 수 있다.
    그런데, 단순히 p-value가 큰 표본을 통해 낮게 나와 대립가설이 지지되었다면, 그것을 보고 신약이 효과가 있다라고 말하기는 어려울 것이다.

  • 너무 작은 표본
    위와는 반대로 표본이 너무 작은 경우에는, 실제 중요한 효과를 가진 대립가설이라도 하더라도, 검정력이 부족하여 p-value가 높게 나올 수도 있다. 즉, 우연히 혈압이 낮게 나올 확률이 작은 표본으로 인해 높아진다는 것.
    이런 경우에는 위의 너무 큰 표본의 경우와 반대로 중요한 효과를 단순히 p-value가 높다는 이유로 간과하게 되는 것.

5.2 다중 비교 문제

  • 상황
    어떤 연구에서 20개의 서로 다른 효과를 테스트할 때에 각 효과에 대하여 효과가 있다 라는 대립가설을 세울 때에 유의수준을 5%로 한다면, 애당초 아무런 효과가 없더라도 20개중에서 평균적으로 1개 정도는 우연히 5%(1/20)확률로 유의미한 결과가 나올 수 있다.

  • 문제점
    만약 각 가설을 독립적으로 0.05의 기준만으로 판단하게 된다면, 위와 같이 실제로는 아무 효과도 없는데도 우연에 의하여 효과가 있다라는 잘못된 결론에 이르게 되는 것이다.

  • 해결 방법
    이러한 문제를 피하기 위해서 보니페로니 보정과 같은 통계적 보정을 사용하여 여러 검정에 대한 전체 유의수준을 조정한다.
    예를 들어서 20개의 가설을 테스트하는 경우에는 각 개별 테스트의 유의수준을 0.05 대신 0.05를 다시 20으로 나눈 0.0025로 설정하는 것이다.
    이렇게 하면, 전체적으로 잘못된 결론을 내릴 확률을 낮출 수 있다.

  • 결론
    여러 가설을 동시검정하는 경우 우연히 유의미한결과가 나올 확률이 커지기 때문에 적절히 보정을 하지 않으면 실제 무의미한 결과를 유의미하다고 받아들일 위험이 있다.

5.3 p-hacking(데이터 낚시)

  • 어렵지 않다. 이건 그냥 연구자가 의도적으로 또는 무의식적으로 데이터를 여러 방식으로 분석하여 낮은 p-value를 얻는 것을 의미한다.
  • 이 경우에 분석 방법을 무엇을 사용하느냐에 따라 p-value가 낮아져 실제 효과보다 유의미한 결과처럼 보일 수 있다.

5.4 모델 가정의 위반

  • 통계적 모델은 대개 특정한 가정을 따른다. 예컨데, 데이터가 정규분포를 따른다거나, 관측치들이 독립적이라는 것이다
    만약, 이러한 가정이 충족되지 않은 채로 p-value 계산이 이루어진다면, 이것은 대전제가 충족되지 않았기 때문에 왜곡된 결과를 유도할 수 있다.

profile
헤매는 만큼 자기 땅이다.

0개의 댓글