임상 시험 수행 전 표본의 수를 먼저 정하고 임상 연구를 진행하는 게 일반적이므로 필요한 연구 대상자 수의 산출이 중요한 문제!
먼저 통계적 가설검정과 오류의 개념을 복습해보면...
제 1 종의 오류 (Type I error)
귀무가설이 참인데 이를 기각하는 오류
임상 실험의 case로 보면 신약이 효과가 없는 데 효과가 있다고 잘못된 결론을 내리는 경우 False Positive
(->covid 백신의 효과가 실제론 없는 데도 백신의 효과가 있다고 판단하는 경우)
제 2 종의 오류 (Type II error)
귀무가설이 거짓임에도 기각하지 않고 대립가설을 기각하고 귀무가설을 받아들이는 경우
임상 실험의 case로 보면 신약이 효과가 실제로 있음에도 효과가 없다고 잘못된 결론을 내리는 경우 False Negative
2종 오류의 경우 효과적인 약이 허가를 받지 못해서 개발한 기관만 손해를 보는 경우지만, 1종 오류의 경우는 효과가 없는 약을 효과가 있다고 판단하는 경우이기 때문이다
검정력의 정의
2종 오류를 범할 확률을 β라고 하면 검정력(power)은 1-β
두 집단의 표본의 수를 n이라고 하고 모집단의 분산 σ^2을 알고 있다고 가정하고 가설 검정은 두 표본 평균 X hat 와 Y hat을 이용한 z-통계량을 이용한다고 가정!
양측 가설의 귀무가설을 기각하려면 z-통계량 값의 절대값이 커야 하고 어떤 양수인 c에 대하여 기각한다고 해보자:)
귀무가설이 옳은 경우에 z-통계량은 아래의 표준정규분포를 따른다!
1종 오류가 유의수준 α과 같아지도록 정하고 이를 수식으로 표현하면,
유의 수준 α는 보통 5%로 정한다고 할때, 기각역은 아래와 같이 표현한다.
약의 효과가 있는 경우, 평균의 차이 δ > 0의 값이 주어진 가설을 고려하면:)
신약의 효과가 보여지려면 z-통계량이 z(α/2) 보다 커야 함:)
검정력 계산 식
대립 가설인 µ1 − µ2 = δ이 참인 경우 z-통계량이 표준정규분포를 따른다는 사실을 이용함:)
평균의 차이 δ, 유의수준 α, 제 2 종의 오류를 범할 확률 β 그리고 표준편차 σ의 값이 주어진다면 정해지지 않은 값이 표본의 개수 n이어서 아래의 방정식을 풀 수 있음:)
처리 그룹이 2개이기때문에 전체적으로 필요한 연구 대상자의 수는 2*n명임!!
위의 식에서 δ = µ1 − µ2 를 표중편차 σ로 나눈 값 ((µ1 − µ2)/σ)
->표준화된 평균의 차이로 봄
표본의 크기는 유효크기의 제곱에 반비례 하는 형태를 나타냄
References
https://ilovedata.github.io/teaching/biostat/sample-size-01.pdf