가설검정

choyunjeong·2024년 12월 22일

5.1 검정의 기본 요소

검정통계량: 주어진 랜덤표본 X1,X2,,XnX_1,X_2,\ldots,X_n에 근거하여 통계적 가설에 대한 증거를 살펴볼 때 사용되는 통계량

기각영역 (C)(C): 귀무가설을 기각하게 되는 검정통계량의 값을 가지는 표본공간의 부분집합

\\[20pt]

예 5.2
X1,X2,,XnX_1,X_2,\ldots,X_n가 정규분포 N(μ,102)N(\mu,10^2)으로부터 구한 랜덤표본이라 하고, 다음 가설을 고려해보자.

H0:μ=100H1:μ=105H_0: \mu=100 \quad H_1: \mu=105

검정통계량 Xˉn\bar{X}_n:완비 충분통계량, 최대가능도 추정량, 적률추정량, 최소분산 비편향추정량
기각영역: {(x1,x2,,x25):xˉ25c}\{(x_1,x_2,\ldots,x_{25}):\bar{x}_{25}\ge c\} or {xˉ25c}\{\bar{x}_{25}\ge c\}
대립가설에 주어진 모평균 값이 귀무가설에 주어진 모평균의 값보다 크므로 표본평균이 클 때 귀무가설을 기각하는 것은 합리적이다.

제 1종 오류 (α)(\alpha): 귀무가설이 참인데 기각하는 경우
제 2종 오류 (β)(\beta): 귀무가설이 참이 아닌데 기각하지 않게 되는 경우

유의수준 (α)(\alpha): 귀무가설이 참인데 귀무가설을 기각하는, 제 1종 오류를 범할 확률

P[(X1,X2,,Xn)CH0]=Cf(x1,x2,,xnH0)dx1dx2xnP[(X_1,X_2,\ldots,X_n)\in C|H_0]=\int_{C}f(x_1,x_2,\ldots,x_n|H_0)dx_1dx_2\ldots x_n

\\[20pt]

예 5.4
앞의 예 5.2에서 기각영역을 {(x1,x2,,x25):xˉ25104}\{(x_1,x_2,\ldots,x_{25}):\bar{x}_{25}\ge 104\}라고 가정하자. 이때 제 1종 오류를 범할 확률 α\alpha와 제 2종 오류를 범할 확률 β\beta는 각각 다음과 같이 계산된다.

α=P(Xˉ25104μ=100)=P[25(Xˉ25100)1025(104100)10μ=100]=1ϕ(2)=0.0228\begin{aligned} \alpha&=P(\bar{X}_{25}\ge 104|\mu=100) \\[10pt] &= P\left[\left.\dfrac{\sqrt{25}(\bar{X}_{25}-100)}{10}\ge \dfrac{\sqrt{25}(104-100)}{10}\right|\mu=100\right] \\[15pt] &=1-\phi(2) \\[10pt] &=0.0228 \end{aligned}

\\[20pt]

β=P(Xˉ25<104μ=105)=P[25(Xˉ25105)1025(104105)10μ=105]=ϕ(0.5)=0.3085\begin{aligned} \beta&=P(\bar{X}_{25}< 104|\mu=105) \\[10pt] &= P\left[\left.\dfrac{\sqrt{25}(\bar{X}_{25}-105)}{10}\ge \dfrac{\sqrt{25}(104-105)}{10}\right|\mu=105\right] \\[15pt] &=\phi(-0.5) \\[10pt] &=0.3085 \end{aligned}

\\[20pt]

정의 5.2
이제 랜덤표본 X1,X2,,XnX_1,X_2,\ldots,X_n을 얻은 모집단의 분포가 모수 θ\theta에 의해 특정지어 질 때, 검정력함수를 다음과 같이 정의한다.

귀무가설 H0H_0에 대한 기각영역이 CC인 검정의 검정력함수는

π(θ)=P[(X1,X2,,Xn)Cθ]\pi(\theta)=P[(X_1,X_2,\ldots,X_n)\in C|\theta]

즉, 귀무가설을 기각하는 확률로 정의된다. 그러므로 θ\theta가 대립가설에 속하는 값이면 검정력이 큰 것이 좋고, 귀무가설에 속하는 값이면 검졍력이 작은 것이 좋다. 검정력함수는 모수 θ\theta의 참값이 무엇이냐에 따라 다른 값을 가지게 되므로 θ\theta의 함수이다.

\\[20pt]

예 5.5
앞의 예 5.4에서 기각영역을 {xˉ25104}\{\bar{x}_{25}\ge 104\}라고 했을 때 검정력 μ=100, 105\mu=100,\ 105을 구했다. 이제 μ>100\mu>100인 모든 점에 대해서 검정력을 구해보자.

π(μ)=P(Xˉ25104μ)=P[25(Xˉ25μ)1025(104μ)10μ]=1ϕ(104μ2)\begin{aligned} \pi(\mu)&=P(\bar{X}_{25}\ge 104|\mu) \\[10pt] &= P\left[\left.\dfrac{\sqrt{25}(\bar{X}_{25}-\mu)}{10}\ge \dfrac{\sqrt{25}(104-\mu)}{10}\right|\mu\right] \\[15pt] &=1-\phi\left(\dfrac{104-\mu}{2}\right) \end{aligned}

\\[30pt]

5.2 최강력 검정법

표본의 크기가 정해져 있는 경우 제 1종 오류와 제 2종 오류를 둘다 최소로 만드는 검정법을 찾는 것은 불가능하므로 합리적 대안으로 제 1종 오류를 범할 확률을 미리 주어진 작은 값으로 제한하고 검정력을 최대화하는 방법.

정의 5.3
최강력 검정법의 기각영역: H0:θ=θ0vsH1:θ=θ1H_0: \theta=\theta_0\quad \text{vs}\quad H_1: \theta=\theta_1에 대한 기각영역 CC^*가 다음 두 가지 조건을 만족할 때 이를 유의수준이 α\alpha인 최강력 (검정법의) 기각영역이라고 한다.

  • π(θ0)=α\pi^*(\theta_0)=\alpha (π\pi^*를 기각영역 CC^*에 해당하는 검정력함수)
  • 유의수준이 α\alpha인 임의의 기각영역 CC에 대한 검정력함수가 π\pi일 때, π(θ1)π(θ1)\pi^*(\theta_1)\ge\pi(\theta_1) 성립.

예 5.7 본문 p.282참조

또한 귀무가설을 기각할지 판단할 경우에 표본을 통한 f(xθ0)/(xθ1)f(x|\theta_0)/(x|\theta_1)의 비를 이용하여 이 값이 크면 귀무가설을 기각할 이유가 없고 작으면 귀무가설을 기각할 근거를 갖는다. 이 개념은 다음 네이만-피어슨 정리의 가능도비에 해당된다.

5.2.1 네이만-피어슨 정리

정리 5.1
(네이만-피어슨 정리) 랜덤표본 X1,X2,,XnX_1,X_2,\ldots,X_n의 결합 확률밀도함수가 f(x1,x2,,xn;θ)f(x_1,x_2,\ldots,x_n;\theta)로 주어지고, 다음의 단순가설을 검정하고자 한다.

H0:θ=θ0vsH0:θ=θ1H_0:\theta=\theta_0\quad \text{vs}\quad H_0:\theta=\theta_1

표본공간의 어떤 부분집합 CC^*가 어떤 상수 k>0k>0에 대하여 다음을 만족한다면 CC^*는 이 가설검정의 유의수준인 α\alpha인 최강력 검정법의 기각영역이 된다.

  • (x1,x2,,xn)C(x_1,x_2,\ldots,x_n)\in C^*(x1,x2,,xn)(x_1,x_2,\ldots,x_n)에 대하여
    LR(θ0,θ1)=L(θ0;x1,x2,,xn)/L(θ1;x1,x2,,xn)kLR(\theta_0,\theta_1)=L(\theta_0;x_1,x_2,\ldots,x_n)/L(\theta_1;x_1,x_2,\ldots,x_n)\le k
    \\[15pt]
  • (x1,x2,,xn)C(x_1,x_2,\ldots,x_n)\notin C^*(x1,x2,,xn)(x_1,x_2,\ldots,x_n)에 대하여
    LR(θ0,θ1)=L(θ0;x1,x2,,xn)/L(θ1;x1,x2,,xn)kLR(\theta_0,\theta_1)=L(\theta_0;x_1,x_2,\ldots,x_n)/L(\theta_1;x_1,x_2,\ldots,x_n)\ge k
    \\[15pt]
  • P[(X1,X2,,Xn)Cθ0]=αP[(X_1,X_2,\ldots,X_n)\in C^*|\theta_0]=\alpha

\\[20pt]

예 5.8
XB(n,p)X\sim B(n,p)에 근거하여

H0:p=p0vsH0:p=p1 (>p0)H_0:p=p_0\quad \text{vs}\quad H_0:p=p_1\ (>p_0)

에 대한 검정방법을 구해 보자. 가능도비는

LR(p0,p1;x)=(nx)p0x(1p0)nx(nx)p1x(1p1)nxLR(p_0,p_1;x)=\dfrac{\binom{n}{x}p_0^x(1-p_0)^{n-x}}{\binom{n}{x}p_1^x(1-p_1)^{n-x}}

가 된다. 그런데 양의 상수 kk에 대하여 LR(p0,p1;x)kLR(p_0,p_1;x)\le k가 성립한다는 것은 어떤 다른 상수 k1k_1에 대하여

[p0(1p1)p1(1p0)]xk1\left[\dfrac{p_0(1-p_1)}{p_1(1-p_0)}\right]^x\le k_1

또는 양변에 log\log를 취하여

xlog[p0(1p1)p1(1p0)]logk1x\log\left[\dfrac{p_0(1-p_1)}{p_1(1-p_0)}\right]\le \log k_1

이 성립하는 것과 동등하다. 한편 p1>p0p_1>p_0로부터 p0(1p1)/p1(1p0)<1p_0(1-p_1)/p_1(1-p_0)<1이므로 log\text{log}를 취하면 음수가 된다. 즉,

xk2x\ge k_2

와 동등하다. 따라서 네이만-피어슨 정리에 의해 가설에 대한 최강력 검정법의 기각영역은 C={x:xk2}C^*=\{x:x\ge k_2\}의 형태로 주어진다 (k2>0)(k_2>0).

귀무가설 H0H_0하에서

P[(X1,X2,,Xn)CH0]=P(Xi)=i=1n(nx)p0x(1p0)nx\begin{aligned} P[(X_1,X_2,\ldots, X_n)\in C|H_0] &=P(X\ge i) \\ &=\sum_{i=1}^{n}\binom{n}{x}p_0^x(1-p_0)^{n-x} \end{aligned}

이므로 기각영역 C={x:xi}C^*=\{x:x\ge i\}의 유의수준은

α=i=1n(nx)p0x(1p0)nx\alpha=\sum_{i=1}^{n}\binom{n}{x}p_0^x(1-p_0)^{n-x}

로 주어진다. 참고로 [p0(1p1)p1(1p0)]\left[\dfrac{p_0(1-p_1)}{p_1(1-p_0)}\right]이 음수이지만 log k1\text{log }k_1도 음수이기 때문에 k2k_2는 양수이다. k1k_1이 1보다 크다면 모든 xx값에서 [p0(1p1)p1(1p0)]x\left[\dfrac{p_0(1-p_1)}{p_1(1-p_0)}\right]^xk1k_1보다 작아서 항상 귀무가설을 기각해야 하므로 k1k_1이 1보다 작은 경우만 고려해야 한다.

\\[20pt]

예 5.10
X1,X2,,XnX_1,X_2,\ldots,X_n이 지수분포 EXP(λ)\text{EXP}(\lambda)로부터 구한 랜덤표본이라고 하자

H0:λ=λ0vsH0:λ=λ1 (>λ0)H_0:\lambda=\lambda_0\quad \text{vs}\quad H_0:\lambda=\lambda_1\ (>\lambda_0)

에 대한 가능도비는 다음과 같이 주어진다.

LR(λ0,λ1;x1,x2,,xn)=λ0nexp(i=1nxi/λ0)λ1nexp(i=1nxi/λ1)=(λ1λ0)nexp[(1λ11λ0)i=1nxi]\begin{aligned} LR(\lambda_0,\lambda_1;x_1,x_2,\ldots,x_n) &=\dfrac{\lambda_0^{-n}\exp(-\sum_{i=1}^{n}x_i/\lambda_0)} {\lambda_1^{-n}\exp(-\sum_{i=1}^{n}x_i/\lambda_1)} \\[15pt] &=\left(\dfrac{\lambda_1}{\lambda_0}\right)^n \exp\left[\left(\dfrac{1}{\lambda_1}-\dfrac{1}{\lambda_0}\right)\sum_{i=1}^{n}x_i\right] \end{aligned}

가 된다. 그런데 λ1>λ0\lambda_1>\lambda_0으로부터 1λ11λ0<0\dfrac{1}{\lambda_1}-\dfrac{1}{\lambda_0}<0이며 따라서 LR(λ0,λ1;x1,x2,,xn)kLR(\lambda_0,\lambda_1;x_1,x_2,\ldots,x_n)\le k가 성립하는 것은 i=1nxik1\sum_{i=1}^{n}x_i\ge k_1이 성립함과 동일하다. (단, k1=log[(λ0λ1)nk]/(1/λ11/λ0)k_1=\log[(\lambda_0\lambda_1)^n k]/(1/\lambda_1-1/\lambda_0)) 이제 네이만-피어슨 정리에 의해 최강렵 검정법의 기각영역은

C={(x1,x2,,xn):i=1nxik1}C=\{(x_1,x_2,\ldots,x_n):\sum_{i=1}^{n}x_i\ge k_1\}

의 꼴로 주어진다. 그런데 귀무가설 하에, 즉 λ=λ0\lambda=\lambda_0일 때, 2i=1nxi/λ0χα2(2n)2\sum_{i=1}^{n}x_i/\lambda_0\sim \chi_\alpha^2(2n)을 따른다. 그러므로 가설에 대한 유의수준 α\alpha인 기각영역은

P[i=1nXik1λ=λ0]=αP\left[\sum_{i=1}^{n}X_i\ge k_1|\lambda=\lambda_0\right]=\alpha

로부터

C={(x1,x2,,xn):i=1nxi(λ0/2)χα2(2n)}C=\{(x_1,x_2,\ldots,x_n):\sum_{i=1}^{n}x_i\ge (\lambda_0/2)\chi_\alpha^2(2n)\}

으로 주어진다.

\\[20pt]

예 5.11
X1,X2,,XnX_1,X_2,\ldots,X_n이 정규분포 N(μ,1)N(\mu,1)으로부터 구한 랜덤표본을

H0:μ=μ0vsH0:μ=μ1(>μ0)H_0:\mu = \mu_0\quad\text{vs}\quad H_0:\mu = \mu_1(>\mu_0)

고려해보자. 네이만-피터슨 정리를 사용하기 위한 가능도비는 다음과 같이 사용됨.

LR(μ0,μ1;x1,x2,,xn)=(2π)n/2exp[i=1n(xiμ0)2/2](2π)n/2exp[i=1n(xiμ1)2/2]\begin{aligned} LR(\mu_0,\mu_1;x_1,x_2,\ldots,x_n) &=\dfrac{(2\pi)^{-n/2}\exp\left[-\sum_{i=1}^{n}(x_i-\mu_0)^2/2\right]}{(2\pi)^{-n/2}\exp\left[-\sum_{i=1}^{n}(x_i-\mu_1)^2/2\right]} \end{aligned}

여기에서 가능도비가 어떤 상수 kk보다 작다는

=exp[i=1n(xiμ0)2/2+i=1n(xiμ1)2/2]=exp[n(μ1μ0)xˉnn(μ02μ12)/2]k\begin{aligned} &=\exp\left[-\sum_{i=1}^{n}(x_i-\mu_0)^2/2+\sum_{i=1}^{n}(x_i-\mu_1)^2/2\right] \\[15pt] &=\exp\left[-n(\mu_1-\mu_0)\bar{x}_n-n(\mu_0^2-\mu_1^2)/2\right] \\[10pt] &\le k \end{aligned}

와 동등하다. 그런데 μ1μ0>0\mu_1-\mu_0>0이고 μ02μ12\mu_0^2-\mu_1^2은 상수이므로 어떤 상수 k1k_1에 대하여

xˉnk1\bar{x}_n\ge k_1

과 동등하게 된다. 따라서 유의수준이 α\alpha인 기각영역은

C={(x1,x2,,xn):xˉnk1}C=\{(x_1,x_2,\ldots,x_n):\bar{x}_n\ge k_1\}

로 주어지며, 여기에서 상수 k1k_1

P(Xˉnk1μ0)=αP(\bar{X}_n\ge k_1|\mu_0)=\alpha

를 만족하고, n(Xˉμ0)\sqrt{n}(\bar{X}-\mu_0)은 귀무가설 H0H_0하에서 N(0,1)N(0,1)을 따르므로

P(Xˉnk1μ0)=P(n(Xˉμ0)n(k1μ0)μ0)=αP(\bar{X}_n\ge k_1|\mu_0)=P(\sqrt{n}(\bar{X}-\mu_0)\ge \sqrt{n}(k_1-\mu_0)|\mu_0)=\alpha

로부터 n(k1μ0)=zα\sqrt{n}(k_1-\mu_0)=z_{\alpha}, 즉 기각영역은

C={(x1,x2,,xn):xˉnμ+zα/n}C=\{(x_1,x_2,\ldots,x_n):\bar{x}_n\ge \mu+z_{\alpha}/\sqrt{n}\}

이 된다.


[참고문헌]

  • 수리통계학 제 5판 - 송성주, 전명식

0개의 댓글