3.5 순서통계량
확률밀도함수가 f(x), 누적분포함수가 F(x)인 모집단으로부터 크기가 n인 랜덤표본 X1,X2,…,Xn을 얻었다고 하자. 이제 이 랜덤표본을 작은 것부터 크기순으로 나열하여 다음과 같은 순서통계량을 구할 수 있다.
X(1)≤X(2)≤⋯≤X(n)
비모수적 통계방법에서 자주 사용된다.
연속형 확률변수 X1,X2,…,Xn의 순서통계량 X(1),X(2),…,X(n)은 1:1변환이 아니므로 변환의 대상영역을 각 영역에서 1:1변환이 되도록 나누어 줌으로써 순서통계량의 결합 확률밀도함수를 구할 수 있다. 예를 들어 표본의 크기가 n=3인 경우, 순서통계량은 6:1변환이므로 표본공간을
A1={(x1,x2,x3):x1<x2<x3}⇒X(1)=X1,X(2)=X2,X(3)=X3A2={(x1,x2,x3):x2<x1<x3}⇒X(1)=X2,X(2)=X1,X(3)=X3A3={(x1,x2,x3):x1<x3<x2}⇒X(1)=X1,X(2)=X3,X(3)=X2A4={(x1,x2,x3):x2<x3<x1}⇒X(1)=X2,X(2)=X3,X(3)=X1A5={(x1,x2,x3):x3<x1<x2}⇒X(1)=X3,X(2)=X1,X(3)=X2A6={(x1,x2,x3):x3<x2<x1}⇒X(1)=X3,X(2)=X2,X(3)=X1
의 3!가지의 공통부분이 없는 부분영역으로 나누면 이에 대한 변환된 영역은
B={(x(1),x(2),x(3)):x(1)<x(2)<x(3)}
이 된다. 그러면 각 영역 Ai에서 (X1,X2,X3)에서 (X(1),X(2),X(3))으로의 변환은 1:1 변환이 되며, 자코비안 Ji의 절댓값은 1이 되고, 순서 통계량의 결합 확률밀도함수는 f(x(1))f(x(2))f(x(3))이 된다. 따라서 모든 가능한 3!를 합하면 x(1),x(2),x(3)의 결합 확률밀도함수는 3!f(x(1))f(x(2))f(x(3))이 된다. 이와 같은 내용을 일반화하면 통계량 X(1),X(2),…,X(n)의 결합 확률밀도함수는 f(x)가 연속인 경우
g(x(1),x(2),…,x(n))=n!f(x(1))f(x(2))⋯f(x(n))
예 3.13
X1,X2,X3을 확률밀도함수 f(x)=3x2 (0<x<1)으로부터 얻은랜덤표본이라고 하자. 이때 순서통계량 X(1),X(2),X(3)의 결합 확률밀도함수를 구해 보면, 0<x(1)<x(2)<x(3)<1인 경우에는 다음과 같다.
g(x(1),x(2),x(3))=3!(3x(1)2)(3x(2)2)(3x(3)2)=162x(1)2x(2)2x(3)3
한편 k번째 순서통계량 X(k)의 확률밀도함수는 다음 정리와 같다.
정리 3.17
랜덤표본 X1,X2,…,Xn을 확률밀도함수가 f(x)이고 누적분포함수가 F(x)인 모집단으로부터 얻었다고 하자. 이제 a<x<b에 대하여 f(x)>0이라고 한다면, k번째 순서통계량 X(k)의 확률밀도함수는
fX(k)(x(k))=(k−1)!(n−k)!n![F(x(k))]k−1[1−F(x(k))]n−kf(x(k))a<x(k)<b,
[설명]
X(k)=x(k)이기 위해서 1개의 관찰값은 x(k)이어야 하고 이 때 확률밀도함수는 f(x(k))이며, (k−1)개의 관찰값은 x(k)보다 작아야 하며 이 때 확률은 P[X≤x(k)]=F(x(k))가 되며 (n−k)개의 관찰값은 x(k)보다 커야 하며, P(X>x(k))=1−F(x(k))이 된다.
또한 같은 설명으로 i번째 순서통계량 X(i)와 j번째 순서통계량 X(j)의 결합 확률밀도함수는
P[X≤x(i)]=F(x(i)), P[x(i)≤X≤x(j)]=F(x(j))−F(x(i)). P[X≥x(j)]=1−F(x(j))이므로
fX(i),X(j)(x(i),x(j))=(i−1)!(j−i−1)!(n−j)!n!×[F(x(i))]i−1f(x(i))[F(x(j))−F(x(i))]j−i−1f(x(j))[1−F(x(j))]n−j
와 같이 구할 수 있다.
표본최솟값 X(1), 표본최댓값 X(n)의 분포
- 크기가 n인 랜덤표본의 순서통계량들 중에서 특별한 경우로 응용성이 높다.
- X(1) 분포
1) 누적분포함수
G1(x(1))=P[X(1)≤x(1)]=1−P[X(1)>x(1)]=1−P[∀Xi>x(1)]=1−[1−F(x(1))]n
2) 확률밀도함수
fX(1)(x(1))=dx(1)dG1(x(1))=dx(1)d[1−[1−F(x(1))]n]=n[1−F(x(1))]n−1f(x(1))
- X(n) 분포
1) 누적분포함수
Gn(x(n))=P[X(n)≤x(n)]=P[∀Xi≤x(n)]=[F(x(n))]n
2) 확률밀도함수
fX(n)(x(n))=dx(n)dGn(x(n))=dx(n)d[F(x(n))n]=n[F(x(n))]n−1f(x(n))
예 4.9: 최대 가능도추정량
X1,X2,…,Xn을 U(0,θ)로부터 얻은 랜덤표본이라고 하자. 이때 가능도함수는
L(θ;x1,x2,…,xn)=i=1∏nf(xi,θ)=θn1
이 되며, 모든 θ에 대해 연속이 아니므로 모수 θ에 대하여 미분 불가. 미분을 하는 대신 가능도 함수의 형태를 살펴보면 쉽게 최대가능도 추정량을 구할 수 있다. 균일분포의 최대가능도 추정량은 표본최댓값 X(n)이다. X(n)의 분포를 구할 때 위의 가능도함수가 아니라 확률밀도함수를 사용한다.
[F(x(n))]n=P[Xi≤x(n)]=(θx(n))n
∴fX(n)(x(n))=dx(n)d[F(x(n))n]=dx(n)d[(θx(n))n]=n(θx(n))n−1θ1=nθn(x(n))n−1
예 4.18: 비편향추정량
앞의 예 4.9에서 고려한 θ의 추정량 X(n)에 대해 생각해 보자. 이 분포에서 나오는 X의 값은 모두 0에서 θ 사이에 있으므로 표본최댓값 X(n)도 θ보다 클 수 없다. θ보다 작을 수는 있으나 클 수는 없으므로 그 기댓값은 당연히 θ보다 작게 된다. 즉, 표본 최댓값은 비편향추정량이 아니다.
E(X(n))=∫0θtθnntn−1dt=(n+1)θnntn−1∣∣∣∣∣0θ=(n+1)nθ
으로 예상한 바와 같이 θ보다 작다. 따라서
T1(X)=(nn+1)X(n)
이라고 한다면
E(T1(X))=nn+1⋅n+1n⋅θ=θ
이므로 T1(X)은 θ의 비편향추정량이다.
예 4.40: 일치추정량
앞의 예 4.9에서 고려한 θ의 추정량 X(n)에 대해 생각해 보자. 이제 모수 θ의 추정량 X(n)의 일치성에 대해 살펴본다.
P[∣X(n)−θ∣≤ϵ]=P[θ−ϵ≤X(n)≤θ+ϵ]=∫θ−ϵθθnn(x(n))n−1dx(n)=θn(x(n))n∣∣∣∣∣θ−ϵθ=1−[θθ−ϵ]n
이 성립한다. 0<ϵ<θ이면 n이 커질 때 →0이므로 P[∣X(n)−θ∣≤ϵ]→1이 되고, ϵ≥θ이면 n에 대해 →0이므로 P[∣X(n)−θ∣≤ϵ]=1이 된다. 그러므로 표본최댓값 X(n)은 θ의 일치추정량이다.
2024 하반기 예상문제 5번: 신뢰구간
X1,X2,…,Xn는 U(0,θ)로부터의 랜덤표본인 경우 θ에 대한 95% 신뢰구간을 구하시오
앞의 예 4.9에서 고려한 θ의 추정량 X(n)에 대해 생각해 보자. T=X(n)이라고 하면 그의 확률밀도함수는 fΓ(t;θ)=n(t/θ)n−1(1/θ)0<t<θ이 된다. 이제 임의의 α1, α2 (α1+α2=α)에 대하여
α1∴h1(θ)=∫0h1(θ)n(θt)n−1θ1dt=∫0h1(θ)/θnun−1du(∵u=θt, du=θ1dt)=un∣0h1(θ)/θ=[θh1(θ)]n=θα11/n
α2∴h2(θ)=∫h2(θ)θn(θt)n−1θ1dt=∫h2(θ)/θ1nun−1du(∵u=θt, du=θ1dt)=un∣h2(θ)/θ1=1−[θh2(θ)]n=θ(1−α2)1/n
로부터 θ에 대한 (1−α)×100% 신뢰구간 [X(n)(1−α2)−1/n,X(n)α1−1/n]으로 계산된다. 95% 신뢰수준 (1−α=0.95)에서 일반적으로 α1=α2=2α=0.025로 설정합니다.
따라서 신뢰구간은 최종적으로,
[X(n)⋅0.975−1/n≤θ≤X(n)⋅0.025−1/n]
[참고문헌]