순서통계량 : 정의와 확률 함수

STATS·2023년 7월 7일
0

수리통계학

목록 보기
23/40

순서통계량

서포트가 (a,b)(a, b)인 확률 변수 XX의 랜덤 표본 X1,X2,...,XnX_1, X_2, ..., X_n이 있다고 하자.
이 때 Yi (1in)Y_i\ (1 \le i \le n)를 랜덤 표본 중 ii번째로 작은 것이라고 하면, 다음을 만족한다.

a<Y1<Y2<...<Yn<ba < Y_1 < Y_2 < ...< Y_n < b

이 때 YiY_i를 랜덤 표본 X1,X2,...,XnX_1, X_2, ..., X_n의 순서통계량이라고 한다.

순서통계량의 결합 확률 함수

(Y1,Y2,...,Yn)(Y_1, Y_2, ..., Y_n)의 결합 확률를 구하기 위해서는 (X1,X2,...,Xn)(X_1, X_2, ..., X_n)의 결합 확률 함수와 확률 변수의 변환을 이용해야 한다.

X1,X2,...,XnX_1, X_2, ..., X_n을 크기 순서대로 배열하는 경우의 수를 생각해보면, 총 n!n!가지라는 알 수 있다. 따라서 Y1,Y2,...,YnY_1, Y_2, ..., Y_nX1,X2,...,XnX_1, X_2, ..., X_n이 이루는 RnR^n 공간을 n!n!개의 집합으로 파티션한다.

이 때 Y1=X4,Y2=X10...Y_1 = X_4, Y_2 = X_{10} ...의 형식으로 각 YiY_iXjX_j가 매칭되므로 변환의 자코비안은 -1 혹은 1이다.

따라서 순서통계량 (Y1,Y2,...,Yn)(Y_1, Y_2, ..., Y_n)의 결합 확률 함수는 다음과 같다.

g(y1,y2,...,yn)=i=1n!Jif(y1)f(y2)...f(yn)=n!f(y1)f(y2)...f(yn)I(a<Y1<Y2<...<Yn<b)g(y_1, y_2, ..., y_n) = \sum_{i=1}^{n!} \lvert J_i\rvert f(y_1)f(y_2)...f(y_n) = n!f(y_1)f(y_2)...f(y_n)I(a < Y_1 < Y_2 < ... <Y_n < b)

순서통계량의 주변 확률 함수

  1. 일변량 주변 확률 함수

    g(yk)=ayk...ay2ykb...yn1bg(y1,y2,...,yn)dyn...dyk+1dy1...dyk1=n!(k1)!(nk)!F(yk)k1(1F(yk))nkf(yk)g(y_k) = \int_a^{y_k} ... \int_a^{y_2}\int_{y_k}^b ... \int_{y_{n-1}}^b g(y_1, y_2, ..., y_n) dy_n ... dy_{k+1}dy_1 ... dy_{k-1} \\ = \frac{n!}{(k-1)!(n-k)!}F(y_k)^{k-1}(1-F(y_k))^{n-k}f(y_k)
  2. 다변량 주변 확률 함수

    g(yi,yj)(i<j)=n!(i1)!(ji1)!(nj)!F(yi)i1[F(yj)F(yi)]ji1×[1F(yj)]njf(yi)f(yj)g(y_i, y_j) (i< j) = \frac{n!}{(i-1)!(j-i-1)!(n-j)!}F(y_i)^{i-1}[F(y_j) - F(y_i)]^{j-i-1} \\ \times [1-F(y_j)]^{n-j}f(y_i)f(y_j)

순서통계량 응용 예시

XX가 서포트 (a,b)(a, b)를 가지고, 확률 함수가 f(x)f(x)인 확률 변수라고 하자.
이 때 분포 함수 F(x)F(x)는 다음을 만족한다.

 m, F(m)=0.5m is median of X\exists \ m, \ F(m) = 0.5 \Rightarrow m\ is \ median \ of \ X

X1,X2,X3X_1, X_2, X_3XX의 랜덤 표본이라고 하자. 이 때 순서통계량 Y1,Y2,Y3Y_1, Y_2, Y_3의 결합 확률 함수는 다음과 같다.

g(y1,y2,y3)=6f(y1)f(y2)f(y3)I(a<y1<y2<y3<b)g(y_1, y_2, y_3) = 6f(y_1)f(y_2)f(y_3) I(a < y_1 < y_2 < y_3 < b)

그리고 $Y_2의 주변 확률 함수는 다음과 같다.

h(y2)=6f(y2)y2bay2f(y1)f(y3)dy1dy3=6f(y2)F(y2)[1F(y2)]I(a<y2<b)h(y_2) = 6f(y_2) \int_{y_2}^b \int_a^{y_2} f(y_1)f(y_3)dy_1dy_3 = 6f(y_2)F(y_2)[1-F(y_2)]I(a < y_2 < b)
P(Y2m)=6am[F(y2)f(y2)[F(y2)]2f(y2)]dy2=12P(Y_2 \le m) = 6\int_a^m [F(y_2)f(y_2)-[F(y_2)]^2f(y_2)]dy_2 = \frac{1}{2}

따라서 표본 크기가 3인 랜덤 표본에서, 표본 중위수 Y2Y_2의 중위수는 XX의 중위수와 동일하다. 다르게 말하면 표본 중위수의 중위수는 모집단의 중위수와 동일하다.

0개의 댓글