순서통계량 : 분위수(Quantile)

STATS·2023년 7월 9일
0

수리통계학

목록 보기
25/40

분위수

확률 변수 XX가 CDF F(X)F(X)를 가진다고 하자. 이 때 p-백분위수(0 < p < 1)는 F(ϵp)=pF(\epsilon_p) = p를 만족하는 ϵp\epsilon_p로 정의한다.

즉 p-분위수는 누적된 데이터의 밀도를 나타내는 통계량이다. 예를 들어 ϵp\epsilon_p = 0.5-백분위수는 누적 확률이 0.5인 지점의 확률 변수 값을 의미한다. 이는 중위수와 동일한 의미다.

분위수의 추정

X1,X2,...,XnX_1, X_2, ..., X_nXX의 랜덤 표본이고, Y1,Y2,...,Yn (a<Y1<...<Yn<b)Y_1, Y_2, ..., Y_n \ ( a< Y_1 < ...< Y_n < b)은 랜덤 표본의 순서 통계량이라고 하자. 이 때 p-백분위수 ϵp\epsilon_p의 추정량은 다음과 같이 도출된다.

Let k=[p(n+1)]   (k는 p(n+1) 이하의 가장 큰 정수)E(F(Yk))=abF(yk)g(yk)dyk=01n!(k1)!(nk)!zk(1z)nkdz=kn+1pϵp^=YkLet \ k = [p(n+1) ] \ {} \ {} \ \text{(k는 p(n+1) 이하의 가장 큰 정수)} \\ {} \\ E(F(Y_k)) = \int_a^b F(y_k)g(y_k)dy_k = \int_0^1 \frac{n!}{(k-1)!(n-k)!}z^k (1-z)^{n-k}dz=\frac{k}{n+1} \approx p \\ {} \\ \hat{\epsilon_p} = Y_k

따라서 p-백분위 수의 추정량을 찾으려면 다음 과정을 거친다.
1. 표본을 추출한다.
2. 표본을 오름차순으로 정렬한다. (순서통계량)
3. k = [p(n+1)]를 만족하는 k를 구한다.
4. YkY_k를 p-백분위수의 추정량으로 한다.

분위수의 신뢰 구간

순서통계량 Y1,Y2,...,YnY_1, Y_2, ..., Y_n에서, Yi<ϵp<YjY_i < \epsilon_p < Y_j인 사건을 생각해보자.
이 사건이 발생한다는 것은 Y1,...Yi<ϵpY_1, ... Y_i < \epsilon_p를 만족해야 하고, ϵp<Yj,Yj+1,...Yn\epsilon_p < Y_j, Y_{j+1}, ... Y_n을 만족해야 한다.

P(X<ϵp)=pP(X < \epsilon_p) = p인 것을 생각하면, Yi<ϵpY_i < \epsilon_p인 사건의 발생 횟수는 성공 확률이 pp고 시행 횟수가 nn인 이항 분포를 따르는 확률 변수로 생각할 수 있다.

따라서 위 사건이 발생할 확률을 다음과 같이 정의한다.

P(Yi<ϵp<Yj)=w=ij1(nw)pw(1p)nwP(Y_i < \epsilon_p < Y_j) = \sum_{w=i}^{j-1} \binom{n}{w}p^w (1-p)^{n-w}

0개의 댓글