분위수
확률 변수 X가 CDF F(X)를 가진다고 하자. 이 때 p-백분위수(0 < p < 1)는 F(ϵp)=p를 만족하는 ϵp로 정의한다.
즉 p-분위수는 누적된 데이터의 밀도를 나타내는 통계량이다. 예를 들어 ϵp = 0.5-백분위수는 누적 확률이 0.5인 지점의 확률 변수 값을 의미한다. 이는 중위수와 동일한 의미다.
분위수의 추정
X1,X2,...,Xn이 X의 랜덤 표본이고, Y1,Y2,...,Yn (a<Y1<...<Yn<b)은 랜덤 표본의 순서 통계량이라고 하자. 이 때 p-백분위수 ϵp의 추정량은 다음과 같이 도출된다.
Let k=[p(n+1)] (k는 p(n+1) 이하의 가장 큰 정수)E(F(Yk))=∫abF(yk)g(yk)dyk=∫01(k−1)!(n−k)!n!zk(1−z)n−kdz=n+1k≈pϵp^=Yk
따라서 p-백분위 수의 추정량을 찾으려면 다음 과정을 거친다.
1. 표본을 추출한다.
2. 표본을 오름차순으로 정렬한다. (순서통계량)
3. k = [p(n+1)]를 만족하는 k를 구한다.
4. Yk를 p-백분위수의 추정량으로 한다.
분위수의 신뢰 구간
순서통계량 Y1,Y2,...,Yn에서, Yi<ϵp<Yj인 사건을 생각해보자.
이 사건이 발생한다는 것은 Y1,...Yi<ϵp를 만족해야 하고, ϵp<Yj,Yj+1,...Yn을 만족해야 한다.
P(X<ϵp)=p인 것을 생각하면, Yi<ϵp인 사건의 발생 횟수는 성공 확률이 p고 시행 횟수가 n인 이항 분포를 따르는 확률 변수로 생각할 수 있다.
따라서 위 사건이 발생할 확률을 다음과 같이 정의한다.
P(Yi<ϵp<Yj)=w=i∑j−1(wn)pw(1−p)n−w