히스토그램을 이용한 비모수적 추정

STATS·2023년 7월 4일
0

수리통계학

목록 보기
20/40

확률변수 XX가 어떤 분포를 따르는지도 모를 때, 분포의 모수에 의존하지 않는 비모수 추정을 통해 확률 함수를 탐색할 수 있다.

PMF 추정

서포트가 유한할 때

XX가 확률 함수 p(x)p(x)를 가지는 이산 확률 변수라고 하자. X1,X2,...,XnX_1, X_2, ..., X_nXX의 랜덤 표본이고, RX={a1,a2,...,am}R_X = \{a_1, a_2, ..., a_m\}는 유한하다.

이런 상황에서 p(aj)=P(X=aj)p(a_j) = P(X = a_j)의 직관적인 추정은 표본 크기 대비 각 원소의 빈도로 생각해볼 수 있다. 표본에서 각 aja_j의 빈도를 알아내고, 비율을 알아내기 위해 다음과 같이 추정량을 정의하자.

Ij(Xi)={1 (Xi=aj)0 (Xiaj)p^(aj)=1ni=1nIj(Xi)I_j(X_i) = \begin{cases} 1 \ (X_i = a_j)\\ 0 \ (X_i \ne a_j)\\ \end{cases} \\ {} \\ \hat{p}(a_j) = \frac{1}{n}\sum_{i=1}^n I_j(X_i)

p^(aj)\hat{p}(a_j)는 표본에서 aja_j의 출현 비율을 의미하며, {p^(a1),p^(a2),...,p^(am)}\{\hat{p}(a_1), \hat{p}(a_2), ..., \hat{p}(a_m)\}p(aj)=P(X=aj)p(a_j) = P(X=a_j)의 확률 함수 전체를 추정하는 역할을 한다.

Ij(Xi)I_j(X_i)는 성공 확률이 p^(aj)\hat{p}(a_j)인 베르누이 시행을 따르는 확률 변수로 생각할 수 있다. 서포트가 {0,1}\{0, 1\}이며, 1이 나올 확률은 p^(aj)\hat{p}(a_j)과 동일하기 때문이다.
이 성질을 이용하면 1ni=1nIj(Xi)\frac{1}{n}\sum_{i=1}^n I_j(X_i)p(aj)p(a_j)의 불편추정량임을 확인할 수 있다.

E[p^(aj)]=1ni=1nE[Ij(Xi)]=1ni=1np(aj)=p(aj)E[\hat{p}(a_j)] = \frac{1}{n}\sum_{i=1}^n E[I_j(X_i)] = \frac{1}{n}\sum_{i=1}^n p(a_j) = p(a_j)

서포트가 무한할 때

이산 확률 변수 XX의 서포트가 {a1,a2,...}\{a_1, a_2, ...\}로 원소가 유한하지 않은 상황에서는 다음과 같이 확률 함수를 추정할 수 있다.

XX의 서포트를 다음과 같이 묶어보자.
{a1},{a2},...,{am},am+1~={am+1,am+2,...}\{a_1\}, \{a_2\}, ..., \{a_m\}, \tilde{a_{m+1}} = \{a_{m+1}, a_{m+2}, ...\}
a1a_1 ~ ama_m는 서포트의 원소 그대로지만, am+1~\tilde{a_{m+1}}am+1a_{m+1} 이상의 모든 값을 묶은 집합이 된다.
이렇게 나머지를 하나의 원소로 묶으면 서포트가 유한한 것처럼 다룰 수 있게 된다.

따라서 {p^(a1),p^(a1),...,p^(am+1~)}\{\hat{p}(a_1), \hat{p}(a_1), ..., \hat{p}(\tilde{a_{m+1}})\}을 확률 함수의 추정량으로 사용할 수 있다.
보통은 p^(am+1~)\hat{p}(\tilde{a_{m+1}})p^(am)\hat{p}(a_m)의 2배 정도가 되도록 mm을 정한다.

PDF 추정

확률 변수 XX가 연속인 경우에는 확률 변수가 가질 수 있는 값이 이산적이지 않기 때문에, 히스토그램을 이용한 추정을 바로 적용할 수 없다. 따라서 구간을 임의적으로 나누고 각 구간에 대한 추정량을 찾아야 히스토그램 추정을 적용할 수 있다.

XX의 확률 함수를 f(t)f(t)라고 하자.

P(xh<X<x+h)=xhx+hf(t)dtP(x-h < X < x+h) = \int_{x-h}^{x+h} f(t)dt

확률 밀도 함수와 구간의 확률의 관계에 따라 위 항등식이 성립한다.

xhx+hf(t)dt\int_{x-h}^{x+h} f(t)dt는 CDF와 PDF의 관계에 따라 F(x+h)F(xh)F(x+h) - F(x-h)와 동일하다.
따라서 F(x+h)F(xh)2h\frac{F(x+h) - F(x-h)}{2h}는 두 점의 기울기로 해석할 수 있다.
이 때, 평균값정리에 의하여 다음이 성립한다.

 ϵ s.t xh<ϵ<x+h, P(xh<X<x+h)=F(x+h)F(xh)=f(ϵ)2hf(x)2h\exist \ \epsilon \ s.t \ x-h < \epsilon < x+h, \ P(x-h < X < x+h) = F(x+h) - F(x-h) = f(\epsilon) \cdot 2h \approx f(x) \cdot 2h

따라서 P(xh<X<x+h)=f(ϵ)2hf(x)2hP(x-h < X < x+h) = f(\epsilon) \cdot 2h \approx f(x) \cdot 2h라는 결론이 나온다.

표본의 관점에서 생각해 볼 때, P(xh<X<x+h)P(x-h < X < x+h)는 x-h와 x+h 사이에 표본의 실현 값이 속할 확률이다. 따라서 이산형 확률 변수의 케이스에서와 비슷하게 베르누이 시행을 정의할 수 있다.

Ii(x)={1 (xh<Xi<x+h)0 (else)P(xh<Xi<x+h)=f(ϵ)2hI_i(x) = \begin{cases} 1 \ (x-h < X_i < x+h)\\ 0 \ (else)\\ \end{cases} \\ {} \\ P(x-h < X_i < x+h) = f(\epsilon) \cdot 2h

여기서 한 구간의 너비(2h2h)를 bandwidth, Ii(x)I_i(x) 함수를 rectangular kernel이라고 한다.

이제 f(x)f(x)의 추정량 f^(x)\hat{f}(x)를 다음과 같이 정의하면, 점근적인 불편추정량을 얻을 수 있다.

f^(x)=12hni=1nIi(x)E(f^(x))=12hnnf(ϵ)2h=f(ϵ)f(x)\hat{f}(x) = \frac{1}{2hn}\sum_{i=1}^n I_i(x) \\ {} \\ E(\hat{f}(x)) = \frac{1}{2hn}nf(\epsilon) \cdot 2h = f(\epsilon) \rightarrow f(x)

f(x) 전체의 추정

위에서는 단일한 xx에서의 f(x)f(x)의 추정량을 알아보았다. 이를 확장하여 확률함수의 서포트를 구간으로 나누고, 각 구간의 대푯값을 이용해 위 추정법을 적용하면 f(x)f(x) 전체의 추정을 할 수 있다.

m : 나눌 구간의 개수
h : 각 구간 너비의 절반
a : 시작점 ; a<min(xi)a < min(x_i)

(ah,a+h],(a+h,a+3h],...,(a+(2m3)h,a+(2m1)h](a-h, a+h], (a+h, a+3h], ..., (a + (2m-3)h, a+(2m-1)h]

위와 같이 겹치지 않도록 구간을 나누어 준다. 이 때 m은 전체 구간이 max(xi)max(x_i)를 포함할 수 있도록 충분히 큰 수로 지정해야 한다.

Aj=(a+(2j3)h,a+(2j1)h] for j=1,2,...,mf^h(x)=#({xiAj})2hnA_j = (a+(2j-3)h, a+(2j-1)h] \ for \ j = 1, 2, ...,m \\ {} \\ \hat{f}_h(x) = \frac{\#(\{x_i \in A_j\})}{2hn}

임의의 x에 대해, f(x)f(x)의 전체 추정은 다음 순서로 이루어 진다.

  1. x가 어떤 AjA_j에 속하는 지 확인한다.
  2. 위에서 다루었던 추정법을 이용해 f(x)f(x)의 추정량을 (표본에서 Aj에 속하는 개수)2hn\frac{(표본에서 \ A_j에 \ 속하는 \ 개수)}{2hn}으로 정한다.

0개의 댓글