[2주차] Nonparametric MLE for the type-I interval censored data

김종해·2024년 1월 13일
0

참고교재

  • Groeneboom and Jongbloed (2014), Nonparametric Estimation under Shape Constraints, Cambridge University Press.

 

1. Monotone Regression

xix_i가 고정값이며 증가함에 따라 yiy_i가 확률변수

Yi=r(xi)+ϵiY_i=r(x_i)+\epsilon_i

의 실현값이라 하자. 여기서 rrxix_i를 통해 YiY_i를 설명하고자 하는 함수이며, ϵi\epsilon_iE(ϵi)=0\mathrm{E}(\epsilon_i)=0을 만족하는 확률변수(노이즈)이다. 우리의 목표는 단조함수 rr을 추정하는 것이다. (단조 증가 or 단조 감소)

단조 증가가 가정된 함수 rr을 추정한다고 하자. 관측에 의해 얻어진 실현값은 노이즈(ϵi\epsilon_i) 때문에 단조성이 나타나지 않을 수 있다. (yi>yi+1y_i > y_{i+1}인 실현값이 존재할 수 있다) 그럼에도 실현값만을 참고하면서, 실현값을 가장 잘 설명하는 단조 증가함수가 무엇일지 추정하는 과정이다.

 

다음 데이터를 예시로 살펴보자. 12세~18세 여자 아이들의 신장을 조사한 데이터다.

이때, 나이에 따른(12세~18세) 여자 아이들의 신장의 경향성을 설명하는 함수 rr을 모델링하고자 한다. 그러한 rr을 가장 잘 나타낸 r^\hat{r}은 다음과 같이 나타낼 수 있다.

r^=arg minrM12i=1n(yir(xi))2wi,    where  M={f:RR  f(u)f(v)  for  all  uv}\hat{r}=\argmin_{r \in M} {1 \over 2}\sum_{i=1}^n (y_i-r(x_i))^2w_i,~~~~\text{where~~}M=\{f:\reals \rightarrow \reals~|~f(u)\le f(v)~~\text{for~~all~~}u \le v\}

즉, 단조 증가하는 함수 중 위의 quadratic form을 최소화하는 rr이 우리가 원하는 함수라는 뜻이다. r^\hat{r}을 찾기에 앞서, 위 식은 오직 함수 rr의 이산적인 함숫값에 의해서만 결정된다. 즉 xix_i가 아닌 곳에서의 함숫값은 위 식의 최소화에 영향을 주지 않으므로, xix_i가 아닌 점에서 rr의 함숫값은 상수함수라 가정한다.

Lemma 2.1에서는 위와 같은 상황에서 r^\hat{r}의 필요충분조건을 서술한다. 어차피 r^\hat{r}x1, x2, , xnx_1,~x_2,~\cdots,~x_n에서의 함숫값만 결정하면 되므로 r^=(r^(x1), r^(x2), , r^(xn))\hat{r}=(\hat{r}(x_1),~\hat{r}(x_2),~\cdots,~\hat{r}(x_n))인 벡터를 추정하는 것으로 생각할 수 있다.

Lemma 2.1
r^\hat{r}이 convex cone C={(r1, r2, , rn)Rn  r1r2 rn}C=\{(r_1,~r_2,~\cdots,~r_n)\in\reals^n ~|~ r_1 \le r_2 \le ~\cdots r_n\}에서 strictly convex function

Q(r)=12i=1n(riyi)2wiQ(r) = {1 \over 2}\sum_{i=1}^n (r_i-y_i)^2w_i

을 최소화하는 것의 필요충분조건은

j=1ir^jwj{j=1iyjwjfor  i=1, 2, , n=j=1iyjwjif  r^i+1>r^i  or  i=n\sum_{j=1}^i \hat{r}_jw_j \begin{cases} \le \sum_{j=1}^i y_jw_j &\text{for}~~i=1,~2,~\cdots,~n \\ =\sum_{j=1}^i y_jw_j &\text{if}~~\hat{r}_{i+1}>\hat{r}_i~~ \text{or}~~ i=n \end{cases}

이다.

위 필요충분조건이 말하는 바는, 기본적으로 i=1, 2, , ni=1,~2,~\cdots,~n일 때 부등식이 성립하면서도 추가로 r^i+1>r^n\hat{r}_{i+1}>\hat{r}_n이거나 i=ni=n일 때는 등식까지 성립한다는 것이다.

Lemma 2.1 Proof
1. 부등식(\Leftrightarrow)
벡터 v(i)=(0,  0, ,1 , , 1)v^{(i)}=(0,~\cdots~0,~,1~,~\cdots,~1) (ithi^{th} 성분까지 00, 그 이후로는 11, 1in1 \le i \le n)을 정의하자. 그렇다면 모든 ii와 모든 ϵ>0\epsilon>0에 대하여 r^ϵv(i)C\hat{r}-\epsilon v^{(i)} \in C이다. Q(r)Q(r)이 strictly convex 함수이므로

limϵ0+ϵ1(Q(r^ϵv(i))Q(r^))0\lim_{\epsilon \rightarrow 0+}\epsilon^{-1}\big( Q(\hat{r}-\epsilon v^{(i)})- Q(\hat{r})\big) \ge 0

는 자연스럽다. (Q(r)Q(r)을 최소화하는 r^\hat{r}에서 어떤 방향으로든(ϵv(i)\epsilon v^{(i)}) 벗어나면 Q(r)Q(r)의 값은 커진다.)

이때, Q(r)Q(r)의 정의에 의해

Q(r^ϵv(i))Q(r^)=12j=1n(ϵvj(i)wj(ϵvj(i)2r^j+2yj))Q(\hat{r} - \epsilon v^{(i)})-Q(\hat{r})={1 \over 2}\sum_{j=1}^n \big(\epsilon v_j^{(i)}w_j(\epsilon v_j^{(i)}-2\hat{r}_j+2y_j) \big)

이므로

limϵ0+ϵ1(Q(r^ϵv(i))Q(r^))=j=1i(yjr^j)wj0\lim_{\epsilon \rightarrow 0+}\epsilon^{-1}\big( Q(\hat{r}-\epsilon v^{(i)})- Q(\hat{r})\big) =\sum_{j=1}^i \big(y_j-\hat{r}_j\big)w_j \ge0

이다.

2. 등식(\Leftrightarrow)
r^i+1>r^i\hat{r}_{i+1}>\hat{r}_i 조건 하에, 충분히 작은 ϵ>0\epsilon>0에 대하여 r^i+ϵ<r^i+1\hat{r}_i+\epsilon<\hat{r}_{i+1}이 성립하므로 r^+ϵv(i)C\hat{r}+\epsilon v^{(i)} \in C이다. 따라서

Q(r^+ϵv(i))Q(r^)=12j=1n(ϵvj(i)wj(ϵvj(i)+2r^j2yj))Q(\hat{r} + \epsilon v^{(i)})-Q(\hat{r})={1 \over 2}\sum_{j=1}^n \big(\epsilon v_j^{(i)}w_j(\epsilon v_j^{(i)}+2\hat{r}_j-2y_j) \big)

이고,

limϵ0+ϵ1(Q(r^+ϵv(i))Q(r^))=j=1i(r^jyj)wj0\lim_{\epsilon \rightarrow 0+}\epsilon^{-1}\big( Q(\hat{r}+\epsilon v^{(i)})- Q(\hat{r})\big) =\sum_{j=1}^i \big(\hat{r}_j-y_j\big)w_j \ge0

이다. 1에서 증명한 사실에 의해

j=1ir^jwj=j=1iyjwj\sum_{j=1}^i\hat{r}_jw_j=\sum_{j=1}^iy_jw_j

이다.

 

Lemma 2.1에 의해,

j=1ir^jwj{j=1iyjwjfor  i=1, 2, , n=j=1iyjwjif  r^i+1>r^i  or  i=n\sum_{j=1}^i \hat{r}_jw_j \begin{cases} \le \sum_{j=1}^i y_jw_j &\text{for}~~i=1,~2,~\cdots,~n \\ =\sum_{j=1}^i y_jw_j &\text{if}~~\hat{r}_{i+1}>\hat{r}_i~~ \text{or}~~ i=n \end{cases}

를 만족하는 r^\hat{r}을 정의할 수 있다면 이것이 곧 Q(r)Q(r)의 최소화원이 된다. 이때 r^\hat{r}

(0,0), (w1, w1y1), , (j=1nwj, j=1nwjyj)(0,0),~(w_1,~w_1y_1),~\cdots,~(\sum_{j=1}^nw_j,~\sum_{j=1}^nw_jy_j)

의 convex minorant의 left derivative로 정의한다면 위 조건을 만족하게 되어, Q(r)Q(r)의 최소화원이 될 수 있다. 12세~18세 여자 아이들의 평균 신장의 편차(xˉixˉ\bar{x}_i-\bar{x}) 데이터를 기반으로 점들을 정의하고, 이것의 convex minorant을 그린 결과는 다음과 같다.

convex minorant는 convex한 꼴을 이루기 때문에, 실선의 기울기는 단조 증가한다. 따라서 단조 증가하는 rr의 추정치로서 사용하기에 적합하며, Lemma 2.1은 이 기울기가 최소화원임을 보장한다.

일반적으로는 평균 신장의 편차가 아닌, 평균 신장 데이터를 기반으로 convex minorant를 그리지만, 명확한 시각화를 위해 편차를 활용하였다. 편차를 이용하더라도 원래 구하고자 하던 기울기는 어렵지 않게 구할 수 있다.

 

2. Estimation from Current Status Data

이번에 살펴볼 데이터는 1988년 오스트리아 남성 230명을 대상으로 조사한 Rubella(풍진) 발병 여부 데이터다.

TiT_i : [관측] 각 남성의 태어난 연도로부터의 조사 시점(years)
Δi\Delta_i : [관측] 풍진 발병 여부 (발병했다(Δi=1\Delta_i=1), 발병하지 않았다(Δi=0\Delta_i=0))
XiX_i : [추정] 오스트리아 남성에게 풍진이 발병하는 나이(years)
FF : [추정] 나이에 따른 풍진 발병 분포 함수(CDF)

이로부터 오스트리아 남성의 풍진 발병 나이 함수(FF)를 추정하자. 질병의 특성을 고려하여, 풍진이 한 번 발병하면 평생 지속된다고 가정한다. 관측 데이터 tit_it1<t2<<tnt_1<t_2<\cdots<t_n이 되도록 재배열한다.

각 데이터(남성)에 대하여, 조사 시점에 풍진이 발병되었을 확률은

P(Δi=1)=P(Xi<Ti)=F(ti)\mathrm{P}(\Delta_i=1)=\mathrm{P}(X_i<T_i)=F(t_i)

이며, 조사 시점에 풍진이 발병되지 않았을 확률은

P(Δi=0)=P(Xi>Ti)=1F(ti)\mathrm{P}(\Delta_i=0)=\mathrm{P}(X_i>T_i)=1-F(t_i)

이다. 이로부터 FF에 대한 log likelihood function을

l(F)=i=1nδilogF(ti)+(1δi)log(1F(ti))l(F)=\sum_{i=1}^n \delta_i \log F(t_i)+(1-\delta_i) \log(1-F(t_i))

로 정의할 수 있다. 이제 문제는 l(F)l(F)를 최대화하는 F^\hat{F}를 찾는 것이다.

앞선 예시에서와 같은 이유로 F^\hat{F}tit_i 이외의 점에서 상수함수로 가정할 수 있다. Lemma 2.3은 이러한 문제에서 최대화원 F^\hat{F}이 무엇인지 알려준다.

Lemma 2.3
다음과 같이 PiP_i를 정의하자.

P0=(0, 0),    Pi=(i, j=1iδj),  1inP_0=(0,~0),~~~~P_i=\bigg(i,~\sum_{j=1}^i\delta_j \bigg),~~1\le i \le n

F^(ti)\hat{F}(t_i)PiP_i로 만든 convex minorant의, PiP_i에서의 left derivative로 정의하면 F^\hat{F}l(F)l(F)의 유일한 최대화원이다.

Lemma 2.3 Proof
1. 최대화원
l(F)l(F)를 잘 정의하기 위해 다음 두 가지를 가정하자.

  • δ1=1\delta_1=1
  • δn=0\delta_n=0
    PiP_i의 정의에 의해, PiP_i로 만든 convex minorant의 기울기는 00 이상 11 이하임을 알 수 있다. δ1=1\delta_1=1을 가정하여 logF(t1)\log F(t_1)을, δn=0\delta_n=0을 가정하여 logF(tn)\log F(t_n)을 잘 정의하도록 한다.

l(F)l(F)는 strictly concave 함수이므로, F(t1)F(t2)F(tn)F(t_1) \le F(t_2) \le \cdots \le F(t_n)을 만족하는 모든 FF에 대하여

limϵ0+ϵ1(l(F^+ϵ(FF^))l(F^))0\lim_{\epsilon \rightarrow 0+}\epsilon^{-1}\big(l(\hat{F}+\epsilon(F-\hat{F}))-l(\hat{F})\big) \le0

임을 보이면 F^\hat{F}l(F)l(F)의 최대화원임이 증명된다. 위 부등식의 의미는, F^\hat{F}로부터 어떤 방향으로라도 멀어진다면 l(F)l(F)의 기울기가 감소(or 0)한다는 뜻이다.

limϵ0+ϵ1(l(F^+ϵ(FF^))l(F^))=limϵ0+ϵ1i=1n(δilog(1+ϵ(F(ti)F^(ti))F^(ti))+(1δi)log(1+ϵ(F(ti)F^(ti))1F^(ti)))=i=1n(δiF(ti)F^(ti)F^(ti)(1δi)F(ti)F^(ti)1F^(ti))=i=1nF(ti)(δiF^(ti))F^(ti)(1F^(ti))i=1nδiF^(ti)1F^(ti)=:I1I2\begin{aligned} \lim_{\epsilon \rightarrow 0+}&\epsilon^{-1}\big(l(\hat{F}+\epsilon(F-\hat{F}))-l(\hat{F})\big)\\ &=\lim_{\epsilon \rightarrow 0+}\epsilon^{-1}\sum_{i=1}^n \bigg(\delta_i \log \bigg(1+{\epsilon\big(F(t_i)-\hat{F}(t_i)\big) \over \hat{F}(t_i)}\bigg)+(1-\delta_i) \log\bigg(1+{-\epsilon\big(F(t_i)-\hat{F}(t_i)\big) \over 1-\hat{F}(t_i)} \bigg)\bigg) \\ &=\sum_{i=1}^n\bigg(\delta_i {F(t_i)-\hat{F}(t_i) \over \hat{F}(t_i)} - (1-\delta_i){F(t_i)-\hat{F}(t_i) \over 1-\hat{F}(t_i)}\bigg) \\ &= \sum_{i=1}^n{F(t_i)(\delta_i-\hat{F}(t_i)) \over \hat{F}(t_i)(1-\hat{F}(t_i))} - \sum_{i=1}^n {\delta_i-\hat{F}(t_i) \over 1-\hat{F}(t_i)} \\ &=: I_1-I_2 \end{aligned}

이므로, I1I20I_1-I_2 \le 0임을 보이자. PiP_i로 만든 convex minorant에서 꺾이는 점(=convex minorant가 지나는점)을

0=i0<i1<<ik=n0=i_0<i_1<\cdots<i_k=n

이라 정의하자. tit_i 이외에서 F^\hat{F}는 상수함수라고 정의하였으므로

F^(ti)=F^(tij),  ij1<iij\hat{F}(t_i)=\hat{F}(t_{i_j}),~~i_{j-1}<i\le i_j

가 성립한다.

1-1. I10I_1 \le 0

I1=i=1nF(ti)(δiF^(ti))F^(ti)(1F^(ti))=j=1k1F^(tij)(1F^(tij))i=ij1+1ijF(ti)(δiF^(ti))I_1=\sum_{i=1}^n{F(t_i)(\delta_i-\hat{F}(t_i)) \over \hat{F}(t_i)(1-\hat{F}(t_i))}=\sum_{j=1}^k {1 \over \hat{F}(t_{i_j})(1-\hat{F}(t_{i_j}))}\sum_{i=i_{j-1}+1}^{i_j}F(t_i)(\delta_i-\hat{F}(t_i))

이고, F(t1)F(t2)F(tn)F(t_1) \le F(t_2) \le \cdots \le F(t_n)의 특성에 의해 어떤 αm0\alpha_m \ge 0에 대하여

F(ti)=m=ij1+1iαm,  ij1<iijF(t_i)=\sum_{m=i_{j-1}+1}^i \alpha_m,~~i_{j-1}<i\le i_j

로 나타낼 수 있다. 따라서

i=ij1+1ijF(ti)(δiF^(ti))=i=ij1+1ij(m=ij1+1iαm)(δiF^(ti))=m=ij1+1ijαmi=mij(δiF^(ti))0\begin{aligned} \sum_{i=i_{j-1}+1}^{i_j}&F(t_i)(\delta_i-\hat{F}(t_i))\\ &=\sum_{i=i_{j-1}+1}^{i_j}\bigg(\sum_{m=i_{j-1}+1}^i\alpha_m\bigg)(\delta_i-\hat{F}(t_i))\\ &=\sum_{m=i_{j-1}+1}^{i_j}\alpha_m\sum_{i=m}^{i_j}(\delta_i-\hat{F}(t_i)) \le0 \end{aligned}

이고, I10I_1 \le0이다.

1-2. I2=0I_2 = 0

I2=j=1ki=1nδiF^(ti)1F^(ti)=j=1k11F^(ti)i=1n (δiF^(ti))=0\begin{aligned} I_2&=\sum_{j=1}^k\sum_{i=1}^n {\delta_i-\hat{F}(t_i) \over 1-\hat{F}(t_i)}\\ &=\sum_{j=1}^k{1 \over 1-\hat{F}(t_i)}\sum_{i=1}^n\ \big(\delta_i-\hat{F}(t_i)\big)=0 \end{aligned}

이다. ij1<iiji_{j-1}<i\le i_j에서 i=1nδi\sum_{i=1}^n \delta_i는 직각삼각형의 높이이고, F^(ti)\hat{F}(t_i)는 기울기가 되어 i=1nF^(ti)\sum_{i=1}^n\hat{F}(t_i)는 (기울기 ×\times 밑변 == 높이)가 되어 i=1nδi\sum_{i=1}^n \delta_i와 같아진다.

위의 두 사실로부터

limϵ0+ϵ1(l(F^+ϵ(FF^))l(F^))=I1I20\lim_{\epsilon \rightarrow 0+}\epsilon^{-1}\big(l(\hat{F}+\epsilon(F-\hat{F}))-l(\hat{F})\big)=I_1-I_2 \le 0

이 성립한다.

2. 유일성
최대화원 F^\hat{F}가 유일하기 위해선

limϵ0+ϵ1(l(F^+ϵ(FF^))l(F^))<0\lim_{\epsilon \rightarrow 0+}\epsilon^{-1}\big(l(\hat{F}+\epsilon(F-\hat{F}))-l(\hat{F})\big) < 0

가 성립해야 한다. 즉, 등호가 성립할 수 없음을 보일 것이다.

limϵ0+ϵ1(l(F^+ϵ(FF^))l(F^))=0  I1=0  i=mij(δiF^(ti))=0\begin{aligned} &\lim_{\epsilon \rightarrow 0+}\epsilon^{-1}\big(l(\hat{F}+\epsilon(F-\hat{F}))-l(\hat{F})\big)= 0 \\ &\Leftrightarrow~~I_1=0 \\ &\Leftrightarrow~~\sum_{i=m}^{i_j}\big(\delta_i-\hat{F}(t_i)\big)=0 \end{aligned}

이고, 이는 convex minorant가 모든 PiP_i를 지나는 것과 동치이고, 모든 ii에서 δi=1\delta_i=1임과 동치다. 이는 앞서 세운 가정인 δn=0\delta_n=0에 모순이므로,

limϵ0+ϵ1(l(F^+ϵ(FF^))l(F^))=0\lim_{\epsilon \rightarrow 0+}\epsilon^{-1}\big(l(\hat{F}+\epsilon(F-\hat{F}))-l(\hat{F})\big)= 0

은 불가능하다. 따라서 최대호원 F^\hat{F}는 유일하다.

 

풍진 발병 데이터의 PiP_i와 이들로 만든 convex minorant는 (a)와 같고, 이로부터 추정한 풍진 발병 나이 분포함수(CDF) F^\hat{F}는 (b)와 같다. 대부분 20대 이후에는 풍진 바이러스를 보유함을 알 수 있다.

0개의 댓글