[3주차] Computation of the NPMLE for type-I interval censored data

김종해·2024년 1월 22일
0

참고교재

  • Groeneboom and Jongbloed (2014), Nonparametric Estimation under Shape Constraints, Cambridge University Press.

 

1. Review

지난 2.1절에서는 단조 증가하는 함수 rr을 추정하는 방법을 알아보았다.

Lemma 2.1
r^\hat{r}이 convex cone C={(r1, r2, , rn)Rn  r1r2 rn}C=\{(r_1,~r_2,~\cdots,~r_n)\in\reals^n ~|~ r_1 \le r_2 \le ~\cdots r_n\}에서 strictly convex function

Q(r)=12i=1n(riyi)2wiQ(r) = {1 \over 2}\sum_{i=1}^n (r_i-y_i)^2w_i

을 최소화하는 것의 필요충분조건은

j=1ir^jwj{j=1iyjwjfor  i=1, 2, , n=j=1iyjwjif  r^i+1>r^i  or  i=n\sum_{j=1}^i \hat{r}_jw_j \begin{cases} \le \sum_{j=1}^i y_jw_j &\text{for}~~i=1,~2,~\cdots,~n \\ =\sum_{j=1}^i y_jw_j &\text{if}~~\hat{r}_{i+1}>\hat{r}_i~~ \text{or}~~ i=n \end{cases}

이다.

rr의 추정함수 r^\hat{r}

(0,0), (w1, w1y1), , (j=1nwj, j=1nwjyj)(0,0),~(w_1,~w_1y_1),~\cdots,~(\sum_{j=1}^nw_j,~\sum_{j=1}^nw_jy_j)

convex minorant의 left derivative로 정의한다면 Lemma 2.1의 등식/부등식 조건을 만족하여, Q(r)Q(r)의 최소화원으로서 역할을 할 수 있었다. 여기서 기억해야 할 점은, 우리가 Q(r)Q(r)과 같은 quadratic form의 최소화원을 알고 있다는 것이다.

 

2. Newton Algorithm

Newton Algorithm은 (convex) function의 최소화원을 찾기 위한 알고리즘이다. 즉, 어떤 (convex) function ϕ:RnR\phi : \reals^n \rightarrow \reals를 최소화하는 θ^Rn\hat{\theta} \in \reals^n를 찾는 알고리즘이다. 알고리즘은 θ(0), θ(1),θ(2),\theta^{(0)},~\theta^{(1)}, \theta^{(2)}, \cdots와 같이 점진적으로 θ^\hat{\theta}를 찾아가게 된다.

    1. 초기값 θ(0)\theta^{(0)}를 설정
    1. k0k\ge0에 대하여,  θ(k+1)=A(θ(k))~\theta^{(k+1)}=A(\theta^{(k)})
      =arg minθ(ϕ(θ(k))+(θθ(k))Tϕ(θ(k))+12(θθ(k))T2ϕ(θ(k))(θθ(k)))= \argmin_{\theta} \bigg( \phi(\theta^{(k)})+(\theta-\theta^{(k)})^\mathrm{T}\nabla\phi(\theta^{(k)})+{1\over2}(\theta-\theta^{(k)})^\mathrm{T}\nabla^2\phi(\theta^{(k)})(\theta-\theta^{(k)}) \bigg)
      으로 정의
    1. 종료조건 달성 시까지 2를 반복

하지만 Newton Algorithm은 ϕ\phi의 실제 최소화원으로 수렴을 보장하지 못한다는 단점이 있다. 이는 ϕ\phi가 convex function이더라도 보장되지 않는다.

 

3. Iterative Convex Minorant Algorithm

Newton Algorithm을 보완할 새로운 알고리즘을 알아보자. 이 알고리즘은 convex function이 유일한 최소화원을 갖는다면, 반드시 그 최소화원으로의 수렴성을 보장하는 알고리즘이다. 다음과 같이 용어를 정의하고, 3가지를 가정하자.

ϕ\phi : 목적함수(objective funtion) - 최소화되길 원하는 함수
C={rRn : r1r2rn}C=\{r \in \reals^n~:~r_1 \le r_2 \le \cdots \le r_n\} : convex set

  • ϕ\phi : convex, continuous on CC
  • ϕ\phi : continuously differentiable on {βRn : ϕ(β)<}\{\beta \in \reals^n ~:~\phi(\beta)< \infin \}
  • β^\hat{\beta} : unique minimum of ϕ\phi on CC exist

이로부터 다음 동치관계가 성립한다.

β^=arg minβC ϕ(β)    {<β^, ϕ(β^)>=0<β, ϕ(β^)>0  for  all  βC\hat{\beta}=\argmin_{\beta \in C}~\phi(\beta)~~\Leftrightarrow~~ \begin{cases} <\hat{\beta},~\nabla\phi(\hat{\beta})>=0 \\ <\beta,~\nabla\phi(\hat{\beta})> \ge0~~\text{for~~all}~~ \beta\in C \end{cases}

이는 왼쪽과 같이 convex set 내부에 global minimum이 존재한다면 ϕ(β^)=0\nabla\phi(\hat{\beta})=\mathbf{0}이 되어 등식/부등식이 성립하고, 오른쪽과 같이 convex set 외부에 있더라도 최소화원은 convex set의 경계에 위치하게 되어 등식/부등식이 성립한다.

위 동치조건은 추후 Modified Iterative Convex Minorant Algorithm의 종료 조건으로 사용된다.

Iterative Convex Minorant Algorithm (이하 ICM)은 Newton Method와 유사한 방식으로 최소화원을 찾아간다.

    1. 초기값 β(0)\beta^{(0)}을 설정
    1. 이전 값(β(k))(\beta^{(k)})에서의 함수 ϕ\phi의 근사 함수의 최소화원을 다음 값(β(k+1))(\beta^{(k+1)})으로 설정
    1. 종료조건 달성 시까지 2를 반복

2번에서의 근사함수는 다음과 같이 정의된다. γC\gamma \in C 근방의 임의의 β\beta에 대하여, ϕ(γ+(βγ))\phi(\gamma+(\beta-\gamma))의 근사함수는

ϕ(γ+(βγ))ϕ(γ)+(βγ)Tϕ(γ)+12(βγ)TD(βγ)=ϕ(γ)+12(βγ+D1ϕ(γ))TD(βγ+D1ϕ(γ))12ϕ(γ)T(βγ+D1ϕ(γ))+12ϕ(γ)T(βγ)=ϕ(γ)+12(βγ+D1ϕ(γ))TD(βγ+D1ϕ(γ))+cγ\begin{aligned} \phi(\gamma+(\beta-\gamma)) &\approx \phi(\gamma)+(\beta-\gamma)^\mathrm{T}\nabla\phi(\gamma)+{1 \over 2}(\beta-\gamma)^\mathrm{T}D(\beta-\gamma) \\ &=\phi(\gamma) + {1 \over 2}(\beta-\gamma+D^{-1}\nabla\phi(\gamma))^\mathrm{T}D(\beta-\gamma+D^{-1}\nabla\phi(\gamma)) \\ &- {1 \over 2}\nabla\phi(\gamma)^\mathrm{T}(\beta-\gamma+D^{-1}\nabla\phi(\gamma))+{1\over2}\nabla\phi(\gamma)^\mathrm{T}(\beta-\gamma) \\ &=\phi(\gamma)+{1 \over 2}(\beta-\gamma+D^{-1}\nabla\phi(\gamma))^\mathrm{T}D(\beta-\gamma+D^{-1}\nabla\phi(\gamma))+c_\gamma \end{aligned}
where  cγ=12ϕ(γ)T(βγ+D1ϕ(γ))+12ϕ(γ)T(βγ)=12ϕ(γ)TD1ϕ(γ),\begin{aligned} \text{where}~~ c_\gamma &= -{1 \over 2}\nabla\phi(\gamma)^\mathrm{T}(\beta-\gamma+D^{-1}\nabla\phi(\gamma))+{1\over2}\nabla\phi(\gamma)^\mathrm{T}(\beta-\gamma) \\ &=-{1\over2}\nabla\phi(\gamma)^\mathrm{T}D^{-1}\nabla\phi(\gamma), \end{aligned}
D:positive diagonal matrix                                       D:\text{positive diagonal matrix~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~}

이고, 이러한 근사 함수를 최소화하는 최소화원 B(γ)B(\gamma)

B(γ)=arg minβC(ϕ(γ)+12(βγ+D1ϕ(γ))TD(βγ+D1ϕ(γ))+cγ)=arg minβC(12(βγ+D1ϕ(γ))TD(βγ+D1ϕ(γ)))=arg minβC(12i=1n(βiγi+1diβiϕ(γ))2di)\begin{aligned} B(\gamma)&=\argmin_{\beta \in C} \bigg(\phi(\gamma)+{1 \over 2}(\beta-\gamma+D^{-1}\nabla\phi(\gamma))^\mathrm{T}D(\beta-\gamma+D^{-1}\nabla\phi(\gamma))+c_\gamma \bigg)\\ &=\argmin_{\beta \in C} \bigg({1 \over 2}(\beta-\gamma+D^{-1}\nabla\phi(\gamma))^\mathrm{T}D(\beta-\gamma+D^{-1}\nabla\phi(\gamma)) \bigg) \\ &=\argmin_{\beta \in C}\bigg({1 \over 2}\sum_{i=1}^n \bigg(\beta_i-\gamma_i+{1 \over d_i}{\partial \over \partial\beta_i}\phi(\gamma)\bigg)^2d_i\bigg) \end{aligned}
where  di=Di,i\text{where}~~ d_i=D_{i,i}

이다. B(γ)B(\gamma)는 quadratic form이므로, 앞선 Lemma 2.1에서와 같이 convex minorant를 이용하면 B(γ)B(\gamma)를 구할 수 있다.

이러한 알고리즘은 ϕ\phi를 최소화하는 것이 아닌, ϕ\phi의 근사함수를 최소화하는 과정을 나타낸다. 그렇다면 근사함수를 최소화하는 것이 ϕ\phi를 최소화하는 것에 도움이 될까? Lemma 7.1은 그에 대한 일부 답변을 제시한다.

Lemma 7.1
앞선 가정을 만족하는 ϕ\phi와, ϕ(β)<\phi(\beta)<\infin을 만족하는 모든 βC{β^}\beta \in C \setminus\{\hat{\beta}\}에 대하여, 충분히 작은 λ>0\lambda>0가 존재하여

ϕ(β+λ(B(β)β))<ϕ(β)\phi(\beta+\lambda(B(\beta)-\beta))<\phi(\beta)

가 성립한다.

즉, ICM의 방법이 ϕ\phi를 최소화하는 방향임은 보장한다.

Lemma 7.1 Proof
ψ : [0,1]R\psi~:~[0, 1] \rightarrow \reals를 다음과 같이 정의하자.

ψ(λ)=ϕ(β+λ(B(β)β))\psi(\lambda)=\phi(\beta+\lambda(B(\beta)-\beta))

[Claim] : ψ(0+)=(B(β)β)Tϕ(β)<0\psi'(0+)=(B(\beta)-\beta)^\mathrm{T}\nabla\phi(\beta)<0
만약 위 Claim이 증명된다면

ψ(0+)ψ(0+λ)ψ(0)λ<0,\psi'(0+) \approx {\psi(0+\lambda)-\psi(0) \over \lambda}<0,
ψ(0+λ)ψ(0)=ϕ(β+λ(B(β)β))ϕ(β)<0\psi(0+\lambda)-\psi(0)=\phi(\beta+\lambda(B(\beta)-\beta)) - \phi(\beta)<0

와 같이 Lemma 7.1이 증명된다.

다음 두 사실로부터,

B(β)T(D(β)(B(β)β)+ϕ(β))=0B(\beta)^\mathrm{T}\big(D(\beta)(B(\beta)-\beta)+\nabla\phi(\beta)\big)=0
βT(D(β)(B(β)β)+ϕ(β))0\beta^\mathrm{T}\big(D(\beta)(B(\beta)-\beta)+\nabla\phi(\beta)\big) \ge 0

다음 부등식이 성립한다.

(B(β)β)TD(β)(B(β)β)+ψ(0)0(B(\beta)-\beta)^\mathrm{T}D(\beta)(B(\beta)-\beta)+\psi'(0) \le 0

하지만 βC{β^}\beta \in C \setminus \{\hat{\beta}\}이므로 D(β)D(\beta)는 positive definite이고, 따라서

(B(β)β)TD(β)(B(β)β)>0    ψ(0)<0(B(\beta)-\beta)^\mathrm{T}D(\beta)(B(\beta)-\beta)>0~~\rArr~~\psi'(0)<0

가 성립한다.

Lemma 7.1은 감소 방향에 대한 해답은 주지만, β^\hat{\beta}까지 감소하는지에 (=최소화원으로의 수렴성) 대해서는 보장하지 않는다. 이를 보완하는 알고리즘을 소개한다.

 

4. Modified Iterative Convex Minorant Algorithm

Modified Iterative Convex Minorant Algorithm (이하 MICM)은 ICM의 알고리즘에 β^\hat{\beta}으로의 수렴성을 더한 방법이다. ICM에서의 방법과 같이 β(0),β(1),β(2),\beta^{(0)}, \beta^{(1)}, \beta^{(2)}, \cdots으로 β^\hat{\beta}를 점진적으로 찾아가며, 그 관계는 다음과 같다.

β(k+1)=C(β(k))={B(β(k))    if  ϕ(B(β(k)))<ϕ(β(k))+(1ϵ)ϕ(β(k))T(B(β(k))β(k))x{yseg(β(k), B(β(k)))  (1ϵ)ϕ(β(k))T(yβ(k))ϕ(y)ϕ(β(k))ϵϕ(β(k))T(yβ(k))}    else\beta^{(k+1)}= C(\beta^{(k)})=\begin{cases} B(\beta^{(k)})~~~~\text{if}~~\phi(B(\beta^{(k)}))<\phi(\beta^{(k)})+(1-\epsilon)\nabla\phi(\beta^{(k)})^\mathrm{T}(B(\beta^{(k)})-\beta^{(k)}) \\ x \in \{y \in \text{seg}(\beta^{(k)},~B(\beta^{(k)}))~|~(1-\epsilon)\nabla\phi(\beta^{(k)})^\mathrm{T}(y-\beta^{(k)}) \le \phi(y)-\phi(\beta^{(k)}) \le \epsilon\nabla\phi(\beta^{(k)})^\mathrm{T}(y-\beta^{(k)})\}~~~~\text{else} \end{cases}
where  ϵ(0, 0.5)\text{where~~}\epsilon \in(0,~0.5)

위 관계식을 그림으로 살펴보자. ϕ\phi를 최소화하는 것이 목표지만, 이를 ψ\psi 관점에서 살펴볼 것이다.

1) ϕ(B(β(k)))<ϕ(β(k))+(1ϵ)ϕ(β(k))T(B(β(k))β(k))\phi(B(\beta^{(k)})) < \phi(\beta^{(k)})+(1-\epsilon)\nabla\phi(\beta^{(k)})^\mathrm{T}(B(\beta^{(k)})-\beta^{(k)})
부등식의 오른쪽 항은 ϕ(β(k))+(1ϵ)ψ(0)\phi(\beta^{(k)})+(1-\epsilon)\psi'(0)과 같다. 이는 아래와 같이 기울기가 (1ϵ)ψ(0)(1-\epsilon)\psi'(0)이고 (0,ϕ(β(k)))(0, \phi(\beta^{(k)}))를 지나는 직선이 λ=1\lambda=1에서의 함숫값과 같다.

이 직선은 항상 감소하며, 기울기에 1ϵ1-\epsilon을 곱함으로써 그래도 이 직선보다는 더 감소했으면 좋겠다의 정도로 해석할 수 있다. 부등식 조건에서는 ϕ(B(β(k)))\phi(B(\beta^{(k)}))가 직선보다 아래에 위치하므로 충분히 감소했다고 판단하여 β(k+1)=ϕ(B(β(k)))\beta^{(k+1)} = \phi(B(\beta^{(k)}))로 정의하였다고 볼 수 있다.

2) ϕ(B(β(k)))ϕ(β(k))+(1ϵ)ϕ(β(k))T(B(β(k))β(k))\phi(B(\beta^{(k)})) \ge \phi(\beta^{(k)})+(1-\epsilon)\nabla\phi(\beta^{(k)})^\mathrm{T}(B(\beta^{(k)})-\beta^{(k)})
1)의 해석에 따라, 기대한 만큼 충분히 감소하지 못했을 경우다. 아래 그림은 그럼에도 ϕ(B(β(k)))<ϕ(β(k))\phi(B(\beta^{(k)}))<\phi(\beta{(k)})인 상황이지만, 일반적으로 이렇다고 보장할 수 없다. 따라서 어떤 적절한 0<λ<10<\lambda<1을 선택하여, 그 때의 ψ(λ)\psi(\lambda)β(k+1)\beta^{(k+1)}로 선정할 것이다.

기대한 만큼 충분히 감소한 결과를 원하므로, 기울기가 (1ϵ)ψ(0)(1-\epsilon)\psi'(0)이고 (0,ϕ(β(k)))(0, \phi(\beta^{(k)}))을 지나는 직선보다 아래 영역에서 λ\lambda를 선택할 것이다. 대신 너무 조금 감소하는 경우를 배제하기 위해 기울기가 ϵψ(0)\epsilon\psi'(0)이고 (0,ϕ(β(k)))(0, \phi(\beta^{(k)}))을 지나는 직선보다 위 영역으로 λ\lambda 범위를 제한한다. 아래 그림에서의 연두색 영역과 같다.

해당 영역 내의 아무 λk\lambda_k를 선택하여 β(k+1)=ψ(λk)=β(k)+λk(B(β(k))β(k))\beta^{(k+1)}=\psi(\lambda_k)=\beta^{(k)}+\lambda_k(B(\beta^{(k)})-\beta^{(k)})로 정의한다.

이러한 알고리즘의 종료 조건은 다음과 같다.

i=jnβiϕ(β^){0    for  1jn=0    for  j=1\sum_{i=j}^n {\partial \over \partial\beta_i}\phi(\hat{\beta}) \begin{cases} \ge 0~~~~\text{for} ~~1\le j \le n \\ =0~~~~\text{for}~~j=1 \end{cases}

이는 다음 동치관계를 기반으로 결정되었다.

<β, ϕ(β^)>0  for  all  βC    i=jnβiϕ(β^){0    for  1jn=0    for  j=1<\beta,~\nabla\phi(\hat{\beta})> \ge0~~\text{for~~all}~~ \beta\in C ~~\Leftrightarrow~~ \sum_{i=j}^n {\partial \over \partial\beta_i}\phi(\hat{\beta}) \begin{cases} \ge 0~~~~\text{for} ~~1\le j \le n \\ =0~~~~\text{for}~~j=1 \end{cases}

Theorem 7.3은 MICM에 의해 β^\hat{\beta}으로 수렴함을 보인다.

Theorem 7.3
앞선 조건을 만족하는 ϕ:Rn(,]\phi:\reals^n \rightarrow(-\infin,\infin]와, ϕ(β(0))<\phi(\beta^{(0)})<\infin을 만족하는 β(k)C\beta^{(k)} \in C에 대하여, mapping βD(β)\beta \mapsto D(\beta)이 집합 K={βC : ϕ(β)ϕ(β(0))}K=\{\beta\in C~:~\phi(\beta) \le \phi(\beta^{(0)})\}에서 연속이 되도록 하는 positive definite diagonal matrix DD를 선택하면, Iterative Convex Minorant Algorithm은 β^\hat{\beta}로 수렴한다.

Theorem 7.3 Proof
모든 k0k \ge 0에 대하여 β(k)K\beta^{(k)} \in K고, K는 compact이다.
  \rArr~~[Enough to Show] : 모든 βK{β^}\beta \in K\setminus\{\hat{\beta}\}에서 Modified ICM 함수 CC가 닫혀있다.

만약 닫힘성(closedness)가 증명되면 7.1절의 Theorem 7.1에 의해 수렴성이 보장된다. (교재 참고)

임의의 βK{β^}\beta \in K \setminus\{\hat{\beta}\}β(k)β\beta^{(k)} \rightarrow \betaβ(k)K\beta^{(k)} \in K에 대하여, γ(k)\gamma^{(k)}

γ(k)C(β(k)),  γ(k)γ  for  some  γK\gamma^{(k)} \in C(\beta^{(k)}),~~\gamma^{(k)} \rightarrow \gamma~~\text{for~~some~~} \gamma \in K

로 정의하자.
  \rArr~~[Enough to Show] : γC(β)\gamma \in C(\beta)

다음 사실로부터,

ϕ(β(k))ϕ(β),   B(β(k))B(β)\nabla\phi(\beta^{(k)}) \rightarrow \nabla \phi(\beta),~~~B(\beta^{(k)}) \rightarrow B(\beta)

1) ϕ(B(β(k)))ϕ(β(k))+(1ϵ)ϕ(β(k))T(B(β(k))β(k))\phi(B(\beta^{(k)})) \le \phi(\beta^{(k)})+(1-\epsilon)\nabla\phi(\beta^{(k)})^\mathrm{T}(B(\beta^{(k)})-\beta^{(k)})

γ(kj)=B(β(kj))    for  each  j0\gamma^{(k_j)}=B(\beta^{(k_j)})~~~~\text{for~~each~~}j \ge 0
C(β)={B(β)}    as  β(k)βC(\beta)=\{B(\beta)\}~~~~\text{as~~}\beta^{(k)} \rightarrow \beta

가 성립하므로

γ(kj)B(β)    as  j\gamma^{(k_j)} \rightarrow B(\beta)~~~~\text{as~~} j \rightarrow \infin
γ=B(β)C(β)\gamma=B(\beta) \in C(\beta)

가 성립한다.

2) ϕ(B(β(k)))>ϕ(β(k))+(1ϵ)ϕ(β(k))T(B(β(k))β(k))\phi(B(\beta^{(k)})) > \phi(\beta^{(k)})+(1-\epsilon)\nabla\phi(\beta^{(k)})^\mathrm{T}(B(\beta^{(k)})-\beta^{(k)})
MICM에 의해

ϕ(γ(k))ϕ(β(k))[(1ϵ)ϕ(β(k))T(γ(k)β(k)),  ϵϕ(β(k))T(γ(k)β(k))]\phi(\gamma^{(k)})-\phi(\beta^{(k)}) \in [(1-\epsilon)\nabla\phi(\beta^{(k)})^\mathrm{T}(\gamma^{(k)}-\beta^{(k)}),~~\epsilon\nabla\phi(\beta^{(k)})^\mathrm{T}(\gamma^{(k)}-\beta^{(k)})]

이고, 충분히 큰 kk에 대하여

β(k)β,    γ(k)γ,    ϕ(β(k))ϕ(β)\beta^{(k)} \rightarrow \beta,~~~~\gamma^{(k)} \rightarrow \gamma,~~~~\nabla\phi(\beta^{(k)}) \rightarrow \nabla\phi(\beta)

가 성립하므로

ϕ(γ)ϕ(β)[(1ϵ)ϕ(β)T(γβ),  ϵϕ(β)T(γβ)]\phi(\gamma)-\phi(\beta) \in [(1-\epsilon)\nabla\phi(\beta)^\mathrm{T}(\gamma-\beta),~~\epsilon\nabla\phi(\beta)^\mathrm{T}(\gamma-\beta)]

이고, 따라서

γC(β)=seg(β, B(β))\gamma \in C(\beta)= \text{seg}(\beta,~B(\beta))

가 성립한다.

MICM의 전체 과정은 다음과 같다.

0개의 댓글