[2주차] Nonparametric MLE for the type-I interval censored data

김종해·2024년 1월 13일

[2023 동계] 연구학점제

목록 보기

2/7

참고교재

Groeneboom and Jongbloed (2014), Nonparametric Estimation under Shape Constraints, Cambridge University Press.

1. Monotone Regression

$x_i$ 가 고정값이며 증가함에 따라 $y_i$ 가 확률변수

Y_i=r(x_i)+\epsilon_i

의 실현값이라 하자. 여기서 $r$ 은 $x_i$ 를 통해 $Y_i$ 를 설명하고자 하는 함수이며, $\epsilon_i$ 는 $\mathrm{E}(\epsilon_i)=0$ 을 만족하는 확률변수(노이즈)이다. 우리의 목표는 단조함수 $r$ 을 추정하는 것이다. (단조 증가 or 단조 감소)

단조 증가가 가정된 함수 $r$ 을 추정한다고 하자. 관측에 의해 얻어진 실현값은 노이즈( $\epsilon_i$ ) 때문에 단조성이 나타나지 않을 수 있다. ( $y_i > y_{i+1}$ 인 실현값이 존재할 수 있다) 그럼에도 실현값만을 참고하면서, 실현값을 가장 잘 설명하는 단조 증가함수가 무엇일지 추정하는 과정이다.

다음 데이터를 예시로 살펴보자. 12세~18세 여자 아이들의 신장을 조사한 데이터다.

이때, 나이에 따른(12세~18세) 여자 아이들의 신장의 경향성을 설명하는 함수 $r$ 을 모델링하고자 한다. 그러한 $r$ 을 가장 잘 나타낸 $\hat{r}$ 은 다음과 같이 나타낼 수 있다.

\hat{r}=\argmin_{r \in M} {1 \over 2}\sum_{i=1}^n (y_i-r(x_i))^2w_i,~~~~\text{where~~}M=\{f:\reals \rightarrow \reals~|~f(u)\le f(v)~~\text{for~~all~~}u \le v\}

즉, 단조 증가하는 함수 중 위의 quadratic form을 최소화하는 $r$ 이 우리가 원하는 함수라는 뜻이다. $\hat{r}$ 을 찾기에 앞서, 위 식은 오직 함수 $r$ 의 이산적인 함숫값에 의해서만 결정된다. 즉 $x_i$ 가 아닌 곳에서의 함숫값은 위 식의 최소화에 영향을 주지 않으므로, $x_i$ 가 아닌 점에서 $r$ 의 함숫값은 상수함수라 가정한다.

Lemma 2.1에서는 위와 같은 상황에서 $\hat{r}$ 의 필요충분조건을 서술한다. 어차피 $\hat{r}$ 의 $x_1,~x_2,~\cdots,~x_n$ 에서의 함숫값만 결정하면 되므로 $\hat{r}=(\hat{r}(x_1),~\hat{r}(x_2),~\cdots,~\hat{r}(x_n))$ 인 벡터를 추정하는 것으로 생각할 수 있다.

Lemma 2.1
$\hat{r}$ 이 convex cone $C=\{(r_1,~r_2,~\cdots,~r_n)\in\reals^n ~|~ r_1 \le r_2 \le ~\cdots r_n\}$ 에서 strictly convex function

Q(r) = {1 \over 2}\sum_{i=1}^n (r_i-y_i)^2w_i

을 최소화하는 것의 필요충분조건은

\sum_{j=1}^i \hat{r}_jw_j \begin{cases} \le \sum_{j=1}^i y_jw_j &\text{for}~~i=1,~2,~\cdots,~n \\ =\sum_{j=1}^i y_jw_j &\text{if}~~\hat{r}_{i+1}>\hat{r}_i~~ \text{or}~~ i=n \end{cases}

이다.

위 필요충분조건이 말하는 바는, 기본적으로 $i=1,~2,~\cdots,~n$ 일 때 부등식이 성립하면서도 추가로 $\hat{r}_{i+1}>\hat{r}_n$ 이거나 $i=n$ 일 때는 등식까지 성립한다는 것이다.

Lemma 2.1 Proof
1. 부등식( $\Leftrightarrow$ )
벡터 $v^{(i)}=(0,~\cdots~0,~,1~,~\cdots,~1)$ ( $i^{th}$ 성분까지 $0$ , 그 이후로는 $1$ , $1 \le i \le n$ )을 정의하자. 그렇다면 모든 $i$ 와 모든 $\epsilon>0$ 에 대하여 $\hat{r}-\epsilon v^{(i)} \in C$ 이다. $Q(r)$ 이 strictly convex 함수이므로

\lim_{\epsilon \rightarrow 0+}\epsilon^{-1}\big( Q(\hat{r}-\epsilon v^{(i)})- Q(\hat{r})\big) \ge 0

는 자연스럽다. ( $Q(r)$ 을 최소화하는 $\hat{r}$ 에서 어떤 방향으로든( $\epsilon v^{(i)}$ ) 벗어나면 $Q(r)$ 의 값은 커진다.)

이때, $Q(r)$ 의 정의에 의해

Q(\hat{r} - \epsilon v^{(i)})-Q(\hat{r})={1 \over 2}\sum_{j=1}^n \big(\epsilon v_j^{(i)}w_j(\epsilon v_j^{(i)}-2\hat{r}_j+2y_j) \big)

이므로

\lim_{\epsilon \rightarrow 0+}\epsilon^{-1}\big( Q(\hat{r}-\epsilon v^{(i)})- Q(\hat{r})\big) =\sum_{j=1}^i \big(y_j-\hat{r}_j\big)w_j \ge0

이다.

2. 등식( $\Leftrightarrow$ )
$\hat{r}_{i+1}>\hat{r}_i$ 조건 하에, 충분히 작은 $\epsilon>0$ 에 대하여 $\hat{r}_i+\epsilon<\hat{r}_{i+1}$ 이 성립하므로 $\hat{r}+\epsilon v^{(i)} \in C$ 이다. 따라서

Q(\hat{r} + \epsilon v^{(i)})-Q(\hat{r})={1 \over 2}\sum_{j=1}^n \big(\epsilon v_j^{(i)}w_j(\epsilon v_j^{(i)}+2\hat{r}_j-2y_j) \big)

이고,

\lim_{\epsilon \rightarrow 0+}\epsilon^{-1}\big( Q(\hat{r}+\epsilon v^{(i)})- Q(\hat{r})\big) =\sum_{j=1}^i \big(\hat{r}_j-y_j\big)w_j \ge0

이다. 1에서 증명한 사실에 의해

\sum_{j=1}^i\hat{r}_jw_j=\sum_{j=1}^iy_jw_j

이다.

Lemma 2.1에 의해,

\sum_{j=1}^i \hat{r}_jw_j \begin{cases} \le \sum_{j=1}^i y_jw_j &\text{for}~~i=1,~2,~\cdots,~n \\ =\sum_{j=1}^i y_jw_j &\text{if}~~\hat{r}_{i+1}>\hat{r}_i~~ \text{or}~~ i=n \end{cases}

를 만족하는 $\hat{r}$ 을 정의할 수 있다면 이것이 곧 $Q(r)$ 의 최소화원이 된다. 이때 $\hat{r}$ 을

(0,0),~(w_1,~w_1y_1),~\cdots,~(\sum_{j=1}^nw_j,~\sum_{j=1}^nw_jy_j)

의 convex minorant의 left derivative로 정의한다면 위 조건을 만족하게 되어, $Q(r)$ 의 최소화원이 될 수 있다. 12세~18세 여자 아이들의 평균 신장의 편차( $\bar{x}_i-\bar{x}$ ) 데이터를 기반으로 점들을 정의하고, 이것의 convex minorant을 그린 결과는 다음과 같다.

convex minorant는 convex한 꼴을 이루기 때문에, 실선의 기울기는 단조 증가한다. 따라서 단조 증가하는 $r$ 의 추정치로서 사용하기에 적합하며, Lemma 2.1은 이 기울기가 최소화원임을 보장한다.

일반적으로는 평균 신장의 편차가 아닌, 평균 신장 데이터를 기반으로 convex minorant를 그리지만, 명확한 시각화를 위해 편차를 활용하였다. 편차를 이용하더라도 원래 구하고자 하던 기울기는 어렵지 않게 구할 수 있다.

2. Estimation from Current Status Data

이번에 살펴볼 데이터는 1988년 오스트리아 남성 230명을 대상으로 조사한 Rubella(풍진) 발병 여부 데이터다.

$T_i$ : [관측] 각 남성의 태어난 연도로부터의 조사 시점(years)
$\Delta_i$ : [관측] 풍진 발병 여부 (발병했다( $\Delta_i=1$ ), 발병하지 않았다( $\Delta_i=0$ ))
$X_i$ : [추정] 오스트리아 남성에게 풍진이 발병하는 나이(years)
$F$ : [추정] 나이에 따른 풍진 발병 분포 함수(CDF)

이로부터 오스트리아 남성의 풍진 발병 나이 함수( $F$ )를 추정하자. 질병의 특성을 고려하여, 풍진이 한 번 발병하면 평생 지속된다고 가정한다. 관측 데이터 $t_i$ 를 $t_1<t_2<\cdots<t_n$ 이 되도록 재배열한다.

각 데이터(남성)에 대하여, 조사 시점에 풍진이 발병되었을 확률은

\mathrm{P}(\Delta_i=1)=\mathrm{P}(X_i<T_i)=F(t_i)

이며, 조사 시점에 풍진이 발병되지 않았을 확률은

\mathrm{P}(\Delta_i=0)=\mathrm{P}(X_i>T_i)=1-F(t_i)

이다. 이로부터 $F$ 에 대한 log likelihood function을

l(F)=\sum_{i=1}^n \delta_i \log F(t_i)+(1-\delta_i) \log(1-F(t_i))

로 정의할 수 있다. 이제 문제는 $l(F)$ 를 최대화하는 $\hat{F}$ 를 찾는 것이다.

앞선 예시에서와 같은 이유로 $\hat{F}$ 는 $t_i$ 이외의 점에서 상수함수로 가정할 수 있다. Lemma 2.3은 이러한 문제에서 최대화원 $\hat{F}$ 이 무엇인지 알려준다.

Lemma 2.3
다음과 같이 $P_i$ 를 정의하자.

P_0=(0,~0),~~~~P_i=\bigg(i,~\sum_{j=1}^i\delta_j \bigg),~~1\le i \le n

$\hat{F}(t_i)$ 를 $P_i$ 로 만든 convex minorant의, $P_i$ 에서의 left derivative로 정의하면 $\hat{F}$ 는 $l(F)$ 의 유일한 최대화원이다.

Lemma 2.3 Proof
1. 최대화원
$l(F)$ 를 잘 정의하기 위해 다음 두 가지를 가정하자.

$\delta_1=1$
$\delta_n=0$
$P_i$ 의 정의에 의해, $P_i$ 로 만든 convex minorant의 기울기는 $0$ 이상 $1$ 이하임을 알 수 있다. $\delta_1=1$ 을 가정하여 $\log F(t_1)$ 을, $\delta_n=0$ 을 가정하여 $\log F(t_n)$ 을 잘 정의하도록 한다.

$l(F)$ 는 strictly concave 함수이므로, $F(t_1) \le F(t_2) \le \cdots \le F(t_n)$ 을 만족하는 모든 $F$ 에 대하여

\lim_{\epsilon \rightarrow 0+}\epsilon^{-1}\big(l(\hat{F}+\epsilon(F-\hat{F}))-l(\hat{F})\big) \le0

임을 보이면 $\hat{F}$ 이 $l(F)$ 의 최대화원임이 증명된다. 위 부등식의 의미는, $\hat{F}$ 로부터 어떤 방향으로라도 멀어진다면 $l(F)$ 의 기울기가 감소(or 0)한다는 뜻이다.

\begin{aligned} \lim_{\epsilon \rightarrow 0+}&\epsilon^{-1}\big(l(\hat{F}+\epsilon(F-\hat{F}))-l(\hat{F})\big)\\ &=\lim_{\epsilon \rightarrow 0+}\epsilon^{-1}\sum_{i=1}^n \bigg(\delta_i \log \bigg(1+{\epsilon\big(F(t_i)-\hat{F}(t_i)\big) \over \hat{F}(t_i)}\bigg)+(1-\delta_i) \log\bigg(1+{-\epsilon\big(F(t_i)-\hat{F}(t_i)\big) \over 1-\hat{F}(t_i)} \bigg)\bigg) \\ &=\sum_{i=1}^n\bigg(\delta_i {F(t_i)-\hat{F}(t_i) \over \hat{F}(t_i)} - (1-\delta_i){F(t_i)-\hat{F}(t_i) \over 1-\hat{F}(t_i)}\bigg) \\ &= \sum_{i=1}^n{F(t_i)(\delta_i-\hat{F}(t_i)) \over \hat{F}(t_i)(1-\hat{F}(t_i))} - \sum_{i=1}^n {\delta_i-\hat{F}(t_i) \over 1-\hat{F}(t_i)} \\ &=: I_1-I_2 \end{aligned}

이므로, $I_1-I_2 \le 0$ 임을 보이자. $P_i$ 로 만든 convex minorant에서 꺾이는 점(=convex minorant가 지나는점)을

0=i_0<i_1<\cdots<i_k=n

이라 정의하자. $t_i$ 이외에서 $\hat{F}$ 는 상수함수라고 정의하였으므로

\hat{F}(t_i)=\hat{F}(t_{i_j}),~~i_{j-1}<i\le i_j

가 성립한다.

1-1. $I_1 \le 0$

I_1=\sum_{i=1}^n{F(t_i)(\delta_i-\hat{F}(t_i)) \over \hat{F}(t_i)(1-\hat{F}(t_i))}=\sum_{j=1}^k {1 \over \hat{F}(t_{i_j})(1-\hat{F}(t_{i_j}))}\sum_{i=i_{j-1}+1}^{i_j}F(t_i)(\delta_i-\hat{F}(t_i))

이고, $F(t_1) \le F(t_2) \le \cdots \le F(t_n)$ 의 특성에 의해 어떤 $\alpha_m \ge 0$ 에 대하여

F(t_i)=\sum_{m=i_{j-1}+1}^i \alpha_m,~~i_{j-1}<i\le i_j

로 나타낼 수 있다. 따라서

\begin{aligned} \sum_{i=i_{j-1}+1}^{i_j}&F(t_i)(\delta_i-\hat{F}(t_i))\\ &=\sum_{i=i_{j-1}+1}^{i_j}\bigg(\sum_{m=i_{j-1}+1}^i\alpha_m\bigg)(\delta_i-\hat{F}(t_i))\\ &=\sum_{m=i_{j-1}+1}^{i_j}\alpha_m\sum_{i=m}^{i_j}(\delta_i-\hat{F}(t_i)) \le0 \end{aligned}

이고, $I_1 \le0$ 이다.

1-2. $I_2 = 0$

\begin{aligned} I_2&=\sum_{j=1}^k\sum_{i=1}^n {\delta_i-\hat{F}(t_i) \over 1-\hat{F}(t_i)}\\ &=\sum_{j=1}^k{1 \over 1-\hat{F}(t_i)}\sum_{i=1}^n\ \big(\delta_i-\hat{F}(t_i)\big)=0 \end{aligned}

이다. $i_{j-1}<i\le i_j$ 에서 $\sum_{i=1}^n \delta_i$ 는 직각삼각형의 높이이고, $\hat{F}(t_i)$ 는 기울기가 되어 $\sum_{i=1}^n\hat{F}(t_i)$ 는 (기울기 $\times$ 밑변 $=$ 높이)가 되어 $\sum_{i=1}^n \delta_i$ 와 같아진다.