참고교재
- Groeneboom and Jongbloed (2014), Nonparametric Estimation under Shape Constraints, Cambridge University Press.
1. Monotone Regression
xi가 고정값이며 증가함에 따라 yi가 확률변수
Yi=r(xi)+ϵi
의 실현값이라 하자. 여기서 r은 xi를 통해 Yi를 설명하고자 하는 함수이며, ϵi는 E(ϵi)=0을 만족하는 확률변수(노이즈)이다. 우리의 목표는 단조함수 r을 추정하는 것이다. (단조 증가 or 단조 감소)
단조 증가가 가정된 함수 r을 추정한다고 하자. 관측에 의해 얻어진 실현값은 노이즈(ϵi) 때문에 단조성이 나타나지 않을 수 있다. (yi>yi+1인 실현값이 존재할 수 있다) 그럼에도 실현값만을 참고하면서, 실현값을 가장 잘 설명하는 단조 증가함수가 무엇일지 추정하는 과정이다.
다음 데이터를 예시로 살펴보자. 12세~18세 여자 아이들의 신장을 조사한 데이터다.

이때, 나이에 따른(12세~18세) 여자 아이들의 신장의 경향성을 설명하는 함수 r을 모델링하고자 한다. 그러한 r을 가장 잘 나타낸 r^은 다음과 같이 나타낼 수 있다.
r^=r∈Margmin21i=1∑n(yi−r(xi))2wi, where M={f:R→R ∣ f(u)≤f(v) for all u≤v}
즉, 단조 증가하는 함수 중 위의 quadratic form을 최소화하는 r이 우리가 원하는 함수라는 뜻이다. r^을 찾기에 앞서, 위 식은 오직 함수 r의 이산적인 함숫값에 의해서만 결정된다. 즉 xi가 아닌 곳에서의 함숫값은 위 식의 최소화에 영향을 주지 않으므로, xi가 아닌 점에서 r의 함숫값은 상수함수라 가정한다.
Lemma 2.1에서는 위와 같은 상황에서 r^의 필요충분조건을 서술한다. 어차피 r^의 x1, x2, ⋯, xn에서의 함숫값만 결정하면 되므로 r^=(r^(x1), r^(x2), ⋯, r^(xn))인 벡터를 추정하는 것으로 생각할 수 있다.
Lemma 2.1
r^이 convex cone C={(r1, r2, ⋯, rn)∈Rn ∣ r1≤r2≤ ⋯rn}에서 strictly convex function
Q(r)=21i=1∑n(ri−yi)2wi
을 최소화하는 것의 필요충분조건은
j=1∑ir^jwj{≤∑j=1iyjwj=∑j=1iyjwjfor i=1, 2, ⋯, nif r^i+1>r^i or i=n
이다.
위 필요충분조건이 말하는 바는, 기본적으로 i=1, 2, ⋯, n일 때 부등식이 성립하면서도 추가로 r^i+1>r^n이거나 i=n일 때는 등식까지 성립한다는 것이다.
Lemma 2.1 Proof
1. 부등식(⇔)
벡터 v(i)=(0, ⋯ 0, ,1 , ⋯, 1) (ith 성분까지 0, 그 이후로는 1, 1≤i≤n)을 정의하자. 그렇다면 모든 i와 모든 ϵ>0에 대하여 r^−ϵv(i)∈C이다. Q(r)이 strictly convex 함수이므로
ϵ→0+limϵ−1(Q(r^−ϵv(i))−Q(r^))≥0
는 자연스럽다. (Q(r)을 최소화하는 r^에서 어떤 방향으로든(ϵv(i)) 벗어나면 Q(r)의 값은 커진다.)
이때, Q(r)의 정의에 의해
Q(r^−ϵv(i))−Q(r^)=21j=1∑n(ϵvj(i)wj(ϵvj(i)−2r^j+2yj))
이므로
ϵ→0+limϵ−1(Q(r^−ϵv(i))−Q(r^))=j=1∑i(yj−r^j)wj≥0
이다.
2. 등식(⇔)
r^i+1>r^i 조건 하에, 충분히 작은 ϵ>0에 대하여 r^i+ϵ<r^i+1이 성립하므로 r^+ϵv(i)∈C이다. 따라서
Q(r^+ϵv(i))−Q(r^)=21j=1∑n(ϵvj(i)wj(ϵvj(i)+2r^j−2yj))
이고,
ϵ→0+limϵ−1(Q(r^+ϵv(i))−Q(r^))=j=1∑i(r^j−yj)wj≥0
이다. 1에서 증명한 사실에 의해
j=1∑ir^jwj=j=1∑iyjwj
이다.
Lemma 2.1에 의해,
j=1∑ir^jwj{≤∑j=1iyjwj=∑j=1iyjwjfor i=1, 2, ⋯, nif r^i+1>r^i or i=n
를 만족하는 r^을 정의할 수 있다면 이것이 곧 Q(r)의 최소화원이 된다. 이때 r^을
(0,0), (w1, w1y1), ⋯, (j=1∑nwj, j=1∑nwjyj)
의 convex minorant의 left derivative로 정의한다면 위 조건을 만족하게 되어, Q(r)의 최소화원이 될 수 있다. 12세~18세 여자 아이들의 평균 신장의 편차(xˉi−xˉ) 데이터를 기반으로 점들을 정의하고, 이것의 convex minorant을 그린 결과는 다음과 같다.

convex minorant는 convex한 꼴을 이루기 때문에, 실선의 기울기는 단조 증가한다. 따라서 단조 증가하는 r의 추정치로서 사용하기에 적합하며, Lemma 2.1은 이 기울기가 최소화원임을 보장한다.
일반적으로는 평균 신장의 편차가 아닌, 평균 신장 데이터를 기반으로 convex minorant를 그리지만, 명확한 시각화를 위해 편차를 활용하였다. 편차를 이용하더라도 원래 구하고자 하던 기울기는 어렵지 않게 구할 수 있다.
2. Estimation from Current Status Data
이번에 살펴볼 데이터는 1988년 오스트리아 남성 230명을 대상으로 조사한 Rubella(풍진) 발병 여부 데이터다.

Ti : [관측] 각 남성의 태어난 연도로부터의 조사 시점(years)
Δi : [관측] 풍진 발병 여부 (발병했다(Δi=1), 발병하지 않았다(Δi=0))
Xi : [추정] 오스트리아 남성에게 풍진이 발병하는 나이(years)
F : [추정] 나이에 따른 풍진 발병 분포 함수(CDF)
이로부터 오스트리아 남성의 풍진 발병 나이 함수(F)를 추정하자. 질병의 특성을 고려하여, 풍진이 한 번 발병하면 평생 지속된다고 가정한다. 관측 데이터 ti를 t1<t2<⋯<tn이 되도록 재배열한다.
각 데이터(남성)에 대하여, 조사 시점에 풍진이 발병되었을 확률은
P(Δi=1)=P(Xi<Ti)=F(ti)
이며, 조사 시점에 풍진이 발병되지 않았을 확률은
P(Δi=0)=P(Xi>Ti)=1−F(ti)
이다. 이로부터 F에 대한 log likelihood function을
l(F)=i=1∑nδilogF(ti)+(1−δi)log(1−F(ti))
로 정의할 수 있다. 이제 문제는 l(F)를 최대화하는 F^를 찾는 것이다.
앞선 예시에서와 같은 이유로 F^는 ti 이외의 점에서 상수함수로 가정할 수 있다. Lemma 2.3은 이러한 문제에서 최대화원 F^이 무엇인지 알려준다.
Lemma 2.3
다음과 같이 Pi를 정의하자.
P0=(0, 0), Pi=(i, j=1∑iδj), 1≤i≤n
F^(ti)를 Pi로 만든 convex minorant의, Pi에서의 left derivative로 정의하면 F^는 l(F)의 유일한 최대화원이다.
Lemma 2.3 Proof
1. 최대화원
l(F)를 잘 정의하기 위해 다음 두 가지를 가정하자.
- δ1=1
- δn=0
Pi의 정의에 의해, Pi로 만든 convex minorant의 기울기는 0 이상 1 이하임을 알 수 있다. δ1=1을 가정하여 logF(t1)을, δn=0을 가정하여 logF(tn)을 잘 정의하도록 한다.
l(F)는 strictly concave 함수이므로, F(t1)≤F(t2)≤⋯≤F(tn)을 만족하는 모든 F에 대하여
ϵ→0+limϵ−1(l(F^+ϵ(F−F^))−l(F^))≤0
임을 보이면 F^이 l(F)의 최대화원임이 증명된다. 위 부등식의 의미는, F^로부터 어떤 방향으로라도 멀어진다면 l(F)의 기울기가 감소(or 0)한다는 뜻이다.
ϵ→0+limϵ−1(l(F^+ϵ(F−F^))−l(F^))=ϵ→0+limϵ−1i=1∑n(δilog(1+F^(ti)ϵ(F(ti)−F^(ti)))+(1−δi)log(1+1−F^(ti)−ϵ(F(ti)−F^(ti))))=i=1∑n(δiF^(ti)F(ti)−F^(ti)−(1−δi)1−F^(ti)F(ti)−F^(ti))=i=1∑nF^(ti)(1−F^(ti))F(ti)(δi−F^(ti))−i=1∑n1−F^(ti)δi−F^(ti)=:I1−I2
이므로, I1−I2≤0임을 보이자. Pi로 만든 convex minorant에서 꺾이는 점(=convex minorant가 지나는점)을
0=i0<i1<⋯<ik=n
이라 정의하자. ti 이외에서 F^는 상수함수라고 정의하였으므로
F^(ti)=F^(tij), ij−1<i≤ij
가 성립한다.
1-1. I1≤0
I1=i=1∑nF^(ti)(1−F^(ti))F(ti)(δi−F^(ti))=j=1∑kF^(tij)(1−F^(tij))1i=ij−1+1∑ijF(ti)(δi−F^(ti))
이고, F(t1)≤F(t2)≤⋯≤F(tn)의 특성에 의해 어떤 αm≥0에 대하여
F(ti)=m=ij−1+1∑iαm, ij−1<i≤ij
로 나타낼 수 있다. 따라서
i=ij−1+1∑ijF(ti)(δi−F^(ti))=i=ij−1+1∑ij(m=ij−1+1∑iαm)(δi−F^(ti))=m=ij−1+1∑ijαmi=m∑ij(δi−F^(ti))≤0
이고, I1≤0이다.
1-2. I2=0
I2=j=1∑ki=1∑n1−F^(ti)δi−F^(ti)=j=1∑k1−F^(ti)1i=1∑n (δi−F^(ti))=0
이다. ij−1<i≤ij에서 ∑i=1nδi는 직각삼각형의 높이이고, F^(ti)는 기울기가 되어 ∑i=1nF^(ti)는 (기울기 × 밑변 = 높이)가 되어 ∑i=1nδi와 같아진다.
위의 두 사실로부터
ϵ→0+limϵ−1(l(F^+ϵ(F−F^))−l(F^))=I1−I2≤0
이 성립한다.
2. 유일성
최대화원 F^가 유일하기 위해선
ϵ→0+limϵ−1(l(F^+ϵ(F−F^))−l(F^))<0
가 성립해야 한다. 즉, 등호가 성립할 수 없음을 보일 것이다.
ϵ→0+limϵ−1(l(F^+ϵ(F−F^))−l(F^))=0⇔ I1=0⇔ i=m∑ij(δi−F^(ti))=0
이고, 이는 convex minorant가 모든 Pi를 지나는 것과 동치이고, 모든 i에서 δi=1임과 동치다. 이는 앞서 세운 가정인 δn=0에 모순이므로,
ϵ→0+limϵ−1(l(F^+ϵ(F−F^))−l(F^))=0
은 불가능하다. 따라서 최대호원 F^는 유일하다.
풍진 발병 데이터의 Pi와 이들로 만든 convex minorant는 (a)와 같고, 이로부터 추정한 풍진 발병 나이 분포함수(CDF) F^는 (b)와 같다. 대부분 20대 이후에는 풍진 바이러스를 보유함을 알 수 있다.
