[Week 1] Statistical estimation [2]

ESC·2023년 12월 13일
0

2023-Spring

목록 보기
2/9

4. Chebyshev and Chernoff bounds

Chebyshev bounds

이번에는 우리가 잘 아는 확률에 관한 부등식들을 살펴보고, 이들의 더욱 일반적인 형태가 컨벡스 최적화 문제로 표현될 수 있음을 보일 것이다. 먼저 우리가 잘 아는 R\mathbb{R}에서 정의된 XX에 대한 Markov inequality와 Chebyshev inequality를 살펴보자.

1. Markov inequality.

확률변수 XX와 non negative function u(x)u(x), 상수 kk에 대해 P(u(X)k)E(u(X))k\mathbb{P}(u(X) \geq k) \leq \frac{E(u(X))}{k}이다.

2. Chebyshev inequality.

평균이 μ\mu, 분산이 σ2\sigma^2인 확률변수 XX와 상수 kk에 대해 P(Xμk)σ2k\mathbb{P}(|X-\mu| \geq k) \leq \frac{\sigma^2}{k}이다.

Markov inequality를 일반화해, SRmS\subseteq \mathbb{R}^m에서 정의된 확률변수 XX에 대하여 P(XC),CS\mathbb{P}(X \in C),\,\,C\subseteq S의 upper bound를 찾고 싶다고 하자. 먼저 CC에 대한 indicator function 1C(z)={1zC0zC1_C(z)=\begin{cases}1\,\,\,\,z\in C\\0\,\,\,\,z\notin C \end{cases}를 정의하자. 우리가 가진 사전 정보는 XX에 대한 어떤 함수들 fif_i에 대한 평균 Efi(X)=aiE f_i(X) = a_i이다. (이 때 f0(z)=1f_0(z) = 1로 설정하자. 그러면 Ef0(X)=a0=1Ef_0(X) =a_0 = 1로 절편 역할을 한다.)
이제 그들의 linear combination f(z)=i=0nxifi(z)f(z) = \sum_{i=0}^n x_i f_i(z)를 정의하자. 이때 임의의 zSz\in S에 대하여 f(z)1C(z)f(z) \geq 1_C(z)가 되도록 linear combination을 제한하면, Ef(z)=aTxE1C(z)=P(XC)E f(z)=a^Tx \geq E 1_C(z) = \mathbb{P}(X \in C)임을 알 수 있다. 이때 f(z)f(z)1C(z)1_C(z)최대한 가깝게 선택하면 확률에 대한 가장 타이트한 upper bound를 얻을 수 있다. 즉, 어떤 집합 CC에서의 확률에 대한 upper bound는 CC의 바깥쪽 경계를 linear function으로 최대한 타이트하게 근사시키는 최적화 문제와 같다. (물론 어디까지나 선형 근사이므로 다른 형태의 더 타이트한 근사가 존재할 수 있다.) 이를 수식으로 정리하면 아래와 같다.

minimizeaTx=x0+a1x1+anxn\text{minimize}\,\,a^Tx = x_0 + a_1 x_1 + \cdots a_n x_n
subject toi=0nxifi(z)1zC\text{subject to}\,\,\sum_{i=0}^n x_if_i(z) \geq 1\,\,\forall z \in C
i=0nxifi(z)0zS\C\quad\quad\quad\quad\,\,\,\,\sum_{i=0}^n x_if_i(z) \geq 0\,\,\forall z\in S \backslash C

이 문제는 constraint가 linear inequality 형태이므로 컨벡스 최적화 문제이다. 가령 여기에서 S=R+,C=[1,),f1(z)=z,Ef1(z)=μ1S = \mathbb{R}_+,\,\,C = [1, \infty),\,\,f_1(z)=z,\,\,Ef_1(z) = \mu \leq 1로 설정하면 objective는 x0+x1μx_0 + x_1 \mu, 제약식은 x0+x11x_0 + x_1 \geq 1x0,x10x_0,\,x_1 \geq 0으로 축약되는 것을 알 수 있다. 0μ10\leq \mu \leq 1이므로 이 문제의 최적값은 x0=0,x1=1x_0 = 0,\,x_1=1이다. 따라서 Markov inequality의 가장 단순한 형태인 P(X1)μ\mathbb{P}(X \geq 1) \leq \mu가 도출된다.

이번에는 확률변수 XX의 1, 2차 적률(moment)에 대한 정보인 EX=aRm,EXXT=ΣSmEX = a \in \mathbb{R}^m,\,\,EXX^T = \Sigma \in \mathbb{S}^m를 알고 있다고 해 보자. 이것은 우리가 mm개의 z1,...,zmz_1,\,...,z_m의 평균과 m(m+1)/2m(m+1)/2개의 z1z1,...,zmzmz_1z_1,\,...,z_mz_m의 평균에 대한 정보를 가진 것과 같다. 이번에는 이들의 결합인 f(z)=zTPz+2qTz+r,PSm,qRm,rRf(z) = z^TPz + 2q^Tz + r,\,P\in \mathbb{S}^m,\,q\in \mathbb{R}^m,\,\,r\in \mathbb{R}의 quadratic function으로 선택하자. 그러면 Ef(X)=E(XTPX+2qTX+r)=E(tr(PXXT))+2E(qTX)+r=tr(ΣP)+qTa+rEf(X) = E(X^TPX + 2q^TX + r) = E(\textbf{tr}(PXX^T)) + 2E(q^TX) + r = \textbf{tr}(\Sigma P) + q^Ta + r이다. 이때 모든 zz에 대해 f(z)0f(z) \geq 0의 제약식은 linear matrix inequality [PqqTr]0\begin{bmatrix} P & q \\ q^T & r \end{bmatrix} \succeq 0과 동치이다. 이제 Chebyshev bound 문제를 다변수로 확장해 보자. 그러면 우리가 probability bound를 찾고자 하는 집합 CC는 다음과 같은 polyhedron의 바깥쪽 집합으로 정의할 수 있다.
C=Rm\P,P={zaiTz<bi,i=1,...,k}C = \mathbb{R}^m \backslash\mathcal{P},\,\,\mathcal{P}=\{z\,|a_i^Tz < b_i,\,i=1,\,...,\,k\}
이제 zCz\in C에 대해 f(z)1f(z) \geq 1의 제약식은 aiTzb    zTPz+qTz+r1a_i^T z \geq b \implies z^TPz + q^Tz + r \geq 1로 표현할 수 있다. 이제 아래의 S-procedure를 이용해 이 제약식 역시 convex constraint로 바꿀 수 있다. 증명은 생략하겠다.

S-procedure
FiSn,giRn,hiRF_i\in \mathbb{S}^n,\,g_i \in \mathbb{R}^n,\,h_i\in\mathbb{R}에 대하여

xTF1x+2g1Tx+h10    xTF2x+2g2Tx+h20    λ0s.t.[F2g2g2Th2]λ[F1g1g1Th1]x^TF_1x + 2g_1^T x + h_1 \geq 0 \implies x^TF_2x + 2g_2^T x + h_2 \geq 0 \iff \exists \lambda \geq 0\,\,\text{s.t.}\,\,\begin{bmatrix} F_2 & g_2 \\ g_2^T & h_2 \end{bmatrix} \succeq \lambda\begin{bmatrix} F_1 & g_1 \\ g_1^T & h_1 \end{bmatrix}

이를 적용하면 이 제약식은 τi,i=1,...,ks.t.[PqqTr1]τi[0ai/2aiT/2bi]\exists \tau_i,\,i=1,\,...,\,k\,\,\text{s.t.}\,\,\begin{bmatrix} P & q \\ q^T & r-1 \end{bmatrix}\succeq \tau_i \begin{bmatrix} 0 & a_i/2 \\ a_i^T/2 & -b_i \end{bmatrix}로 표현될 수 있다. 이제 알아낸 사실들을 정리해 Chebyshev bound를 최적화 문제로 표현하면 아래와 같다.

minimizetr(ΣP)+qTa+r\text{minimize}\,\,\textbf{tr}(\Sigma P) + q^Ta + r
subject to[PqqTr]0,[PqqTr1]τi[0ai/2aiT/2bi]\text{subject to}\,\,\begin{bmatrix} P & q \\ q^T & r \end{bmatrix} \succeq 0,\,\,\begin{bmatrix} P & q \\ q^T & r-1 \end{bmatrix}\succeq \tau_i \begin{bmatrix} 0 & a_i/2 \\ a_i^T/2 & -b_i \end{bmatrix}
τi0i=1,...,k\quad\quad\quad\quad\quad\tau_i \geq 0\,\,\forall i=1,\,...,\,k

이 문제는 P,q,r,τ1,...,τkP,\,q,\,r,\tau_1,\,...,\,\tau_k에 대한 SDP에 속한다. 그리고 Optimal value인 α\alpha는 평균이 aa이고 covariance가 Σ\Sigma인 임의의 probability distribution에서 P(XC)\mathbb{P}(X\in C)의 upper bound이다.

Chernoff bounds

3. Chernoff bounds.
R\mathbb{R}에서 정의된 XX에 대하여
P(Xu)infλ0E(eλ(Xu))    logP(Xu)infλ0{λu+logEeλX}\mathbb{P}(X \geq u) \leq \underset{\lambda \geq 0}{\inf}\,E(e^{\lambda(X-u)}) \iff \log \mathbb{P}(X \geq u) \leq \underset{\lambda \geq 0}{\inf}\{-\lambda u + \log E e^{\lambda X}\}

이 부등식은 사실 Markov inequality에서 u(x)=etx,k=etuu(x) = e^{tx},\,k=e^{tu}로 설정한 것에 불과하다. 그리고 mgf에 로그를 취한 형태인 logEeλX\log E e^{\lambda X}cumulant generating function이라고 한다. 이 함수는 항상 convex이기 때문에 이 문제의 목적함수 역시 convex이다. 가령 XX가 standard normal distribution일 때 logM(λ)=λ22\log M(\lambda) = \frac{\lambda^2}{2}이고 λu+λ2/2-\lambda u + \lambda^2/2의 infimum은 λ=u\lambda=u일 때이므로 P(Xu)eu2/2\mathbb{P}(X \geq u) \leq e^{-u^2/2}의 bound를 얻을 수 있다.

이제 이것을 Rm\mathbb{R}^m에서 정의된 XX에 대해 확장해 보자. 아까와 같이 우리의 목표는 P(XC)\mathbb{P}(X \in C)에 대한 probability bound를 찾는 것이다. 물론 수치적분이나 몬테카를로 시뮬레이션 등 P(XC)\mathbb{P}(X \in C)를 계산할 방법이 없는 것은 아니지만 이는 보통 아주 많은 계산량을 요구하기 때문에 최적화의 관점에서 더 나은 방법을 찾아보자. Indicator function 1C1_C를 아까와 동일하게 정의하고, λRm\lambda \in \mathbb{R}^mμR\mu \in \mathbb{R}에 대해 f(z)=eλTz+μf(z) = e^{\lambda^Tz + \mu}로 정의하자. 이전의 설정과 동일하게 f(z)1C(z)f(z) \geq 1_C(z)가 만족된다면 P(XC)=E1C(X)Ef(X)\mathbb{P}(X \in C) = E 1_C(X) \leq E f(X)의 bound를 찾을 수 있다. 우선 모든 zz에 대해 f(z)0f(z) \geq 0은 항상 만족되고, zCz \in C에 대해 f(z)1f(z) \geq 1을 만족하려면 λTz+μ0\lambda^T z + \mu \geq 0이 만족되어야 한다. 따라서 이 조건이 만족될 경우

logP(XC)μ+logEexp(λTX)\log \mathbb{P}(X \in C) \leq \mu + \log E \exp(\lambda^TX)를 찾을 수 있다. 여기서부터 아래와 같이 Chernoff bound의 일반적인 형태를 얻는다.

logP(XC)inf{μ+logEexp(λTX)λTzμ}=infλ(supzC(λTz)+logEexp(λTX))=inf(SC(λ)+logEexp(λTX))\begin{aligned}\log \mathbb{P}(X \in C) &\leq \inf\{\mu + \log E \exp(\lambda^TX)\,|\, -\lambda^T z \leq \mu\}\\ &= \underset{\lambda}{\inf}\left(\underset{z\in C}{\sup}(-\lambda^T z) + \log E \exp(\lambda^T X)\right)\\ &= \inf(S_C(-\lambda) + \log E \exp(\lambda^T X)) \end{aligned}

여기에서 SCS_CCCsupport function을 뜻한다. 이 문제는 컨벡스 최적화 문제이다. 밑의 예제를 통해 좀 더 살펴보자.

Example. Chernoff bound for a Gaussian variable on a polyhedron

XNm(0,I)X \sim N_m(\mathbf{0}, I)라고 가정해 보자. 그러면 cumulant generating function은 logEexp(λTX)=λTλ/2\log E \exp(\lambda^T X) = \lambda^T \lambda /2 이다. 그리고 CC{xAxb}\{x\,|\,Ax \preceq b \}의 polyhedron으로 잡자. 그리고 support function SCS_C를 dual로 표현하면 아래와 같다.

SC(y)=sup{yTxAxb}=inf{yTxAxb}=sup{bTuATu=y,u0}by LP duality=inf{bTuATu=y,u0}\begin{aligned} S_C(y) &= \sup\{y^T x\,|\,Ax \preceq b \}\\ &= -\inf\{-y^T x\,|\, Ax \leq b\}\\ &= -\sup\{-b^T u\,| \,A^T u = y,\,u \succeq 0\}\quad\quad\quad\text{by LP duality}\\ &= \inf\{b^T u\,| \,A^T u = y,\,u \succeq 0\} \end{aligned}

이를 위에서 얻은 식에 대입하면
logP(XC)infλ(SC(λ)+logEexp(λTX))=infλinfu{bTu+λTλ/2u0,ATu+λ=0}\log \mathbb{P}(X \in C) \leq \underset{\lambda}{\inf}(S_C(-\lambda) + \log E \exp(\lambda^T X)) = \underset{\lambda}{\inf}\, \underset{u}{\inf}\{b^T u + \lambda^T \lambda/2 \,|\, u \succeq 0,\,A^T u + \lambda = 0\}
이다.

따라서 Chernoff bound는 u,λu,\,\lambda에 대한 아래 문제의 optimal value와 같다.

minimizebTy+λTλ/2\text{minimize}\,\,b^T y + \lambda^T \lambda/2
subject tou0,ATu+λ=0\text{subject to}\,\,u \succeq 0,\,\,A^Tu + \lambda = 0

이 문제에 대한 기하적인 해석이 가능한데, 우선 위 문제는 아래와 동치이다.

minimizebTu+(1/2)ATu22\text{minimize}\,\,b^T u + (1/2)||A^Tu||_2^2
subject tou0\text{subject to}\,\,u \succeq 0

그리고 이 문제는 아래 문제의 dual이다.

maximize(1/2)x22\text{maximize}\,\,-(1/2)||x||_2^2
subject toATxb\text{subject to}\,\,A^Tx \preceq b

따라서 P(XC)exp(dist(0,C)2/2)\mathbb{P}(X \in C) \leq \exp(-\textbf{dist}(0,C)^2/2)이다. 이 때 dist(0,C)\textbf{dist}(0,C)원점에서 CC까지의 Euclidean distance를 뜻한다.

5. Experiment design

Optimal experiment design이란 실험계획법의 한 분야로, 우리가 가정한 모델의 파라메터의 편향(bias)과 분산(variance)를 최소화할 수 있는 design matrix를 구성하는 것이다. 어떤 observation a1,,ama_1,\,…,a_m으로부터의 linear measurement 모델인 yi=aiTx+wi,i=1,,my_i = a_i^T x + w_i,\,i=1,\,…,\,m을 고려하자. 이 때 wiw_i가 unit variance를 지닌 iid gaussian noise라면, 우리는 이 모델의 mle가 least-squares solution인 x^=(i=1maiaiT)1i=1myiai\hat{x} = \left(\sum_{i=1}^m a_i a_i^T\right)^{-1} \sum_{i=1}^m y_i a_i임을 알고 있다. 그리고 estimation error e=x^xe = \hat{x} - x의 평균은 0이고 covariance matrix는 EeeT=(i=1maiaiT)1E ee^T = \left(\sum_{i=1}^m a_i a_i^T \right)^{-1}이다. 이제부터 이 행렬을 EE라고 지칭하자.
이때 paramter xx에 대한 α\alpha - confidence region은 {x(xx^)TE1(xx^)F1α(n,mn)}\{x\,|\,(x-\hat{x})^T E^{-1} (x-\hat{x}) \leq F_{1-\alpha}(n, m-n)\}으로 나타난다. 행렬 EE를 구성하는 a1,,ama_1,\,…,\,a_mpp개의 가능한 test vector v1,,vpRnv_1,\,…,\,v_p \in \mathbb{R}^n으로부터 선택되었다고 가정하자. 그리고 experiment design의 목적은 EE를 가능한 한 작게 만들 수 있는 aia_i들을 선택하는 것이다. 즉 가능한 pp개의 실험으로부터, 최대한의 정보를 뽑아낼 수 있는(most informative) mm개의 measurement를 찾아내는 것이 목적이다. mjm_jaia_ivjv_j의 값을 가지도록 선택된 개수라고 하자. 그러면 m1+mp=mm_1 + \cdots m_p = m임을 알 수 있고, E=(i=1maiaiT)1=(j=1pmjvjvjT)1E = \left(\sum_{i=1}^m a_i a_i^T \right)^{-1} = \left(\sum_{j=1}^p m_jv_j v_j^T \right)^{-1}이다. 이때 {v}\{v\}가 알려져 있기 때문에, error covariance는 각각의 실험이 선택된 수 {mj}\{m_j\}에만 의존한다. 따라서 변수 {mj}\{m_j\}에 대한 이 최적화 문제는 아래와 같은 vector optimization 문제로 나타낼 수 있다.

minimize (w.r.t.S+n)E=(j=1pmjvjvjT)1\text{minimize (w.r.t.}\,\mathbb{S}_+^n)\,\,E = \left(\sum_{j=1}^p m_jv_j v_j^T \right)^{-1}
subject tomj0,m1+mp=m,mjZ\text{subject to}\,\,m_j \geq 0,\,\,m_1 + \cdots m_p = m,\,\,m_j \in \mathbb{Z}

만일 positive semidefinite cone 상에서 EE~E \preceq \tilde{E}라면 우리는 EE를 선택했을 때, E~\tilde{E}보다 임의의 qq에 대하여 qTxq^Tx의 더 나은(분산이 작은) estimator를 얻을 수 있다. 이제 이 문제의 다양한 변형에 대해 알아보자.

The relaxed experiment design problem

위의 문제는 integer programming 문제이기 때문에 non-convex이고 따라서 큰 규모에서는 풀기 매우 복잡한데, 간단한 조작을 통해 이 문제에 대처할 수 있다. λi=mi/m\lambda_i = m_i/m라고 하자. 즉 λi\lambda_i는 실험 ii의 relative frequency를 뜻한다. 그리고 위의 문제를 λ\lambda에 대한 문제로 바꾸면 아래와 같다.

minimize (w.r.t.S+n)E=(1/m)(j=1pλiviviT)1\text{minimize (w.r.t.}\,\mathbb{S}_+^n)\,\,E = (1/m)\left(\sum_{j=1}^p \lambda_iv_i v_i^T \right)^{-1}
subject toλ0,1Tλ=1\text{subject to}\,\,\lambda \succeq 0,\,\,\mathbf{1}^T\lambda = 1

이것을 relaxed experiment design problem이라고 한다. 이 문제는 위와 달리 컨벡스 최적화 문제이다. Constraint 중의 하나인 정수 조건이 빠졌기 때문에 이 문제의 optimal value는 원래 문제의 optimal value의 lower bound이다. 만약 relaxed problem으로부터 정수 조건을 다시 맞추기 위해 mi=round(mλi)m_i = \textbf{round}(m\lambda_i)로 정의하면 이 솔루션은 sub-optimal solution이 된다. 그리고 sub-optimal한 λi~=(1/m)round(mλi)\tilde{\lambda_i} = (1/m)\textbf{round}(m\lambda_i)로 정의하면 λiλi~1/2m|\lambda_i - \tilde{\lambda_i}| \leq 1/2m이므로 mm이 커짐에 따라, 즉 데이터가 많아짐에 따라 λ\lambdaλ~\tilde{\lambda}는 거의 동일해진다.

그리고 λ\lambda는 probability distribution의 관점으로도 해석될 수 있다. 우리의 λ\lambda에 대한 선택은 각 실험 aia_iλj\lambda_j의 확률로 vjv_j가 된다는 것을 의미한다. 따라서 λ\lambdarandom experiment의 optimal probability distribution이 된다.

Scalarizations

위의 vector optimization 문제를 스칼라에 대한 문제로 바꾸는 몇가지 알려진 기준들에 대해 알아보자. 여기부터는 기본적으로 convexity를 위해 relaxed problem을 전제로 한다.

D-optimal design

이 기준은 confidence ellipsoid의 부피를 가장 작게 만들기 위한 것으로 아래와 같다.

minimizelogdet(i=1pλiviviT)1\text{minimize}\,\,\log \det\left(\sum_{i=1}^p \lambda_iv_i v_i^T \right)^{-1}
subject toλ0,1Tλ=1\text{subject to}\,\,\lambda \succeq 0,\,\,\mathbf{1}^T \lambda =1

E-optimal design

이 기준은 EE의 norm(maximum eigenvalue)를 최소화하는 것으로, confidence ellipsoid의 지름(diameter)을 가장 짧게 만들기 위한 것이다. 또한 이 기준은 q2=1||q||_2 = 1인 임의의 qq에 대하여 qTeq^Te의 분산을 최소화하는 것으로도 해석될 수 있다. 표현은 아래와 같다.

minimize(i=1pλiviviT)12\text{minimize}\,\, \Big\lVert\left(\sum_{i=1}^p \lambda_iv_i v_i^T \right)^{-1}\Big\rVert_2
subject toλ0,1Tλ=1\text{subject to}\,\,\lambda \succeq 0,\,\,\mathbf{1}^T \lambda =1

이 문제는 tRt\in \mathbb{R}λRp\lambda\in \mathbb{R}^p에 대한 아래의 SDP와 동일한 문제이다.

maximizet\text{maximize}\,\,t
subject toi=1pλiviviTtI\text{subject to}\,\, \sum_{i=1}^p \lambda_iv_i v_i^T \succeq tI
λ0,1Tλ=1\quad\quad\quad\quad\,\,\,\,\lambda \succeq 0,\,\,\mathbf{1}^T \lambda =1

A-optimal design

이 기준은 EE의 대각합을 최소화하는 것으로, error의 제곱의 평균을 최소화하는 기준이며 이유는 아래와 같다.

Ee22=Etr(eeT)=trE.E||e||_2^2 = E \textbf{tr}(ee^T) = \textbf{tr}\,E.

그리고 문제 표현은 아래와 같다.

minimizetr(i=1pλiviviT)1\text{minimize}\,\,\textbf{tr}\left(\sum_{i=1}^p \lambda_iv_i v_i^T \right)^{-1}
subject toλ0,1Tλ=1\text{subject to}\,\,\lambda \succeq 0,\,\,\mathbf{1}^T \lambda =1

이 문제 역시 E-optimal design처럼 아래와 같은 SDP로도 표현할 수 있다.

minimize1Tu\text{minimize}\,\,\mathbf{1}^Tu
subject to[i=1pλiviviTekekTuk]0,k=1,,n\text{subject to}\,\,\begin{bmatrix} \sum_{i=1}^p \lambda_i v_i v_i^T & e_k \\ e_k^T & u_k \end{bmatrix} \succeq 0,\,\,k=1,\,…,\,n
λ0,1Tλ=1\quad\quad\quad\quad\,\,\,\, \lambda \succeq 0,\,\,\mathbf{1}^T \lambda =1

Optimal experiment design and duality

위 세 문제들의 dual problem은 아래와 같다.

Dual of D-optimal, with variable WSnW \in \mathbb{S}^n, domain S++n\mathbb{S}_{++}^n

maximizelogdetW+nlogn\text{maximize}\,\,\log \det W + n \log n
subject toviTWvi1,i=1,,p\text{subject to}\,\,v_i^T W v_i \leq 1,\,\,i=1,\,…,\,p

Dual of E-optimal, with variable WSnW \in \mathbb{S}^n

maximizetrW\text{maximize}\,\,\textbf{tr}\,W
subject toviTWvi1,i=1,,p\text{subject to}\,\,v_i^T W v_i \leq 1,\,\,i=1,\,…,\,p
W0\quad\quad\quad\quad\,\,\,\,W \succeq 0

Dual of A-optimal, with variable WSnW \in \mathbb{S}^n

maximize(trW1/2)2\text{maximize}\,\,(\textbf{tr}\,W^{1/2})^2
subject toviTWvi1,i=1,,p\text{subject to}\,\,v_i^T W v_i \leq 1,\,\,i=1,\,…,\,p

예시로 D-optimal design의 dual을 도출하는 과정을 살펴보자.먼저 아래와 같이 primal problem을 XX에 대해 재표현한다.

minimizelogdetX1\text{minimize}\,\,\log \det X^{-1}

subject toX=i=1pλiviviT,λ0,1Tλ=1\text{subject to}\,\,X = \sum_{i=1}^p\lambda_iv_i v_i^T,\,\,\lambda \succeq 0,\,\,\mathbf{1}^T \lambda =1

그리고 dual variable을 도입해 라그랑지안을 도출하면

L(X,λ,Z,z,ν)=logdetX1+tr(Z(Xi=1pλiviviT))zTλ+ν(1Tλ1)L(X,\lambda,Z,z,\nu) = \log \det X^{-1} + \textbf{tr}\left(Z \left(X - \sum_{i=1}^p \lambda_i v_i v_i^T\right)\right) - z^T \lambda + \nu(\mathbf{1}^T \lambda - 1)

이때 XX에 대해 미분한 그래디언트를 0으로 놓으면 X1+Z=0-X^{-1} + Z = 0이고, λi\lambda_i에 대한 minimum은 viTZvizi+ν=0-v_i^T Z v_i - z_i + \nu = 0일 때만 존재한다. 따라서 이 조건을 대입하면 dual problem은

maximizen+logdetZν\text{maximize}\,\,n + \log \det Z - \nu

subject toviTZviν,i=1,,p\text{subject to}\,\,v_i^T Z v_i \leq \nu,\,\,i=1,\,…,\,p

이고, W=Z/νW = Z/\nu로 놓은 뒤 ν\nu에 대해 최적화해 빼내 주면 위의 문제가 도출된다.

위 문제들의 optimal solution WW^*v1,,vpv_1,\,…,\,v_p를 포함하고 원점을 중점으로 갖는 minimal ellipsoid {xxTWx1}\{x\,|\,x^T W^* x \leq 1 \}을 결정한다. 또한 WW^*λ\lambda^*는 complementary slackness 조건을 만족하는데, 이는 모든 ii에 대해 λi(1viTWvi)=0\lambda_i^*(1-v_i^T W^* v_i) = 0을 만족하므로 optimal experiment design에서는 ellipsoid의 표면에 위치한 실험들만을 선택하게 된다는 뜻이다.

아래는 xR2,p=20x \in \mathbb{R}^2,\,\,p=20에서의 예시이다. Optimal design은 원으로 표시된 test vector 중 minimal ellipsoid의 표면에 있는 색칠된 원만을 λ\lambda의 비율로 선택하는 것이다.

(1). D-optimal

(2). E-optimal

(3). A-optimal

(4). xx에 대한 90% confidence ellipsoid의 비교

profile
@Yonsei University

0개의 댓글