4. Trust-Region Methods

son·2023년 1월 23일
0

개요

Line search는 search direction을 먼저 정하고, 그에 맞는 step length를 구한다. Trust-region은 모델이 objective function을 잘 나타내는 영역을 정의한다음, 그 영역에서의 minimzer를 선택한다. direction과 step length를 동시에 정한다 볼 수 있다.

본 챕터에서는 모델 mkm_{k}가 quadratic 하다고 가정한다.

mk(p)=fk+gkTp+12pTBkpm_{k}(p)=f_{k}+g^{T}_{k}p+\frac{1}{2}p^{T}B_{k}p

BkB_{k}는 이 때 symmetric matrix이고 gk=f(xk)g_{k}=\nabla f(x_{k}), fk=f(xk)f_{k}=f(x_{k})이다. 이는 ff의 Taylor series expansion에 기반한 것이다.

f(xk+p)=fk+gkTp+12pT2f(xk+tp)pf(x_{k}+p)=f_{k}+g^{T}_{k}p+\frac{1}{2}p^{T}\nabla^{2}f(x_{k}+tp)p

이니 mkf(xk+p)=O(p2)m_{k}-f(x_{k}+p)=O(\|p\|^{2})인 것을 볼 수있다. 각 iteration에서 다음 step은 아래의 subproblem 통해 얻을 수 있다.

limpRnmk(p)s.t.pΔk\lim_{p\in \mathbb{R}^{n}}m_{k}(p) \quad \text{s.t.} \quad \|p\|\leq \Delta_{k}

이 때, Δk>0\Delta_{k}>0이 trust-region의 radius이다. Constraint이 pTpΔk2p^{T}p\leq \Delta^{2}_{k}로 나타내어질 수도 있으니 objective와 constraint이 모두 quadratic하다. BkB_{k}가 positive definite이고 Bk1gkΔk\|B_{k}^{-1}g_{k}\|\leq \Delta_{k}면 이 subproblem은 쉽게 pkB=Bk1gkp^{B}_{k}=-B^{-1}_{k} g_{k} (full step이라고 부름)로 풀린다. 그 외의 경우는 다른 방법을 사용해야한다.

Trust-region radius를 정하기 위해 actual reduction(아래 식의 분자)과 predicted reduction(아래 식의 분모) 사이의 ratio ρk\rho_{k}를 사용한다.

ρk=f(xk)f(xk+pk)mk(0)mk(pk)\rho_{k}=\frac{f(x_{k})-f(x_{k}+p_{k})}{m_{k}(0)-m_{k}(p_{k})}

pkp_{k}p=0p=0을 포함한 region에서 mkm_{k}가 minimize되도록 구했을테니, predicted reduction은 non-negative일 것이다.

  1. 만약 ρk\rho_{k}가 negative라면 f(xk+pk)>f(xk)f(x_{k}+p_{k})>f(x_{k})이니 step을 reject한다. 더 작은 Δk\Delta_{k}를 시도해본다.
  2. 만약 ρk\rho_{k}가 1에 가까우면 mkm_{k}ff를 잘 모델링 하는 것이니 trust region의 크기를 키워본다.
  3. 만약 ρk\rho_{k}가 positive지만 값이 1보다 많이 작으면, 그 값을 그대로 사용한다.

이 때, pkp_{k}를 얻기 위해서는 subproblem을 풀어야하는데 다음의 theorem을 이용한다.

Theorem 4.1

Vector pp^{\ast}가 trust-region problem

limpRnm(p)=f+gTp+12pTBps.t.pΔ\lim_{p\in\mathbb{R}^{n}}m(p)=f+g^{T}p+\frac{1}{2}p^{T}Bp \quad \text{s.t.} \quad \|p\|\leq \Delta

의 global solution이다는 다음과 동치이다. pp^{\ast}가 feasible하고 다음의 세 조건을 만족하는 scalar λ0\lambda\geq0이 존재한다.

  1. (B+λI)p=g(B+\lambda I)p^{\ast}=-g
  2. λ(Δp)=0\lambda(\Delta-\|p^{\ast}\|)=0
  3. B+λIB+\lambda I가 positive semidefinite

Theorem 4.1의 두번째 조건으로 인해 p<Δ\| p^{\ast}\|<\Delta인 경우(strictly inside) λ=0\lambda=0이어야 하고 따라서 Bp=gBp^{\ast}=-g, BB는 positive semidefinite이 된다. p=Δ\|p^{\ast}\|=\Delta인 경우 λ\lambda는 positive value를 가질 수 있다. 따라서 첫번째 조건으로 인해

λp=Bpg=m(p)\lambda p^{\ast}=-Bp^{\ast}-g=-\nabla m(p^{\ast})

이다. 따라서, λ>0\lambda>0일 때는 pp^{\ast}mm의 negative gradient에 colinear하다(mm의 contour에 normal).

Algorithms based on the Cauchy point

Line search에서 꽤 loose한 조건만 만족하는 step length면 globally converge하는 것을 보장할 수 있었듯, trust region에서도 subproblem의 최적해 대신 sufficient reduction하는 approximation pkp_{k}만으로도 globally converge한다. Sufficient reduction을 정량화하기 위해 Cauchy point pkcp^{c}_{k}라는 개념을 도입한다. pkcp^{c}_{k}는 다음과 같은 과정을 통해 구할 수 있다.

pks=arg minpRnfk+gkTps.t.pΔkp^{s}_{k}=\argmin_{p\in\mathbb{R}^{n}}f_{k}+g^{T}_{k}p \quad \text{s.t.}\quad \|p\|\leq \Delta_{k}
τk=arg minτ0mk(τpks)s.t.τpksΔk\tau_{k}=\argmin_{\tau\geq 0} m_{k}(\tau p^{s}_{k}) \quad\text{s.t.}\quad \|\tau p^{s}_{k}\| \leq \Delta_{k}

위 두 문제를 풀고 나면 pkc=τkpksp^{c}_{k}=\tau_{k}p^{s}_{k}이다. 개념적으로는, 먼저 linear model 버전의 (Talyor expansion의 order 얘기, mkm_{k}는 quadratic이다.) 문제를 풀고 step length τk\tau_{k}를 정한다. 이 두 문제의 solution은 closed-form으로 나타낼 수 있다. 먼저

pks=Δkgkgkp^{s}_{k}=-\frac{\Delta_{k}}{\|g_{k}\|}g_{k}

τk\tau_{k}의 경우는 case를 나누어 생각해야하는데, gkTBkgk0g^{T}_{k}B_{k}g_{k}\leq0인 경우에는 mk(τpks)m_{k}(\tau p^{s}_{k})가 monotonically decrease 하기 때문에 τk\tau_{k}는 trust-region bound를 만족하는 가장 큰 값 (τk=1\tau_{k}=1)을 선택하면 된다. gkTBkgk>0g^{T}_{k}B_{k}g_{k}>0인 경우, mk(τpks)m_{k}(\tau p^{s}_{k})가 convex quadratic이니 gk3/(ΔkgkTBkgk)\|g_{k}\|^{3}/(\Delta_{k}g^{T}_{k}B_{k}g_{k}) 또는 boundary value인 1이 된다. 즉,

τk={1ifgkTBkgk0min(gk3/(ΔkgkTBkgk),1)otherwise\tau_{k}=\begin{cases} 1 \quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad \text{if} \quad g^{T}_{k}B_{k}g_{k}\leq0\\ \min(\|g_{k}\|^{3}/(\Delta_{k}g^{T}_{k}B_{k}g_{k}),1)\quad \text{otherwise} \end{cases}

이 Cauchy step pkcp^{c}_{k}는 계산복잡도가 낮고, subproblem의 approximate solution이 적합한지 결정하는데 중요한 역할을 한다. Trust-region method는 step pkp_{k}에서의 decrease가 Cauchy step에서의 decrease의 특정 상수배보다 크면 globally converge 한다.

그런데 그냥 Cauchy step으로 매 iteration 업데이트하는 것은 steepest descent (pksp^{s}_{k}를 계산하는 데 linear model 버전의 문제를 품)와 같고 rate of convergence가 느릴 수 있다. BkB_{k}를 step length 뿐 아니라 direction을 계산하는데도 사용해야 (또, BkB_{k}가 curvature를 잘 approximate해야) 빠르게 converge 할 수 있다. 따라서 주로, BkB_{k}가 positive definite 할 때마다 pkB=Bk1gkp^{B}_{k}=-B^{-1}_{k}g_{k} (이 때, pkBΔk\|p^{B}_{k}\|\leq \Delta_{k})을 선택한다.

주의: 이후로 k 인덱스를 생략하고, 최적해가 trust region radius Δ\Delta에 따라 결정된다는 것을 강조하기 위해 p(Δ)p^{\ast}(\Delta)로 표기한다.

Dogleg method

BB가 positive definite하면 pB=B1gp^{B}=-B^{-1}g 이다. ΔpB\Delta\geq \|p^{B}\|p(Δ)=pBp^{\ast}(\Delta)=p^{B}이고, Δ\Delta가 작을 때는 model function의 quadratic term을 없애고 p(Δ)Δggp^{\ast}(\Delta)\approx -\Delta \frac{g}{\|g\|}로 쓸 수 있다. Δ\Delta가 너무 작지도 않은 값일 때는 일반적으로 아래 그림의 곡선처럼 궤도를 따른다.

Wikipedia 설명: 각 iteration에서 만약 Gauss-Newton 알고리즘의 step이 trust region 안에 있으면 이를 선택한다. 아닐 경우, Cauchy point를 구한다. Cauchy point가 trust region의 바깥에 있으면 boundary에서 truncate해서 사용한다. Cauchy point가 trust region의 안에 있으면, Cauchy point와 Gauss-Newton을 잇는 선분과 trust-region의 교차점을 선택한다. 이게 책의 설명보다 조금 더 직관적인 것 같다.

Dogleg method는 곡선 궤도를 두 line으로 approximation 한다. 첫번째 line은 origin에서 steepest descent 방향의 mm의 minimzer이다.

pU=gTggTBggp^{U}=-\frac{g^{T}g}{g^{T}Bg}g

두번째 라인은 pUp^{U}에서 pBp^{B}방향이다. 그러면 trajectory p~(τ)\tilde{p}(\tau) (τ[0,2]\tau\in[0,2])는

p~(τ)={τpU0τ1pU+(τ1)(pBpU)1τ2\tilde{p}(\tau)=\begin{cases} \tau p^{U} \quad\quad\quad\quad\quad\quad\quad\quad\quad 0\leq \tau \leq 1\\ p^{U}+(\tau -1)(p^{B}-p^{U}) \quad 1\leq \tau \leq 2 \end{cases}

Lemma 4.2

BB가 positive definite이면

  1. p~(τ)\|\tilde{p}(\tau)\|τ\tau에 대한 increasing function이다.
  2. m(p~(τ))m(\tilde{p}(\tau))τ\tau에 대한 decreasing function이다.
  • 증명

    τ[0,1]\tau\in[0,1]에 대해서는 자명하다. τ[1,2]\tau\in[1,2]을 가정하자. h(α)h(\alpha)를 다음과 같이 정의한다.

    h(α)=12p~(1+α)2=12pU+α(pBpU)2=12pU+α(pU)T(pBpU)+12α2pBpU2h(\alpha)=\frac{1}{2}\|\tilde{p}(1+\alpha)\|^{2}\\=\frac{1}{2}\|p^{U}+\alpha(p^{B}-p^{U})\|^{2}\\=\frac{1}{2}\|p^{U}\|+\alpha(p^{U})^{T}(p^{B}-p^{U})+\frac{1}{2}\alpha^{2}\|p^{B}-p^{U}\|^{2}

    이를 미분하면,

    h(α)=(pU)T(pUpB)+αpUpB2(pU)T(pUpB)=gTggTBggT(gTggTBgg+B1g)=gTggTB1ggTBg[1(gTg)2(gTBg)(gTB1g)g]0h'(\alpha)=-(p^{U})^{T}(p^{U}-p^{B})+\alpha\|p^{U}-p^{B}\|^{2}\\ \geq -(p^{U})^{T}(p^{U}-p^{B}) \\ =\frac{g^{T}g}{g^{T}Bg}g^{T}\left(-\frac{g^{T}g}{g^{T}Bg}g+B^{-1}g\right)\\ = g^{T}g\frac{g^{T}B^{-1}g}{g^{T}Bg}\left[1- \frac{(g^{T}g)^{2}}{(g^{T}Bg)(g^{T}B^{-1}g)}g \right] \\ \geq0

    따라서 p~(τ)\|\tilde{p}(\tau)\|τ\tau에 대한 increasing function이다. 또 h^(α)=m(p~(1+α))\hat{h}(\alpha)=m(\tilde{p}(1+\alpha))로 정의하고, 이를 미분하면

    h^(α)=(pBpU)T(g+BpU)+α(pBpU)TB(pBpU)(pBpU)T(g+BpU+B(pBpU))=(pBpU)T(g+BpB)=0\hat{h}'(\alpha)=(p^{B}-p^{U})^{T}(g+Bp^{U})+\alpha(p^{B}-p^{U})^{T}B(p^{B}-p^{U})\\\leq (p^{B}-p^{U})^{T}(g+Bp^{U}+B(p^{B}-p^{U})) \\ = (p^{B}-p^{U})^{T}(g+Bp^{B})=0

따라서 pBΔ\|p^{B}\|\geq \Delta이면, p~(Δ)\tilde{p}(\Delta)는 trust region boundary와 딱 한군데서만 intersect한다. mm이 decreasing function이므로, pBΔ\|p^{B}\|\leq\Delta일 때는 pppBp^{B}이고, 그 외에는 dogleg과 trust region boundary의 intersection이다. 이 때, τ\taupU+(τ1)(pBpU)2=Δ2\|p^{U}+(\tau-1)(p^{B}-p^{U})\|^{2}=\Delta^{2}를 풀어서 구한다.

Dogleg method는 BB가 positive definite 할 때 적용하기 좋고, Hessian modification이 필요한 경우라면 다른 method를 사용하는 것이 낫다.

Two-dimensional subspace minimization

BB가 positive definite일 때, dogleg method 처럼 pp를 line에서 찾지 않고, pUp^{U}pBp^{B}이 span하는 공간에서 찾도록 개선할 수 있다.

minpm(p)=f+gTp+12pTBps.t.pΔ,pspan[g,B1g]\min_{p}m(p)=f+g^{T}p+\frac{1}{2}p^{T}Bp \quad \text{s.t.}\quad \|p\|\leq\Delta,\quad p\in\text{span}[g,B^{-1}g]

이를 BB가 indefinite할 경우에 사용하기 위해 수정할 수 있다. 즉, BB가 negative eigenvalues를 가지면 subspace를 span[g,(B+αI)1g]\text{span}[g,(B+\alpha I)^{-1}g] (이 때, α(λ1,2λ1]\alpha\in(-\lambda_{1},-2\lambda_{1}], λ1\lambda_{1}은 가장 작은 eigenvalue)로 바꾼다.

Global convergence

Reduction obtained by the Cauchy point

먼저 Cauchy point를 통해 얻어지는 global convergence에 대해 분석하고, 이를 위에서 다룬 method에 적용한다. Dogleg이나 two-dimensional subspace minimization 알고리즘은 다음을 만족하는 근사해 pkp_{k}를 구한다. c1(0,1]c_{1}\in(0,1]에 대해,

mk(0)mk(pk)c1gkmin(Δk,gkBk)(4.20)m_{k}(0)-m_{k}(p_{k})\geq c_{1}\|g_{k}\|\min \left(\Delta_{k}, \frac{\|g_{k}\|}{\|B_{k}\|} \right) \tag{4.20}

먼저 Cauchy point pkCp^{C}_{k}가 (4.20) 조건을 c1=1/2c_{1}=1/2로 만족함을 보이자.

Lemma 4.3

Cauchy point pkCp^{C}_{k}에 대해

mk(0)mk(pkC)12gkmin(Δk,gkBk)m_{k}(0)-m_{k}(p^{C}_{k})\geq \frac{1}{2}\|g_{k}\|\min \left(\Delta_{k}, \frac{\|g_{k}\|}{\|B_{k}\|} \right)
  • 증명
    1. gkTBkgk0g_{k}^{T}B_{k}g_{k}\leq0인 경우,

      mk(pkC)mk(0)=mk(Δgk/gk)f=Δkgkgk2+12Δk2gk2gkTBkgkΔkgkgkmin(Δk,gkBk)m_{k}(p^{C}_{k})-m_{k}(0)=m_{k}(-\Delta g_{k}/\|g_{k}\|)-f \\=-\frac{\Delta_{k}}{\|g_{k}\|}\|g_{k}\|^{2}+\frac{1}{2}\frac{\Delta^{2}_{k}}{\|g_{k}\|^{2}}g_{k}^{T}B_{k}g_{k}\\\leq-\Delta_{k}\|g_{k}\|\\\leq -\|g_{k}\|\min \left( \Delta_{k},\frac{\|g_{k}\|}{\|B_{k}\|} \right)
    2. gkTBkgk>0g_{k}^{T}B_{k}g_{k}>0인 경우,
      a. gk3/(ΔkgkTBkgk)1\|g_{k}\|^{3}/(\Delta_{k} g_{k}^{T}B_{k}g_{k})\leq1인 경우,

      τk=gk3/(ΔkgkTBkgk)\tau_{k} =\|g_{k}\|^{3}/(\Delta_{k}g^{T}_{k}B_{k}g_{k}) (Cauchy point 계산하는 부분 참조) 이므로

      mk(pkC)mk(0)=gk4gkTBkgk+12gkTBkgkgk4(gkTBkgk)2=12gk4gkTBkgk12gk4Bkgk2=12gk2Bk12gkmin(Δk,gkBk)m_{k}(p^{C}_{k})-m_{k}(0)=-\frac{\|g_{k}\|^{4}}{ g_{k}^{T}B_{k}g_{k}}+\frac{1}{2}g^{T}_{k}B_{k}g_{k}\frac{\|g_{k}\|^{4}}{(g_{k}^{T}B_{k}g_{k})^{2}}\\=-\frac{1}{2}\frac{\|g_{k}\|^{4}}{g_{k}^{T}B_{k}g_{k}}\\\leq -\frac{1}{2}\frac{\|g_{k}\|^{4}}{\|B_{k}\|\|g_{k}\|^{2}}=-\frac{1}{2}\frac{\|g_{k}\|^{2}}{\|B_{k}\|}\\\leq -\frac{1}{2}\|g_{k}\|\min(\Delta_{k},\frac{\|g_{k}\|}{\|B_{k}\|})

      b. gk3/(ΔgkTBkgk)>1\|g_{k}\|^{3}/(\Delta g_{k}^{T}B_{k}g_{k})>1 인 경우,

      위 식을 다시 쓰면 gkTBkgk<gk3/Δkg^{T}_{k}B_{k}g_{k}<\|g_{k}\|^{3}/\Delta_{k} 이다. 이 때 τk=1\tau_{k}=1이고,

      mk(pkC)mk(0)=Δkgkgk2+12Δk2gk2gkTBkgkΔkgk+12Δk2gk2gk3Δk=12Δkgk12gkmin(Δk,gkBk)m_{k}(p^{C}_{k})-m_{k}(0)=-\frac{\Delta_{k}}{\|g_{k}\|}\|g_{k}\|^{2}+\frac{1}{2}\frac{\Delta_{k}^{2}}{\|g_{k}\|^{2}}g_{k}^{T}B_{k}g_{k}\\ \leq -\Delta_{k}\|g_{k}\|+\frac{1}{2}\frac{\Delta_{k}^{2}}{\|g_{k}\|^{2}}\frac{\|g_{k}\|^{3}}{\Delta_{k}} = -\frac{1}{2}\Delta_{k}\|g_{k}\| \\\leq -\frac{1}{2}\|g_{k}\|\min(\Delta_{k},\frac{\|g_{k}\|}{\|B_{k}\|})

이제 pkp_{k}가 최소한 Cauchy point로 얻어지는 reduction의 c2c_{2}배 만큼의 reduction을 달성하면 (4.20) 조건을 만족함을 보이자.

Lemma 4.4

pkp_{k}pkΔk\|p_{k}\|\leq \Delta_{k}, mk(0)mk(pk)c2(mk(0)mk(pkC))m_{k}(0)-m_{k}(p_{k})\geq c_{2}(m_{k}(0)-m_{k}(p^{C}_{k})) 을 만족하는 임의의 vector라고 하자. 그러면, pkp_{k}c1=c2/2c_{1}=c_{2}/2로 (4.20) 조건을 만족한다. 특히 pkp_{k}가 exact solution pkp^{\ast}_{k}면 (4.20) 조건을 c1=1/2c_{1}=1/2로 만족한다.

  • 증명
    mk(0)mk(pk)c2(mk(0)mk(pkC))12c2gkmin(Δk,gkBk)m_{k}(0)-m_{k}(p_{k})\geq c_{2}(m_{k}(0)-m_{k}(p^{C}_{k})) \\ \geq \frac{1}{2}c_{2}\|g_{k}\|\min \left(\Delta_{k}, \frac{\|g_{k}\|}{\|B_{k}\|} \right)

Dogleg, two-dimensional subspace minimization 모두 exact solution을 approximate하며 mk(pk)mk(pkC)m_{k}(p_{k})\leq m_{k}(p^{C}_{k})이므로 (4.20) 조건을 c1=1/2c_{1}=1/2로 만족한다.

Convergence to stationary points

BkB_{k}의 norm이 uniformly bounded 되어있고, ff를 level set

S={xf(x)f(x0)}S=\{x|f(x)\leq f(x_{0})\}

로 정의한다. 또, 이 set의 open neigborhood를 다음과 같이 정의한다. R0>0R_{0}>0에 대해

S(R0)={xxy<R0 for some yS}S(R_{0})=\{ x|\|x-y\|<R_{0} \text{ for some } y\in S\}

결론이 더 일반적으로 적용되도록 approximate solution pkp_{k}의 길이가 trust-region bound를 넘을 수 있도록 허용하자. 구체적으로, γ1\gamma\geq 1에 대해

pkγΔk(4.25)\|p_{k}\|\leq \gamma \Delta_{k} \tag{4.25}

먼저 η=0\eta=0 (알고리즘 4.1 참조, 이 경우 ff값이 낮아지기만 한다면(ρ0\rho \geq0이면) 항상 그 step 을 취한다.)에 대해 논의하자.

Theorem 4.5

알고리즘 4.1에서 η=0\eta=0을 가정하자. Bkβ\|B_{k}\|\leq \beta, ff는 level set에 의해 아래로 bound 되어있고, neighborhood S(R0)S(R_{0})에서 Lipschitz continuously differentiable하다. 그리고 모든 approximate solution이 (4.20)과 (4.25) 조건을 만족한다고 가정하자. 그러면

lim infkgk=0\liminf_{k\rarr \infty}\|g_{k}\|=0
  • 증명

    ρk\rho_{k}에 약간의 조작을 가하면

    ρk1=(f(xk)f(xk+pk))(mk(0)mk(pk))mk(0)mk(pk)=mk(pk)f(xk+pk)mk(0)mk(pk)|\rho_{k}-1|=\left| \frac{(f(x_{k})-f(x_{k}+p_{k}))-(m_{k}(0)-m_{k}(p_{k}))}{m_{k}(0)-m_{k}(p_{k})} \right| \\ = \left| \frac{m_{k}(p_{k})-f(x_{k}+p_{k})}{m_{k}(0)-m_{k}(p_{k})} \right|

    f(xk+pk)f(x_{k}+p_{k})에 Taylor’s theorem을 적용하면

    mk(pk)f(xk+pk)=12pkTBkpk01[g(xk+tpk)g(xk)]Tpkdt(β/2)pk2+β1pk2|m_{k}(p_{k})-f(x_{k}+p_{k})|=\left| \frac{1}{2}p^{T}_{k}B_{k}p_{k}-\int^{1}_{0}[g(x_{k}+tp_{k})-g(x_{k})]^{T}p_{k}dt \right| \\ \leq (\beta/2)\|p_{k}\|^{2}+\beta_{1}\|p_{k}\|^{2}

    여기서 β1\beta_{1}ggS(R0)S(R_{0})에서의 Lipshcitz constant이다. 또한 xkx_{k}xk+tpkx_{k}+tp_{k} 둘 다 S(R0)S(R_{0})에 있도록 pkR0\|p_{k}\|\leq R_{0}을 가정했다. 여기서 lim infkgk0\liminf_{k\rarr\infty}\|g_{k}\|\neq0이라고 가정하자. 즉 ϵ>0\epsilon>0K>0K>0에 대해서

    gkϵfor allkK(4.28)\|g_{k}\|\geq \epsilon \quad\text{for all}\quad k\geq K \tag{4.28}

    이 때, (4.20)을 생각해보면, kKk\geq K에 대해,

    mk(0)mk(pk)c1gkmin(Δ,gkBk)c1ϵmin(Δk,ϵβ)m_{k}(0)-m_{k}(p_{k})\geq c_{1}\|g_{k}\|\min\left(\Delta, \frac{\|g_{k}\|}{\|B_{k}\|}\right)\geq c_{1}\epsilon\min\left( \Delta_{k},\frac{\epsilon}{\beta}\right)

    처음 ρk1|\rho_{k}-1|의 식에 분모, 분자에 관한 논의를 각각 했으니 이를 조합하면

    ρk1γ2Δk2(β/2+β1)c1ϵmin(Δk,ϵ/β)|\rho_{k}-1|\leq\frac{\gamma^{2}\Delta^{2}_{k}(\beta/2+\beta_{1})}{c_{1}\epsilon \min(\Delta_{k},\epsilon/\beta)}

    이 때, 충분히 작은 Δk\Delta_{k}에 대해서 위 식의 오른쪽 term이 bound 됨을 보이자. 구체적으로, ΔkΔˉ\Delta_{k}\leq \bar{\Delta}을 만족하는 Δk\Delta_{k}에 대해 얘기하자.

    Δˉ=min(12c1ϵγ2(β/2+β1),R0γ)\bar{\Delta}=\min\left(\frac{1}{2}\frac{c_{1}\epsilon}{\gamma^{2}(\beta/2+\beta_{1})},\frac{R_{0}}{\gamma}\right)

    이 때, R0/γR_{0}/\gamma가 들어간 이유는 pkγΔkγΔˉR0\|p_{k}\|\leq\gamma\Delta_{k}\leq\gamma\bar{\Delta}\leq R_{0} 이 성립하기 위함이다. c11c_{1}\leq 1이고 γ1\gamma\geq1, β10\beta_{1}\geq0이므로 Δˉϵ/β\bar{\Delta}\leq \epsilon/\beta이다. 따라서, min(Δk,ϵ/β)=Δk\min(\Delta_{k},\epsilon/\beta)=\Delta_{k}가 성립한다. 이 사실들을 다시 적용하면

    ρk1γ2Δk(β/2+β1)c1ϵγ2Δˉ(β/2+β1)c1ϵ12|\rho_{k}-1|\leq\frac{\gamma^{2}\Delta_{k}(\beta/2+\beta_{1})}{c_{1}\epsilon}\leq \frac{\gamma^{2}\bar{\Delta}(\beta/2+\beta_{1})}{c_{1}\epsilon}\leq \frac{1}{2}

    따라서 ρk>14\rho_{k}>\frac{1}{4}가 된다. 알고리즘 4.1을 참조하면, ΔkΔˉ\Delta_{k}\leq\bar{\Delta}일 때마다 trust region radius를 키운다는 말이고, radius에 reduction이 있는 경우는 Δk>Δˉ\Delta_{k}> \bar{\Delta} 일 때 뿐이라는 말이다. 결론을 정리하면,

    Δkmin(ΔK,Δˉ/4)for allkK(4.32)\Delta_{k}\geq \min (\Delta_{K}, \bar{\Delta}/4) \quad \text{for all}\quad k\geq K \tag{4.32}

    모든 kKk\in \mathcal{K}에 대해서 ρk14\rho_{k}\geq \frac{1}{4}를 만족하는 infinite subsequence K\mathcal{K}가 있다고 가정하자. kKk\geq K에 대해서

    f(xk)f(xk+1)=f(xk)f(xk+pk)14[mk(0)mk(pk)]14c1ϵmin(Δk,ϵ/β)f(x_{k})-f(x_{k+1})=f(x_{k})-f(x_{k}+p_{k})\\\geq \frac{1}{4}[m_{k}(0)-m_{k}(p_{k})]\\\geq \frac{1}{4}c_{1}\epsilon \min(\Delta_{k},\epsilon/\beta)

    두번째 줄 부등호는 ρk14\rho_{k}\geq\frac{1}{4}에서, 세번째 줄 부등호는 위에 있는 중간 결과에서 성립한다. ff는 아래로 bound 되어있으니

    limkK,kΔk=0\lim_{k\in\mathcal{K},k\rarr\infty}\Delta_{k}=0

    이는 (4.32)에 모순이다. 따라서 우리가 가정한 infinite subsequence K\mathcal{K}는 존재할 수 없고, 모든 충분히 큰 kk에 대해서 ρk<14\rho_{k}<\frac{1}{4}이어야 한다. 이 경우, Δk\Delta_{k}는 매 iteration마다 14\frac{1}{4}가 곱해질 것이고, 이는 다시 limkΔk=0\lim_{k\rarr\infty}\Delta_{k}=0을 의미함으로 (4.32)에 모순이다. 따라서 처음 가정했던 (4.28)이 모순이 되어서 증명이 성립한다.

이제 η>0\eta>0 (update 조건이 좀 더 strict 한 경우)에 대해 논의하자.

Theorem 4.6

알고리즘 4.1에서 η(0,14)\eta\in(0,\frac{1}{4})을 가정하자. Bkβ\|B_{k}\|\leq \beta, ff는 level set에 의해 아래로 bound 되어있고, neighborhood S(R0)S(R_{0})에서 Lipschitz continuously differentiable하다. 그리고 모든 approximate solution이 (4.20)과 (4.25) 조건을 만족한다고 가정하자. 그러면

limkgk=0\lim_{k\rarr\infty}g_{k}=0
  • 증명
    gm0g_{m}\neq 0인 index mm을 생각해보자. Lipschitze constant β1\beta_{1}에 대해
    g(x)gmβ1xxm\|g(x)-g_{m}\|\leq \beta_{1}\|x-x_{m}\|
    ϵ\epsilonRR을 다음을 만족하도록 정의하자.
    ϵ=12gmR=min(ϵβ1,R0)\epsilon=\frac{1}{2}\|g_{m}\| \\ R=\min\left(\frac{\epsilon}{\beta_{1}}, R_{0}\right)
    RR0R\leq R_{0}이므로 ball
    B(xm,R)={xxxmR}\mathcal{B}(x_{m},R)=\{ x|\|x-x_{m}\|\leq R \}
    S(R0)S(R_{0})에 포함되고, gg의 Lipschitz continuity는 B(xm,R)\mathcal{B}(x_{m},R)에서 성립한다. xB(xm,R)x\in\mathcal{B}(x_{m},R)에 대해
    g(x)gmβ1xxmβ1Rϵ=12gm\|g(x)-g_{m}\|\leq \beta_{1}\|x-x_{m}\|\leq\beta_{1}R\leq\epsilon=\frac{1}{2}\|g_{m}\|
    이므로
    g(x)gmg(x)gm12gm=ϵ\|g(x)\|\geq \|g_{m}\|-\|g(x)-g_{m}\|\geq \frac{1}{2}\|g_{m}\|=\epsilon
    만약에 entire sequence {xk}km\{x_{k}\}_{k\geq m}이 ball B(xm,R)\mathcal{B}(x_{m},R)안에 있다면, 모든 kmk\geq m에 대해서 gkϵ>0\|g_{k}\|\geq\epsilon>0일 것이다. 그럼 theorem 4.5의 (4.28) 가정 이후의 논리 전개를 다시 한번 적용할 수 있고, 결론적으로 sequence {xk}km\{x_{k}\}_{k\geq m} 는 ball B(xm,R)\mathcal{B}(x_{m},R)을 벗어난다. Index lml\geq mxl+1x_{l+1}xmx_{m} 후 처음으로 B(xm,R)\mathcal{B}(x_{m},R)를 벗어난 것이 되도록 설정하자. 그러면 k=m,,lk=m,\dots,l에 대해서 gkϵ\|g_{k}\|\geq \epsilon 이므로
    f(xm)f(xl+1)=k=ml[f(xk)f(xk+1)]k=m,xkxk+1lη[mk(0)mk(pk)]k=m,xkxk+1lηc1ϵmin(Δk,ϵβ)f(x_{m})-f(x_{l+1})=\sum^{l}_{k=m}\left[f(x_{k})-f(x_{k+1})\right]\\\geq \sum^{l}_{k=m,x_{k}\neq x_{k+1}}\eta\left[m_{k}(0)-m_{k}(p_{k})\right]\\ \geq\sum^{l}_{k=m,x_{k}\neq x_{k+1}}\eta c_{1} \epsilon\min\left( \Delta_{k}, \frac{\epsilon}{\beta}\right)
    Sum 기호에 xkxk+1x_{k}\neq x_{k+1}은 step이 취해진 경우에만 더하겠다는 뜻이다. 만약에 Δkϵ/β\Delta_{k}\leq \epsilon/\beta이면
    f(xm)f(xl+1)ηc1ϵk=m,xkxk+1lΔkηc1ϵR=ηc1ϵmin(ϵβ1,R0)f(x_{m})-f(x_{l+1})\geq \eta c_{1}\epsilon \sum^{l}_{k=m,x_{k}\neq x_{k+1}} \Delta_{k} \geq \eta c_{1}\epsilon R= \eta c_{1} \epsilon \min\left( \frac{\epsilon}{\beta_{1}},R_{0}\right)
    만약에 Δk>ϵ/β\Delta_{k}>\epsilon/\beta이면
    f(xm)f(xl+1)ηc1ϵϵβf(x_{m})-f(x_{l+1})\geq \eta c_{1}\epsilon \frac{\epsilon}{\beta}
    Sequence {f(xk)}k=0\{f(x_{k})\}^{\infty}_{k=0}은 decreasing 하며 아래로 bound 되어있으므로
    f(xk)ff(x_{k})\darr f^{\ast}
    이 때, f>f^{\ast}>-\infty. 따라서,
    f(xm)ff(xm)f(xl+1)ηc1ϵmin(ϵβ,ϵβ1,R0)=12ηc1gmmin(gm2β,gm2β1,R0)>0f(x_{m})-f^{\ast}\geq f(x_{m})-f(x_{l+1})\\\geq \eta c_{1} \epsilon \min \left( \frac{\epsilon}{\beta}, \frac{\epsilon}{\beta_{1}},R_{0} \right)\\ = \frac{1}{2}\eta c_{1}\|g_{m}\| \min \left( \frac{\|g_{m}\|}{2\beta}, \frac{\|g_{m}\|}{2\beta_{1}},R_{0} \right) >0
    f(xm)f0f(x_{m})-f^{\ast}\darr 0이므로 gm0g_{m}\rarr 0이다.

Iterative solution of the subproblem

Problem의 크기가 상대로 작을 때 (nn이 너무 크지 않을 때), BB의 factorization을 몇번 더 하는 대신 (일반적으로 총 3회, dogleg이나 two-dimensional subspace minimization은 1회 함) subproblem의 더 좋은 approximated solution을 찾을 수 있다. Theorem 4.1에서 언급한 global solution의 성질과 단변수의 Newton’s method를 이용한다. 요약하자면,

minpRnm(p)=f+gTp+12pTBps.t.pΔ\min_{p\in \mathbb{R}^{n}} m(p)=f+g^{T}p+\frac{1}{2}p^{T}Bp \quad \text{s.t.}\quad \|p\|\leq \Delta

의 solution이

(B+λI)p=g(B+\lambda I)p^{\ast}=-g

을 만족하도록 만드는 λ\lambda 값을 찾는 것이다. Theorem 4.1을 생각해보면 λ=0\lambda=0pΔ\|p\|\leq \Delta로 1, 3번 조건을 만족하거나, 그렇지않으면 B+λIB+\lambda I가 positive definite이 되는 λ\lambda에 대해

p(λ)=(B+λI)1gp(\lambda)=-(B+\lambda I)^{-1}g

를 정의해서,

p(λ)=Δ\|p(\lambda)\|=\Delta

를 만족하는 λ>0\lambda>0의 값을 찾는다. 이 문제는 λ\lambda에 대한 one-dimensional root-finding 문제이다. 원하는 성질을 가지는 λ\lambda가 존재하는지를 보기 위해서, BB를 EVD해 p(λ)\|p(\lambda)\|의 성질을 공부한다. BB는 symmetric이므로 B=QΛQTB=Q\Lambda Q^{T}를 만족하는 orthogonal matrix QQ와 diagonal matrix Λ\Lambda가 존재한다. 이 때, Λ=diag(λ1,,λn)\Lambda = \text{diag}(\lambda_{1},\dots,\lambda_{n}), λ1λ2λn\lambda_{1}\leq \lambda_{2} \leq \dots \leq \lambda_{n}BB의 eigenvalue 이다. 그렇다면, B+λI=Q(Λ+λI)QTB+\lambda I = Q(\Lambda + \lambda I)Q^{T} 이고, λλj\lambda\neq \lambda_{j}라면

p(λ)=Q(Λ+λI)1QTg=j=1nqjTgλj+λqjp(\lambda)=-Q(\Lambda+\lambda I)^{-1}Q^{T}g=-\sum^{n}_{j=1}\frac{q^{T}_{j}g}{\lambda_{j}+\lambda}q_{j}

이 때, qjq_{j}QQjj번째 column이다. 그런데 QQ는 orthogonal이므로

p(λ)2=j=1n(qjTg)2(λj+λ)2\|p(\lambda)\|^{2}=\sum^{n}_{j=1}\frac{(q^{T}_{j}g)^{2}}{(\lambda_{j}+\lambda)^{2}}

따라서 p(λ)\|p(\lambda)\|는 구간 (λ1,)(-\lambda_{1},\infty)에서 continuous, nonincreasing function이며

limλp(λ)=0\lim_{\lambda \rarr \infty}\|p(\lambda)\|=0

이고, qjTg0q^{T}_{j}g\neq 0이면,

limλλjp(λ)=\lim_{\lambda \rarr -\lambda_{j}}\|p(\lambda)\|=\infty

따라서, p(λ)=Δ\|p(\lambda^{\ast})\|=\Delta를 만족하는 λ(λ1,)\lambda^{\ast}\in(-\lambda_{1},\infty)가 존재한다 (p(λ)=Δ\|p(\lambda)\|=\Delta를 만족하는 더 작은 λ\lambda값이 있을 수 있지만 λ<λ1\lambda<-\lambda_{1}인 경우 B+λIB+\lambda I가 positive definite 해야한다는 조건을 만족하지 못할것이다.).

이제 λ\lambda^{\ast}를 구하는 iterative algorithm에 대해 얘기하자. 먼저, BB가 positive definite하고 B1gΔ\|B^{-1}g\|\leq \Delta면, λ=0\lambda^{\ast}=0으로 즉시 종료할 수 있다. 이 외의 경우, root-finding Newton’s method를 이용하는데, 중간과정 생략하고 결론은 다음과 같다.

q1Tg=0q^{T}_{1}g=0이라면, limλλ1p(λ)\lim_{\lambda \rarr \lambda_{1}}\|p(\lambda)\|\neq \infty이고, 따라서 p(λ)=Δ\|p(\lambda)\|=\Delta를 만족하는 λ(λ1,)\lambda\in (-\lambda_{1},\infty)이 존재하지 않는다. 그런데 Theorem 4.1에 의해 구간 [λ1,)[-\lambda_{1},\infty)에는 존재하니 남은 것은 λ=λ1\lambda=-\lambda_{1}밖에 없다. 이 때,

p(λ)=j:λjλ1qjTgλj+λqjp(\lambda)=\sum_{j:\lambda_{j}\neq \lambda_{1}}\frac{q^{T}_{j}g}{\lambda_{j}+\lambda}q_{j}

처럼 단순히 λj=λ1\lambda_{j}=\lambda_{1}인 term들을 제거하는 것으로는 충분하지 않다. Bλ1IB-\lambda_{1}I가 singular이기 때문에 (Bλ1I)z=0(B-\lambda_{1}I)z=0이고 z=1\|z\|=1인 vector zz가 존재한다 (λ1\lambda_{1}에 해당하는 eigenvector). 따라서, 임의의 scalar τ\tau에 대해서,

p(λ)=j:λjλ1qjTgλj+λqj+τzp(\lambda)=\sum_{j:\lambda_{j}\neq \lambda_{1}}\frac{q^{T}_{j}g}{\lambda_{j}+\lambda}q_{j} + \tau z

로 설정하면,

p(λ)2=j:λjλ1(qjTg)2(λj+λ)2+τ2\|p(\lambda)\|^{2}=\sum_{j:\lambda_{j}\neq \lambda_{1}}\frac{(q^{T}_{j}g)^{2}}{(\lambda_{j}+\lambda)^{2}}+\tau^{2}

이므로, τ\tau값을 잘 골라서 p(λ)=Δ\|p(\lambda)\|=\Delta가 되도록 할 수 있다.

Theorem 4.1 증명

먼저 Lemma 하나 증명하자.

Lemma 4.7

BB가 symmetric matrix일 때, mm을 아래와 같은 quadratic function이라 하자.

m(p)=gTp+12pTBpm(p)=g^{T}p+\frac{1}{2}p^{T}Bp

그러면 다음의 두 진술은 참이다.

  1. BB가 positive semidefinite하고 ggBB의 range에 있을 때, 그리고 오직 그 때만, mm은 minimum을 달성한다. BB가 positive semidefinite 하다면, Bp=gBp=-g를 만족하는 모든 ppmm의 gloabl minimizer이다.
  2. BB가 positive definite할 때, 그리고 오직 그 때만, mm은 unique minimizer를 갖는다.
  • 증명

    BB가 positive semidefinite하고 ggBB의 range에 있을 때, mm은 minimum을 달성한다’를 증명하자. Bp=gBp=-g를 만족하는 pp가 존재한다. 모든 wRnw\in \mathbb{R}^{n}에 대해

    m(p+w)=gT(p+w)+12(p+w)TB(p+w)=(gTp+12pTBp)+gTw+(Bp)Tw+12wTBw=m(p)+12wTBwm(p)m(p+w)=g^{T}(p+w)+\frac{1}{2}(p+w)^{T}B(p+w)\\=(g^{T}p+\frac{1}{2}p^{T}Bp)+g^{T}w+(Bp)^{T}w+\frac{1}{2}w^{T}Bw \\ = m(p)+\frac{1}{2}w^{T}Bw \geq m(p)

    따라서 ppmm의 minimizer이다.

    역을 증명하자. ppmm의 minimizer라 하자. m(p)=Bp+g=0\nabla m(p)=Bp+g=0이므로 ggBB의 range에 있다. 2m(p)=B\nabla^{2}m(p)=B 가 positive semidefinite하다.

    BB가 positive definite할 때, mm은 unique minimizer를 갖는다.’를 증명하려면, 첫번째 논증에서 wTBw>0w^{T}Bw>0으로 바꾸면 된다. 역을 증명하려면, wTBw=0w^{T}Bw=0w0w\neq0이 존재한다고 가정하자. 그럼 m(p+w)=m(p)m(p+w)=m(p)이므로 minimizer가 unique하지 않아서 모순이다.

Theorem 4.1의 조건들을 만족하는 λ0\lambda \geq 0이 존재한다고 가정하자. Lemma 4.1의 (1)에 의해 pp^{\ast}는 아래 quadratic function의 global minimum이다.

m^(p)=gTp+12pT(B+λI)p=m(p)+λ2pTp\hat{m}(p)=g^{T}p+\frac{1}{2}p^{T}(B+\lambda I)p=m(p)+\frac{\lambda}{2}p^{T}p

m^(p)m^(p)\hat{m}(p)\geq \hat{m}(p^{\ast})이므로

m(p)m(p)+λ2((p)TppTp)m(p)\geq m(p^{\ast})+\frac{\lambda}{2}((p^{\ast})^{T}p^{\ast}-p^{T}p)

λ(Δp)=0\lambda(\Delta-\|p^{\ast}\|)=0이고 따라서 λ(Δ2(p)Tp)=0\lambda(\Delta^{2}-(p^{\ast})^{T}p^{\ast})=0이므로,

m(p)m(p)+λ2(Δ2pTp)m(p)\geq m(p^{\ast})+\frac{\lambda}{2}(\Delta^{2}-p^{T}p)

λ0\lambda \geq 0이므로, pΔ\|p\|\leq \Delta인 모든 pp에 대해 m(p)m(p)m(p)\geq m(p^{\ast})이고 따라서 pp^{\ast}는 global minimizer이다.

역을 증명하기 위해 pp^{\ast}가 gloabl minimizer라고 가정하고 조건들을 만족하는 λ0\lambda\geq0이 존재함을 보이자. p<Δ\|p^{\ast}\|<\Delta일 때, m(p)=Bp+g=0\nabla m(p^{\ast})=Bp^{\ast}+g=0이고, 2m(p)=B\nabla^{2}m(p^{\ast})=B는 positive semideifinite이다. 따라서 조건은 λ=0\lambda=0에 대해 만족한다. p=Δ\|p^{\ast}\|=\Delta일 때, pp^{\ast}는 constrained problem

minm(p)subject to p=Δ\min m(p) \quad \text{subject to }\|p\|=\Delta

을 해결하는데, Lagrangian function으로 나타내면

L(p,λ)=m(p)+λ2(pTpΔ2)\mathcal{L}(p,\lambda)=m(p)+\frac{\lambda}{2}(p^{T}p-\Delta^{2})

이다. 이 Lagrangian function이 pp^{\ast}에서 stationary point를 갖게 만드는 λ\lambda를 찾는다. pL(p,λ)\nabla_{p} \mathcal{L}(p^{\ast},\lambda)를 0으로 설정하면

Bp+g+λp=0(B+λI)p=gBp^{\ast}+g+\lambda p^{\ast}=0 \Rarr (B+\lambda I)p^{\ast}=-g

따라서 첫번째 조건이 성립한다. pTp=(p)Tp=Δ2p^{T}p=(p^{\ast})^{T}p^{\ast}=\Delta^{2}를 만족하는 pp에 대해서 m(p)m(p)m(p)\geq m(p^{\ast})이므로,

m(p)m(p)+λ2((p)TppTp)m(p)\geq m(p^{\ast})+\frac{\lambda}{2}((p^{\ast})^{T}p^{\ast}-p^{T}p)

여기서 g=(B+λI)pg=-(B+\lambda I)p^{\ast}를 대입하고 정리하면,

12(pp)T(B+λI)(pp)0\frac{1}{2}(p-p^{\ast})^{T}(B+\lambda I)(p-p^{\ast})\geq 0

이 때,

{w:w=±pppp, for some p with p=Δ}\left\{w:w=\pm\frac{p-p^{\ast}}{\|p-p^{\ast}\|} , \text{ for some } p \text{ with }\|p\|=\Delta\right\}

가 dense 하기 때문에 세번째 조건이 성립한다. 이제 λ\lambda가 non-negative 하다는 것만 보이면 된다. 만약에 negative 하다고 가정한다면, pp=Δ\|p\|\geq \|p^{\ast}\|=\Delta 이면 m(p)m(p)m(p)\geq m(p^{\ast})이다. pΔ\|p\|\leq\Delta인 범위 내에서 pp^{\ast}가 minimizer이기 때문에 두 사실을 합치면, pp^{\ast}mm의 global, unconstrained minimizer이다. 이 때, Lemma 4.7의 (1)에 의해, Bp=gBp=-g이고 BB는 positive semidefinite이다. 따라서 조건이 λ=0\lambda=0으로 만족하고 negative하다는 가정에 모순이다.

Convergence of algorithms based on nearly exact solution

Algorithm 4.3을 이용해서 approximate solution을 구할 때, 일반적으로 2, 3 iteration 후 얻어진 결과를 사용하고 비교적 정확한 approximation을 구하려고 하지 않는다. 다만, Theorem 4.5와 4.6이 적용될 수 있도록 safeguard를 적용할 수 있는데 구체적으로

m(0)m(p)c1(m(0)m(p))(4.52a)m(0)-m(p)\geq c_{1}(m(0)-m(p^{\ast})) \tag{4.52a}
pγΔ(4.52b)\|p\|\leq \gamma\Delta \tag{4.52b}

를 만족하도록 한다. Cauchy point의 global convergence 분석에서 나온 (4.20) 식과 달리 위의 sufficient decrease 조건은 mm의 second-order part도 사용해서 BB가 negative eigenvalue를 가지고 g=0g=0인 경우에도 감소할 수 있게 만든다.

Global convergence를 분석하기 위해서 exact Hessian 을 사용하면 limit point에 대해 더 많은 정보를 알 수 있는데,

Theorem 4.8

Theorem 4.6의 가정을 만족하고 ff가 level set SS에서 twice continuously differentiable하다고 가정하자. 모든 kk에 대해서 Bk=2f(xk)B_{k}=\nabla^{2} f(x_{k})이고 approximate solution pkp_{k}가 (4.52)를 만족한다고 가정하자. 그러면 limkgk=0\lim_{k\rarr \infty}\|g_{k}\|=0이다.

또, 만약 SS가 compact하다면, 알고리즘은 local solution에 대한 second-order necessary condition을 만족하는 점 xkx_{k}에서 종료하거나, {xk}\{x_{k}\}가 그러한 조건을 만족하는 점 xx^{\ast}로 수렴한다.

Local convergence of trust-region Newton method

Trust-region Newton method의 rate of convergence에 대해 분석하기 위해서 iteration이 진행되어 solution의 근처로 갈수록 model이 원 함수를 더 잘 모델링하고 (trust-region 내에서), 따라서 trust-region Newton method의 step이 true Newton method에 수렴한다는 것을 보인다(asymptotically similar).

Theorem 4.9

ff가 second-order sufficient condition을 만족하는 점 xx^{\ast}의 neighborhood에서 twice Lipschitz continuously differentiable 하고, sequence {xk}\{x_{k}\}xx^{\ast}로 수렴하며, 충분히 큰 모든 kk에 대해서 Bk=2f(xk)B_{k}=\nabla^{2} f(x_{k})로 설정한 trust-region algorithm이 pkN12Δk\|p^{N}_{k}\|\leq \frac{1}{2}\Delta_{k}일 때마다 Cauchy-point-based model reduction criterion (4.20)을 만족하고 Newton step pkNp^{N}_{k}에 asymptotically similar한 step pkp_{k}를 선택(pkpkN=o(pkN)\|p_{k}-p^{N}_{k}\|=o(\|p^{N}_{k}\|))한다고 가정하자.

그러면, 충분히 큰 모든 kk에 대해서 trust-region bound Δk\Delta_{k}는 inactive해지고, sequence {xk}\{x_{k}\}xx^{\ast}로 superlinearly 수렴한다.

  • 증명

    충분히 큰 모든 kk에 대해서 pkN12Δk\|p^{N}_{k}\|\leq \frac{1}{2}\Delta_{k}이고, pkΔk\|p_{k}\|\leq \Delta_{k}이어서 iteration이 진행됨에 따라 near-optimal step이 취해질 것이라는 것을 보이자.

    먼저 충분히 큰 모든 kk에 대해 predicted reduction mk(0)mk(pk)m_{k}(0)-m_{k}(p_{k})의 lower bound를 구한다. o(pkN)o(\|p^{N}_{k}\|)pkN\|p^{N}_{k}\|보다 작아질만큼 kk가 크다고 가정하자. pkN12Δk\|p^{N}_{k}\|\leq \frac{1}{2}\Delta_{k}이면, pkpkN+o(pkN)2pkN\|p_{k}\|\leq \|p^{N}_{k}\|+o(\|p^{N}_{k}\|)\leq 2\|p^{N}_{k}\| 이고, pkN>12Δk\|p^{N}_{k}\|>\frac{1}{2}\Delta_{k}이면, pkΔk<2pkN\|p_{k}\|\leq \Delta_{k}<2\|p^{N}_{k}\|이다. 두 경우 모두

    pk2pkN22f(xk)1gk\|p_{k}\|\leq 2\|p^{N}_{k}\|\leq 2\|\nabla^{2}f(x_{k})^{-1}\|\|g_{k}\|

    이고 따라서 gk12pk/2f(xk)1\|g_{k}\|\geq \frac{1}{2}\|p_{k}\|/\|\nabla^{2}f(x_{k})^{-1}\|이다. (4.20)으로부터

    mk(0)mk(pk)c1gkmin(Δk,gk2f(xk))c1pk22f(xk)1min(pk,pk22f(xk)2f(xk)1)=c1pk242f(xk)122f(xk)m_{k}(0)-m_{k}(p_{k})\geq c_{1}\|g_{k}\|\min \left(\Delta_{k}, \frac{\|g_{k}\|}{\|\nabla^{2}f(x_{k})\|} \right) \\ \geq c_{1} \frac{\|p_{k}\|}{2\|\nabla^{2}f(x_{k})^{-1}\|}\min \left(\|p_{k}\|, \frac{\|p_{k}\|}{2\|\nabla^{2}f(x_{k})\|\|\nabla^{2}f(x_{k})^{-1}\|} \right) \\ =c_{1}\frac{\|p_{k}\|^{2}}{4\|\nabla^{2}f(x_{k})^{-1}\|^{2}\|\nabla^{2}f(x_{k})\|}

    이다. xkxx_{k}\rarr x^{\ast}이므로, 충분히 큰 모든 kk에 대해 다음의 bound가 성립함을 보이기 위해 2f(x)\nabla^{2}f(x)의 continuity와 2f(x)\nabla^{2}f(x^{\ast})의 positive definite함을 이용한다.

    c142f(xk)122f(xk)c182f(x)122f(x)=c3\frac{c_{1}}{4\|\nabla^{2}f(x_{k})^{-1}\|^{2}\|\nabla^{2}f(x_{k})\|}\geq \frac{c_{1}}{8\|\nabla^{2}f(x^{\ast})^{-1}\|^{2}\|\nabla^{2} f(x^{\ast})\|}=c_{3}

    이 때, c3>0c_{3}>0이다. 따라서 충분히 큰 모든 kk에 대해서

    mk(0)mk(pk)c3pk2m_{k}(0)-m_{k}(p_{k})\geq c_{3}\|p_{k}\|^{2}

    이다. xx^{\ast} 주변에서 2f(x)\nabla^{2}f(x)의 Lipschitz continuity와 Taylor’s theorem을 이용하면

    (f(xk)f(xk+pk))(mk(0)mk(pk))=12pkT2f(xk)pk1201pkT2f(xk+tpk)pkdtL4pk3|\left( f(x_{k})-f(x_{k}+p_{k})\right) -\left( m_{k}(0)-m_{k}(p_{k}) \right)| \\ =\left| \frac{1}{2} p^{T}_{k}\nabla^{2}f(x_{k})p_{k}-\frac{1}{2}\int^{1}_{0}p^{T}_{k}\nabla^{2}f(x_{k}+tp_{k})p_{k}dt \right| \\ \leq \frac{L}{4}\|p_{k}\|^{3}

    이 때, L>0L>0은 Lipschitz constant이다. 그러면, 충분히 큰 kk에 대해

    ρk1pk3(L/4)c3pk2=L4c3pkL4c3Δk|\rho_{k}-1|\leq \frac{\|p_{k}\|^{3}(L/4)}{c_{3}\|p_{k}\|^{2}}=\frac{L}{4c_{3}}\|p_{k}\|\leq \frac{L}{4c_{3}}\Delta_{k}

    Trust-region radius는 ρk\rho_{k}가 1/4보다 클 때만 줄어들 수 있으니 sequence {Δk}\{\Delta_{k} \}는 0으로부터 bounded away 된다. xkxx_{k}\rarr x^{\ast}이므로, pkN0\|p^{N}_{k}\|\rarr 0이고 따라서 pk0\|p_{k}\|\rarr 0이다. 따라서 trsut-region bound는 충분히 큰 모든 kk에 대해서 inactive하고, bound pkN12Δk\|p^{N}_{k}\| \leq \frac{1}{2}\Delta_{k}는 iteration이 진행됨에 따라 항상 만족할 것이다.

    Superlinear convergence를 증명하기 위해, Newton’s method의 quadratic convergence를 이용한다.

    xk+pkNx=o(xkx2)\|x_{k}+p^{N}_{k}-x^{\ast}\|=o(\|x_{k}-x^{\ast}\|^{2})

    pkN=O(xkx)\|p^{N}_{k}\|=O(\|x_{k}-x^{\ast}\|)이므로

    xk+pkxxk+pkNx+pkNpk=o(xkx2)+o(pkN)=o(xkx)\|x_{k}+p_{k}-x^{\ast}\|\leq\|x_{k}+p^{N}_{k}-x^{\ast}\|+\|p^{N}_{k}-p_{k}\|\\ =o(\|x_{k}-x^{\ast}\|^{2})+o(\|p^{N}_{k}\|)=o(\|x_{k}-x^{\ast}\|)

    따라서 superlinear하게 converge한다.

Theorem 3.5에 따라 충분히 큰 모든 kk에 대해서 pk=pkNp_{k}=p^{N}_{k}라면 {xk}\{x_{k} \}xx^{\ast}로 quadratic하게 converge한다.

Enhancements

Scaling

Poor scaling의 경우 spherical trust region 보다 elliptical이 나을 수 있다. 이는 diagonal matrix DD에 대해서 DpΔ\|Dp\|\leq \Delta 로 표현할 수 있다.

Trust region in other norms

일부 상황 (문제의 크기가 너무 크다던지) 같은 경우는 Euclidean norm 대신 l1 또는 \infty norm 등을 사용할 수 있다.

0개의 댓글