Convex Optimization

Roh's warehouse·2025년 9월 21일

Optimization in Learning

목록 보기
3/8

Convexity

Convex Sets

  • 두 points의 convex combination 은 line segment between them.
λx1+(1λ)x2,λ[0,1]\lambda x_1 + (1-\lambda) x_2, \quad \lambda \in [0,1]

  • A set CRnC \in \mathbb{R}^n에 대해, CC 안의 임의의 두 점 x1,x2x_1, x_2의 convex combination이 항상 CC에 포함되면 이를 convex 하다고 한다.
λx1+(1λ)x2C,λ[0,1]\lambda x_1 + (1-\lambda) x_2 \in C, \quad \forall\lambda \in [0,1]

기하학적으로는 오목하게 들어간 부분이나 내부에 구멍이 없는 집합이다.

  • A set CC 내 점들의 모든 convex combination을 CCconvex hull (conv(C)conv(C)) 이라고 한다.
conv(C)={i=1kλixii=1kλi=1,λi0,i=1,,k}conv(C) = \{\sum_{i=1}^k \lambda_i x_i | \sum_{i=1}^k \lambda_i = 1, \lambda_i \ge 0, i=1,\dots, k\}

conv(C)는 집합 C를 포함하는 가장 작은 convex set이다.

Convex Functions

  • Let f:CRf:C \rightarrow \mathbb{R}, where CC is a nonempty convex set in Rn\mathbb{R}^n.
    The function ff is said to be convex on CC if x1,x2Cx_1, x_2 \in C with 0λ10 \le \lambda \le 1
    f(λx1+(1λ)x2)λf(x1)+(1λ)f(x2)f(\lambda x_1 + (1-\lambda)x_2) \le \lambda f(x_1) + (1-\lambda)f(x_2)
    • concave : if f-f is convex on CC.
    • strictly convex or strictly concave if the equality doesn't hold.

Convex function ff는 domain 위의 임의의 두 점을 이은 선분이 항상 ff 위에 있다.

Theorem: Jensen's inequality
For a convex function ff and i=1kλi=1,λi0\sum_{i=1}^k \lambda_i = 1, \lambda_i \ge 0 i\forall i,

f(i=1kλixi)i=1kλif(xi)f(\sum_{i=1}^k \lambda_i x_i) \le \sum_{i=1}^k \lambda_i f(x_i)

i=1kλixi\sum_{i=1}^k \lambda_i x_i를 확률(합이 1)에서의 기댓값으로도 볼 수 있다: f(E[x])E[f(x)]f(\mathbb{E}[x])\le \mathbb{E}[f(x)].

Theorem: First-order conditions
Let CC be a nonempty open convex set in Rn\mathbb{R}^n, and let f:CRf: C \rightarrow \mathbb{R} be differentiable on CC.
Then ff is convex if and only if for any x,yCx,y\in C, we have,

f(y)f(x)+f(x)T(yx)f(y) \ge f(x) + \nabla f(x)^T(y-x)

Convex function은 항상 특정 point (x,f(x))의 접선보다 크거나 같다.

Convexity and Optima

Critical Points

여기서 말하는 제약이 없는 최적화 문제 (unconstrained problem)는 최소화 문제(minimizing problem)을 말한다.

minimizing f(x)f(x) over Rn\mathbb{R}^n에 대해,

  • If f(x)f(x)f(x^*) \le f(x) for all xRnx\in \mathbb{R}^n, then xx^* is called a global minimum.

  • If f(x)f(x)f(x^*) \le f(x) for all xNε(x)x\in N_\varepsilon (x^*), then xx^* is called a local minimum.

  • If ff is differentiable and f(x)=0\nabla f(x^*)=0, then xx^* is called a critical point of ff.

  • If xx^\ast is a critical point, but neither a maximum nor a minimun, then xx^\ast is called a saddle point.

단, critical point가 아니더라도, local maximum (또는 minimum)이 나타날 수 있다.

Convex Optimization Problem

  • Convex set CC에 대해, 함수 ffCC 상에서 convex function이면, minxCf(x)\min\limits_{x\in C} f(x)Convex optimization problem (CO)라고 말한다.

CO에서는 local optima가 곧 global optima라는 좋은 성질이 있다.

Theorem: Convex optimization problem
xx^* is a local minimum for (CO), if and only if, xx^* is a global minimum for (CO).

주어진 optimization 문제가 CO인지 확인하기 위해서는 우선 domain이 convex set인지 확인해야 하며, 이후 해당 set 위에서의 ff에 대한 Hessian matrix가 SPD인지 확인해야 한다.

Theorem: Second-order conditions
Let CC be a nonempty open convex set in Rn\mathbb{R}^n, and let f:CRf:C\rightarrow \mathbb{R} be twice differentiable on CC.
Then ff is convex if and only if its Hessian 2f(x)\nabla^2f(x) is positive semidefinite for all xCx \in C.

또한, ff의 Hessian matrix에 대한 postive definiteness 검증을 통해 ff가 strictly convex function임을 보일 수 있다.

Lemma:
If the Hessian matrix is positive definite, then ff is strictly convex.
If ff is strictly convex and quadratic then its Hessian matrix is positive definite at each point of CC.

참고로, 2x2 matrix A=[abbc]A =\left[ \begin{array}{cc} a & b \\ b & c\\ \end{array} \right], 의 경우 a>0a>0, acb2>0ac-b^2>0 를 만족하면 postive definite이다.

profile
공부랑 연구랑 생각

0개의 댓글