[Week 1] Convex sets [2]

ESC·2023년 12월 13일
0

2023-Winter

목록 보기
3/10

4. Generalized inequalities

이번에는 nn차원 벡터의 크기를 비교하기 위한 generalized inequality에 대해 알아보자.
cone KRnK \in R^n이 다음 성질들을 만족하면 proper cone이라고 부른다.

  1. k is convex.
  2. k is closed. (경계를 포함하는 집합)
  3. k is solid. (interior is not empty)
  4. k is pointed (직선을 포함하지 않는다.)

*3에 대한 설명: 다음 두 집합을 살펴보자.

C1={(x1,x2)x10,x2=0}C_1 = \{(x_1, x_2) | x_1 \geq 0, x_2=0\}

C2={(x1,x2)x1,x20}C_2 = \{(x_1,x_2)|x_1,x_2 \geq 0\}

다음 두 집합은 모두 closed convex cone이다. 그러나 C2C_2만 solid하다. 왜냐하면 C1C_1의 모든 점은 모두 C1C_1의 경계면에 위치해 있고, 따라서 interior가 없다.


이 proper cone은 generalized inequality를 정의할 때 사용된다. Rn\mathbb{R}^n상의 점 x,yx,\, y에 대하여 generalized inequality는 다음과 같의 정의된다.

xKy    yxKxKy    yxintKx \preceq_K y \iff y-x \in K\\x\prec_K y \iff y-x \in \textbf{int}\,K

만약 K=R+K = \mathbb{R_+}일 경우 generalized inequality와 R\mathbb{R}에서의 inequality \leq 는 같다.

여기에 대해서 성립하는 몇 가지 성질들은 다음과 같다.

  • preserved under addition: if xKyx \preceq_K y and uKvu \preceq_K v, then x+uKy+vx+u \preceq_K y+v.
  • transitive: if xKyx \preceq_K y and yKzy \preceq_K z then xKzx \preceq_K z.
  • preserved under nonnegative scaling: if xKyx \preceq_K y and α0\alpha \geq 0 then
    αxKαy\alpha x \preceq_K \alpha y.
  • reflexive: xKxx \preceq_K x.
  • antisymmetric: if xKyx \preceq_K y and yKxy \preceq_K x, then x=yx=y.
  • preserved under limits: if xiKyix_i \preceq_K y_i for i=1,2,,i = 1,2,…, xixx_i \rightarrow x and yiyy_i \rightarrow y
    as ii \rightarrow \infty, then xKyx \preceq_K y.

등호가 없는 경우에는 아래와 같다.

  • if xKyx \preceq_K y then xKyx \prec_K y.
  • if xKyx \prec_K y and uKvu \preceq_K v, then x+uKy+vx+u \prec_K y+v.
  • if xKyx \prec_K y and α>0\alpha > 0 then αxKαy\alpha x \prec_K \alpha y.
  • xKxx \nprec_K x.
  • if xKyx \prec_K y and for u,vu,\,v small enough, x+uKy+vx + u \prec_K y + v

generalized inequality의 성질은 \leq와 비슷하지만 다른 점이 있다. 가령 \leq는 linear ordering으로, 임의의 두 원소에 대하여 항상 inequality를 정의할 수 있지만 이것이 성립하지 않을 수 있다. 여기서 maximum과 minimum의 개념이 기존보다 조금 복잡해진다.

어떤 집합 SS의 원소 xx가 모든 다른 원소 yy에 대해 xKyx \preceq_K y 를 만족하면 이 xxSS의 minimum이라고 부른다. 따라서 xx는 다른 원소들과 비교 가능하며 같거나 크다. 수식으로 표현하면 다음과 같다.

Sx+KS \subseteq x + K

비슷한 개념으로 minimal이 있는데, 어떤 집합 S의 원소 xx에 대해 yKxy \preceq_K x인 경우는 x=yx=y인 경우 뿐이다. nothing is smaller라고 표현하면 적합할 것 같다. 수식으로 표현하면 다음과 같다.

(xK)S={x}(x-K) \cap S = \{x\}

가령 아래 그림에서 x1x_1R+2\mathbb{R}^2_+에서 정의된 inequality에 대하여 minimum, x2x_2는 minimal point이다.

또다른 예로, ordering {1,2,3,,}\{1,2,3,…,\}에서 11은 minimum element이다. 만약, 22부터 시작하는 자연수에 ‘나눌 수 있음’으로 순서를 부여했다고 해 보자. 따라서 aba \leq baabb를 나눌 수 있다는 것이다. 그러면 minimal elements는 소수가 된다. 그렇지만 minimum은 아니다.

5. separating and supporting hyperplanes

다음 두 theorem은 Rn\mathbb{R}^n상에서 convex set의 위치를 정확하게 정한다는 의의를 지니고 있다.

Separating hyperplane theorem

어떤 두 convex set CCDD가 disjoint일 때, 그 두 집합은 어떤 hyperplane aTx=ba^Tx = b로 구분될 수 있다. 즉 하나는 한쪽 halfspace, 다른 것은 반대쪽에 속한다. (역은 성립하지 않을 수 있다.) 머신러닝의 관점에서, 어떤 데이터가 convex하게 분포되어 있으면 linearly seperable하다.

이때 등호가 없는 separation이 성립할 수도 있는데, (i.e. C in aTx>ba^Tx > b, D in aTx<ba^Tx < b) 밑의 그림처럼 항상 가능하지는 않다.

그렇지만 중요한 건 결국 등호가 없는 경우의 strict한 separation이다. 이 경우는 아래와 같다.

Let CC and DD be closed convex sets in RnR^n with at least one of them bounded, and assume that CD=.C \cap D = \emptyset. Then aRn,a0,bRs.t.\exists a \in \mathbb{R}^n,\,a\ne 0,\, b\in \mathbb{R}\,\,s.t.
aTx>b,xDa^Tx >b,\,\,\forall x \in D and aTx<b,xCa^Tx <b,\,\,\forall x \in C

Proof.
두 convex set의 거리를

dist(C,D)=inf{uvuC,vD}\text{dist}(C, D) = \inf \{ \|u - v\| \mid u \in C, v \in D \}

와 같이 정의하자.
cCc \in CdDd \in D를 이 infimum에 해당하는 점이라고 하자. 그 다음,

a=dc,b=d2c22,a0a = d - c, \quad b = \frac{\|d\|^2 - \|c\|^2}{2},\,\,a \neq 0

위와 같이 seperating hyperplanef(x)=aTxbf(x) = a^Tx - b의 파라메터를 정의하자. 그러면 우리의 주장(claim)은

f(x)>0,xDandf(x)<0,xCf(x) > 0, \forall x \in D \quad \text{and} \quad f(x) < 0, \forall x \in C

가 된다.
a,ba, b를 이렇게 선택한 이유는 아래에서 볼 수 있듯 hyperplane이 c,dc, d 사이를 반 가르게 선택하기 위해서이다.

f(c+d2)=(dc)T(c+d2)d2c22=0.f\left( \frac{c + d}{2} \right) = (d - c)^T \left( \frac{c + d}{2} \right) - \frac{\|d\|^2 - \|c\|^2}{2} = 0.

이제 모든 xDx \in D에 대해f(x)>0f(x) > 0임을 증명하면 반대의 경우는 대칭적이므로 증명이 끝난다.

모순을 이끌어내기 위해, f(dˉ)0f(\bar{d}) \leq 0dˉD\bar{d} \in D가 존재한다고 가정하자. 그러면

(dc)Tdˉd2c220(1)(d - c)^T\bar{d} - \frac{\|d\|^2 - \|c\|^2}{2} \leq 0 \quad(1)

이어야 한다.

이제 g(x)=xc2g(x) = \|x - c\|^2를 정의하자. 그러면 dˉd\bar{d} - ddd로부터 gg에 대해 descent direction이 된다. 정확한 수식적 유도는 아래와 같다.

g(d)(dˉd)=(2d2c)T(dˉd)=2(d2+dTdˉcTdˉ+cTd)=2(d2+(dc)Tdˉ+cTd)2(d2+d2c22+cTd)=d2c2+2cTd=dc2<0\begin{aligned} \nabla g(d)(\bar{d} - d) &= (2d - 2c)^T(\bar{d} - d)\\ &= 2(-\|d\|^2 + d^T \bar{d} - c^T \bar{d} + c^Td)\\ &= 2(-\|d\|^2 + (d - c)^T \bar{d} + c^T d)\\ &\leq 2(-\|d\|^2 + \frac{\|d\|^2 - \|c\|^2}{2} + c^T d)\\ &= -\|d\|^2 - \|c\|^2 + 2c^Td\\ &= -\|d - c\|^2 < 0 \end{aligned}

이 때 첫 번째 부등식은 (1)(1)로부터 나왔고, 두 번째 부등식은 dcd \neq c로부터 알 수 있다.

따라서 다음 사실이 성립한다.

αˉ>0s.t.α(0,αˉ)g(d+α(dˉd))<g(d)i.e.d+α(dˉd)c2<dc2.\begin{aligned} &\exists \bar{\alpha} > 0 \,\, \text{s.t.}\,\, \forall \alpha \in (0, \bar{\alpha})\\ &g(d + \alpha(\bar{d} - d)) < g(d)\\ \text{i.e.}\,\, &\|d + \alpha(\bar{d} - d) - c\|^2 < \|d - c\|^2. \end{aligned}

하지만 이것은 ddcc와 가장 가까운 점이라는 사실에 모순이므로 우리가 가정한 dˉ\bar{d}는 존재하지 않는다.

중요한 따름정리는 다음과 같다.

Let CC be a closed convex set and x0Cx_0 \notin C. Then there exists a hyperplane that strictly separates from CC.

여기에서 Farkas’ Lemma라는 매우 중요한 정리가 나오고, 이 보조정리에서 LP strong duality 성질이 유도되는 구조이다. 이 내용은 나중에 다루도록 하자.

Supporting hyperplane theorem

어떤 집합이 supporting hyperplane을 갖는다는 것은 그 집합이 hyperplane을 통해 분리된 halfspace 중 하나에 온전히 속하며, hyperplane과 접하는 경계점이 적어도 하나 존재한다는 것이다.

구체적으로, 집합 SRnS \subseteq \mathbb{R}^n의 경계점 x0bdS=clS\intSx_0 \in \text{bd}\,S = \text{cl}\,S \backslash \text{int}\,Sa0a\neq 0에 대해 aTxaTx0xSa^Tx \leq a^Tx_0\,\,\forall x\in S를 만족하면 hyperplane {xaTx=aTx0}\{x\,|\,a^Tx = a^Tx_0\}SS의 supporting hyperplane이라 한다.

따라서 halfspace {xaT(x0x)0}\{x\,|\,a^T(x_0-x) \geq 0\}(normal vector의 반대쪽)이 집합을 포함하게 된다.

convex set의 경우 경계면의 점 x0x_0와 접하는 supporting hyperplane이 적어도 하나 존재한다.

반대로, 만약 SS가 interior를 가지는 closed nonempty set이고 모든 경계면의 점이 그 점을 포함하는 supporting hyperplane을 가질 경우, SS는 convex set이며 모든 supporting hyperplane의 교집합 역시 convex set이다.

결국 이것은 임의의 convex set의 공간상의 위치를 supporting hyperplane이 이루는 halfspace의 교집합으로 정확히 나타낼 수 있다는 말이므로, 두 hyperplane theorem은 궁극적으로 같은 뜻이다.

6. Dual cones and generalized inequalities

쌍대공간(Dual space)는 어떤 벡터공간 VV에서 정의된 모든 linear form, 즉 스칼라로 맵핑되는 선형함수를 모은 공간이다. 우리 세션에서는 자세한 수학적 논의는 하지 않고 교재에 소개된 내용만 살펴보았다.

Dual cones

Cone KKdual cone KK^*는 다음과 같이 정의된다.

K={yxTy0xK}K^*= \{y\,|\,x^Ty \ge 0\,\, \forall x\in K\}

이름 그대로 KK^*는 cone이며, 원래 KK에 상관없이 항상 convex set이다. 기하적으로, yKy\in K^*y-yKK의 원점에서의 supporting hyperplane의 normal vector임과 동치이다.

(사실 위 그림처럼, dual cone은 원래 set이 cone이 아니어도 cone이다.)

예시로, positive semidefinite cone S+n\mathbb{S}^n_+은 자기가 자기 자신의 dual cone인 self-dual이다. 따라서 n×nn \times n square matrix YY에 대하여

X,Y=tr(XY)0X0    Y0\langle X, Y \rangle = \text{tr}(XY) \geq 0\quad\forall X \succeq 0 \implies Y \succeq 0

임이 성립한다. 이 사실을 증명해 보자. 만일 YS+nY \notin \mathbb{S}^n_+라면, qTYq=tr(qqTY)<0q^TY q = \text{tr}(qq^TY) <0qq가 존재하고 따라서 positive semidefinite인 X=qqTX = qq^T에 대한 반례가 생겨 YYXX의 dual cone에 속하지 않는다. 반대로 YS+nY \in \mathbb{S}^n_+라면 positive semidefinite인 XX의 eigen decomposition X=i=1nλiqiqiTX = \sum_{i=1}^n \lambda_i q_i q_i^T를 정의했을 때 모든 eigenvalue가 00보다 크거나 같으므로 tr(YX)=tr(Yi=1nλiqiqiT)=i=1nλiqiTYqi0\text{tr}(YX) = \text{tr}\left(Y \sum_{i=1}^n \lambda_i q_i q_i^T\right) = \sum_{i=1}^n \lambda_iq_i^TYq_i \geq 0이다. 따라서 (S+n)=S+n(\mathbb{S}^n_+)^* = \mathbb{S}^n_+이다.

만일 원래의 cone KK가 proper cone이면 dual cone도 proper cone이며, K=KK^{**} = K이다. 즉 dual cone 상에서도 inequality를 정의할 수 있는데, 다음 문단에서 살펴보자.

Dual generalized inequalities

방금 말했듯 원래 cone이 proper cone이면 dual cone에서도 inequality가 정의되는데, 둘은 상호작용하는 성질이 있다. 아래 두 개는 매우 중요한 성질이며, KKKK^{*}를 서로 바꿔도 동일하게 성립한다.

  • xKy    λTxλTyfor allλK0x \preceq_K y \iff \lambda^T x \leq \lambda^T y\,\,\text{for all}\,\,\lambda \succeq_{K^*} 0.
  • xKy    λTx<λTyfor allλK0,λ0x \prec_K y \iff \lambda^T x < \lambda^T y\,\,\text{for all}\,\, \lambda \succeq_{K^*} 0, \lambda \neq 0

이 성질을 통해 dual cone을 이용하면 기존의 벡터에 대한 inequality를 스칼라에 대한 inequality로 훨씬 간단하게 표현할 수 있음을 알 수 있다.

Minimum and minimal elements via dual inequalities

이제 마지막이자 섹션 6의 의의가 되는 부분으로, Rm\mathbb{R}^m상의 set의 minimum / minimal element를 dual inequality를 이용해 표현해 보자.

proper cone KK에서 정의된 generalized inequality 기준, 집합 SS의 minimum element의 정의는 다음과 같이 dual cone을 이용하여 표현할 수 있다.

xx is the minimum element of SS, with respect to the generalized inequality K\preceq_K, if and only if for all λK0\lambda \succ_{K^*} 0, xx is the unique minimizer of λTz\lambda^Tz over zSz \in S.

기하적으로 이는 아래 그림처럼 SS의 supporting hyperplane {zλT(zx)=0}\{z\,|\,\lambda^T (z-x) = 0 \}xx를 유일한 접점으로 가짐을 말한다.

이제 miminal element에 대해 살펴보자. SS의 minimal element는 다음과 같이 표현할 수 있다.

If λK0\lambda \succ_{K^∗} 0 and xx minimizes λTz\lambda^Tz over zSz \in S, then xx is minimal.

이 정의에는 미묘한 점이 있다. 먼저 이 명제는 양방향이 아님에 주의하자. 아래 그림에서 xxSSR+2\mathbb{R}^2_+상의 minimal element지만, 접선을 그을 수 있는 적절한 λ0\lambda \succ 0을 찾을 수 없다.

반대 방향은 SS가 convex set일 때 제한적으로 성립한다. 만일 SS가 convex set이고 xx가 minimal element라면, xx는 임의의 λK0\lambda \succeq_{K^*}0에 대해 λTz\lambda^Tz의 minimizer이다. (다만 K\succ_{K^*}에 대해서는 성립하지 않을 수 있다.) 따라서 convexity 조건이 있어야만 벡터 최적화 문제를 이 방식으로 풀 때 가능한 전체 해를 탐색할 수 있다.

아래 그림은 이런 벡터 최적화 문제의 적용 예시이다. 연료와 노동력을 투입해 최대 효율을 달성하고 싶을 때, 같은 생산량을 도출하는 자원 벡터들의 다양한 조합(생산 방법)은 PP와 같다. 우리의 목표는 PP의 minimal element인, 가장 자원을 적게 소모하는 조합 벡터를 찾는 것이고 이 기준은 componentwise inequality이다. 가령 xyx \preceq y라는 것은 두 벡터의 각 원소 모두에 대해 각각 xiyix_i \leq y_i라는 뜻이다. 이때 minimal element, 즉 더 개선할 필요가 없는 상태를 pareto optimal이라고 한다. 이때 λ0\lambda \succeq 0을 각각의 자원 투입에 대한 비용(cost)으로 생각해 λTx\lambda^Tx를 최소화하는 문제로 표현하는 것은 이 문제를 푸는 효과적인 접근 방식이다.

위 그림에서 x5,x4x_5, x_4는 둘다 x2x_2에 밀리므로 효율적인 솔루션이 아니다. x1,x3x_1, x_3λTx\lambda^Tx의 최소화 문제를 통해 찾을 수 있는 솔루션이다. 반면 x2x_2는 minimal element이지만 이 방법으로 찾을 수 없다.

profile
@Yonsei University

0개의 댓글