1. 볼록함수(Convex function)란
다음의 정의를 만족하는 함수 f 를 말한다.
f(λx+(1−λ)y)≤λf(x)+(1−λ)f(y)∀(x,y)∈R
즉, 어떤 함수 f에 대하여 (x,f(x)) 와 (y,f(y)) 를 잇는 선이 f의 그래프 위에 놓이면 f를 볼록함수라고 한다.
2. 유한 볼록 조합
1에서 볼록함수가 어떤걸 의미하는지 알아봤다.
이를 여러점으로 확장하면 다음과 같이 정의할 수 있다.
f(i=1∑nλixi)≤i=1∑nλif(xi).wherei=1∑nλi=1
3. Jensen's Inequality
λi를 각 xi 각 나올 확률이라 하면 2번에서의 값을 기댓값으로 나타낼 수 있다.
f(E[X])≤E[f(X)]
이때, f 가 오목함수(Concave function) 이면 부등호의 방향은 반대이다.
Jensen's Inequality는 변분추론(ELBO), 마코프 체인에서 배경 이론으로 사용되는 중요한 개념이다.
실제 예시로 deep unsupervised learning using nonequilibrium thermodynamics 논문의 training 과정 중 Jensen 부등식을 통해 로그 우도의 하한을 만들어 낸다.
∫dx(0)q(x(0))log[∫dx(1:T)q(x(1:T)∣x(0))p(x(T))t=1∏Tq(x(0)∣x(t−1))p(x(t−1)∣x(0))]
이때, log 함수는 오목함수 이므로
f(E[X])≥E[f(X)]
를 만족한다.
따라서 위 식의 값을 L이라 하면,
L≥∫dx(0:T)q(x(0:T))log[p(x(T))t=1∏Tq(x(0)∣x(t−1))p(x(t−1)∣x(0))]
을 만족한다.
이런식으로 계산하기 용이한 하한(lower bound)을 만드는데 Jensen 부등식이 핵심적인 기술로 작동한다.
참고자료
https://blog.naver.com/yh6613/220445516640
https://datalabbit.tistory.com/159