Jensen's Inequality

김석범·2025년 5월 20일

Tools

목록 보기
2/3

1. 볼록함수(Convex function)란

다음의 정의를 만족하는 함수 ff 를 말한다.

f(λx  +  (1λ)y)λf(x)  +  (1λ)f(y)  (x,y)Rf(\lambda x \; + \; (1-\lambda )y) \leq \lambda f(x)\;+\;(1-\lambda)f(y)\quad\quad \forall \;(x,y) \in \mathbb R

즉, 어떤 함수 ff에 대하여 (x,f(x))(x\, ,f(x))(y,f(y))(y\, ,f(y)) 를 잇는 선이 ff의 그래프 위에 놓이면 ff를 볼록함수라고 한다.

2. 유한 볼록 조합

1에서 볼록함수가 어떤걸 의미하는지 알아봤다.

이를 여러점으로 확장하면 다음과 같이 정의할 수 있다.

f(i=1nλixi)i=1nλif(xi)  .where  i=1nλi=1f(\sum \limits_{i=1}^n\lambda_ix_i) \leq \sum \limits_{i=1}^n\lambda_if(x_i)\;. \quad\quad where \;\sum \limits_{i=1}^n\lambda_i = 1

3. Jensen's Inequality

λi\lambda_i를 각 xix_i 각 나올 확률이라 하면 2번에서의 값을 기댓값으로 나타낼 수 있다.

f(E[X])    E[f(X)]f(\mathbb E[X])\;\leq\;\mathbb E[f(X)]

이때, ff 가 오목함수(Concave function) 이면 부등호의 방향은 반대이다.

Jensen's Inequality는 변분추론(ELBO), 마코프 체인에서 배경 이론으로 사용되는 중요한 개념이다.

실제 예시로 deep unsupervised learning using nonequilibrium thermodynamics 논문의 training 과정 중 Jensen 부등식을 통해 로그 우도의 하한을 만들어 낸다.

dx(0)q(x(0))log[dx(1:T)q(x(1:T)x(0))p(x(T))t=1Tp(x(t1)x(0))q(x(0)x(t1))]\int dx^{(0)}q(x^{(0)})log[\int dx^{(1:T)}q(x^{(1:T)}|x^{(0)})p(x^{(T)})\prod^T_{t=1}\frac{p(x^{(t-1)}|x^{(0)})}{q(x^{(0)}|x^{(t-1)})}]

이때, loglog 함수는 오목함수 이므로

f(E[X])    E[f(X)]f(\mathbb E[X])\;\geq\;\mathbb E[f(X)]

를 만족한다.

따라서 위 식의 값을 LL이라 하면,

Ldx(0:T)q(x(0:T))log[p(x(T))t=1Tp(x(t1)x(0))q(x(0)x(t1))]L \geq \int dx^{(0:T)}q(x^{(0:T)})log\,[p(x^{(T)})\prod^T_{t=1}\frac{p(x^{(t-1)}|x^{(0)})}{q(x^{(0)}|x^{(t-1)})}]

을 만족한다.

이런식으로 계산하기 용이한 하한(lower bound)을 만드는데 Jensen 부등식이 핵심적인 기술로 작동한다.


참고자료
https://blog.naver.com/yh6613/220445516640
https://datalabbit.tistory.com/159

profile
ML/DL 잘은 모르겠지만 ,,,

0개의 댓글