Part I에 이어, 추가적으로 Concentration Inequality에 대해서 이야기해봅시다.
(Cont'd) Sub-gaussian
Review
가볍게 sub-gaussian이 무엇인지에 대한 정의부터 다시 언급해보죠
sub-gaussian Random Variable이 무엇인지를 정의하는 방법은 2가지 존재합니다.
첫 번째는 MGF의 관점에서 보는 것이고, 두 번째는 Tail Bound에 대해서 보는것이죠
Defintion I (Momentum Generating Function)
X를 μ:=E[X]<∞인 Random Variable라고 합시다. 이때, 다음 성질을 만족하는 X를 varianceproxy가 σ2인 sub-gaussian이라고 합니다.
∀λ∈R:E[eλ(X−μ)]≤eλ2σ2/2
Definition II (Tail-bound)
위와 동일한 셋팅으로 갑시다. 즉, X는 μ<∞를 가지는 Random Variable입니다. 이때, 다음 성질을 만족하는 X를 varianceproxy가 σ2인 sub-gaussian이라고 합니다.
∀t∈R:Pr[∣X−μ∣≥t]≤2exp(−2σ2t2)
Example 1 (Rademacher R.V)
Rademacher이란 50%의 확률로 ±1을 취하는 Random Variable을 의미합니다.
즉, Rademacher R.V. X의 support는 {−1,1}이고, 각각의 확률은 1/2가 됩니다.
현재 보일 것은 이 X가 variance proxy가 1인, 즉 1-sub-gaussian인 R.V.임을 보일 예정입니다.
확률이 1/2로 같으므로 각각에 대해 Taylor's series 전개를 생각하면 쉽게 보일 수 있습니다.
뒤에 나올 McDiarmid's inequality를 위해 증명해야하는 성질 중 하나로는 Bounded하는 Random Variable은 4(b−a)2를 Variance Proxy로 가지는 sub-gaussian 입니다.
조금 더 statement를 다듬고, 증명을 알아봅시다.
Theorem
기댓값이 μ=E[X]인 Random Variable X를 생각하고, 이가 [a,b]에서 almost surely하다고 합시다.
즉, Almost surely하게 a≤X≤b입니다.
이때, X는 Variance proxy가 (b−a)2/4인 Sub-gaussian입니다. 즉 임의의 실수 λ∈R에 대해
E[eλ(X−E[X])]≤exp[8λ2(b−a)2]
Analysis
sub-gaussian의 정의 중 Tail-bound를 이용한 것을 보면, 저기에서 부등호를 적절히 바꿔주고 독립적인 R.V.를 모두 들고와서 긁으면 저 꼴은 이전에 소개한 Hoeffding's inequality와 아주 비슷한 꼴이 됩니다.
이때, Bounded R.V.에 대해 Theorem을 증명하게 되면, 이와 이전에 소개했던 독립적인 sub-gaussian의 합은 다시 sub-gaussian이 됨을 이용하여 Hoeffiding's inequality를 증명할 수 있습니다.
Cumulent Generating Function
본격적인 증명에 들어가기 앞서 Cumulent Generating function에 대해 알아봅시다.
MGF에서 가장 아쉬운 점이라고 하면, R.V. X의 MGF MX(t)의 second derivation은 second momentum을 제공하기 때문에 Variance를 계산하기 위해서는 추가적인 연산이 들어간다는 점입니다.
즉, dt2d2MX(t)=E[X2]이 되므로 분산을 계산하기 위해서는 한번 미분해서 0을 대입한 값이 추가로 필요하게 됩니다.
그러면 두번 미분해서 0을 넣었을 때 바로 분산에 대한 정보를 제공하는 Generating function은 없을까요?
이가 바로 Cumulent Generating Function이고, MGF에 ln을 씌운 꼴로 정의합니다.
즉, cumulnet generating function K(t)는
X가 Bounded R.V. 이므로 X−E[X] 도 동일하게 bounded되는 R.V이고, 이의 범위는 a−E[X]≤X−E[X]≤b−E[X]입니다.
편의를 위해 Y=X−E[X]라 하면 E[Y]=E[X−E[X]]=0입니다. ϕ:λ↦log(E[exp(λY)])를 생각합시다.
위의 CGF에서 ϕ(0)=0이고 ϕ′(0)=E[Y]=0이 됩니다.
또한, R.V. Y의 Probability distribution을 P라 하고, f:=EP[eλY]eλy라 하면 EY[f]=1이 f가 almost surely한 R.V.가 되므로 measure를 바꿔서
Qλ(y):=∫RfdP(y)
로 정의를 하면, Qλ 역시 Y의 Probability distriubtion이 되고 dQλ(y)=fdP(y)가 성립합니다.
또한
Sub-gaussian의 정의는 Concentration Inequaility와 굉장히 밀접한 관련이 있습니다.
특히, Bounded R.V.에서 사용할 수 있는 Hoeffiding's inequality와 굉장히 닮아있는 걸 볼 수가 있습니다.
하나의 R.V.에 대해 분석하는 것은 쉽지만, 그것들의 합에 대해 다루는 건 굉장히 어렵습니다. 독립성이 보장이 된다고 하여도 합이 정해져있다고 해서 각각의 R.V.에 대한 값들이 정해지는 것은 아니기 때문이죠
이때 Sub-gaussian 성질을 이용하면 그 합에 대한 Tail bound를 보장해줄 수 있다는 것이기도 하고, 자체로도 sub-gaussian을 유지하는 것 자체로도 굉장히 강력합니다.
적용할 수 있는 R.V.의 범위가 굉장히 넓습니다.
가장 많이 나오는 Gaussian, 그리고 베르누이 분포, loss function의 범위를 제한 시켰다고 가정하면 Bounded되는 R.V.에 대해서도 항상 sub-gaussian이 적용이 됩니다.
그러면서도 강력한 성질을 가지고 있기 때문에, application의 범위가 굉장히 넓습니다.
Functions of Random Variable
Motivation
우리가 일반적으로 가지고 있는 것은 데이터셋, 즉 D={(xi,yi)}i=1n 뿐입니다. 하지만, 실제로 우리가 처리해야하는 것은 sampling한 Dataset이 아니라 그것으로부터 결과를 얻은 f(X1,X2,⋯,XN)에 대해서 알아봐야한다는 것이죠.
이때, 만약 Sampling한 R.V.가 Bounded하게 되면 이를 어느정도 보장해줄 수 있습니다! 이가 바로 McDiarmid's inequality입니다.
Theorem (Mcdiarmid's inequality)
함수 f:Rn→R가 독립적인 R.V.로 부터 sampling한 데이터들을에 대해 하나하나씩 바꾸어도 값의 차이가 Bounded된다고 가정합시다. Formally하게,
오직 하나의 변수에 대해서 어떤 함수가 non-sensitive함을 보이게 되면, 그 함수의 전체에 대한 Tail-bound를 보장해주는 아주 강력한 정리입니다.
이때, 만약 f를 ∑i=1nxi2으로 정의하게 되면, 이는 Hoeffiding's inequality와 동일하게 됩니다.
Proof
Part I
먼저, 함수 f에 대해서 저희가 가지고 있는 정보는 오직 하나의 변수에 대한 것뿐입니다. 허나, McDiamird's inequality에서는 전체에 대해서 다룰 필요가 있죠. 그렇기 때문에, 전체를 하나하나씩에 대해 쪼개줄 필요가 있습니다.
기본적인 아이디어는 Conditional Expectation입니다. E[E[X∣Y]]=E[X]에서 우변은 모르겠지만 좌변 같은 경우 저 식은 Y에 대한 함수가 되죠.
이렇게 하나하나씩 쪼개다보면, 결국은 전체에 대해 구성할 수 있습니다.
먼저 위의 방식대로 R.V.들을 정의합시다.
Z0Z1⋮ZiZn=E[f(X1,⋯,Xn)]=E[f(X1,⋯,Xn)∣X1]=E[f(X1,⋯,Xn)∣X1,⋯,Xi]=f(X1,X2,⋯,Xn)(this is constant value)(a funtion of X1)(a function of X1,⋯,Xi)
따라서 Di=Zi−Zi−1이라 정의하면 E[Di]=E[Zi]−E[Zi−1]=0입니다.
또한, 초기의 확률 식은
Pr[Zn−Z0≥t]≤exp(−∑i=1nci22t2)
으로 바뀌게 됐습니다.
그러면, 이제 어찌 Zn−Z0을 처리해야할까요?
Assumption에서는 하나에 대한 값의 변화입니다. 또한, Zi와 Zi−1을 보면, 각각 i개에 대한 함수와 i−1개에 대한 함수죠. 그러면, Conditional Expectation을 이용하여 Zi−Zi−1을 Expectation에 대해 쓰고, Zi에서 추가된 항목에 대한 함수로 새롭게 정의하면 우리가 원하는 형태를 만들 수 있을 것 같군요!
그러면, 하나에 대한 차이로 Zn−Z0을 만들 수 있을까요? 정답은 yes입니다. Telescoping 기법을 활용하면
라 하면, 임의의 R.V.에 대해 어떤 값이 배정이 되더라도 Ai≤Di≤Bi가 됩니다.
또한, 각각의 sampling한 값은 전부 독립이므로 따로 생각하면,
Bi−Ai≤x1,x2,⋯,xi−1supxi,xi′sup∫(f(x1,x2,⋯,xi,⋯,xn)−f(x1,x2,⋯,xi′,⋯,xn))dP(xi+1,⋯,xn)≤ci(∵Only one change of variable is non-sensitive on f)
즉, Di는 Bounded한 R.V.이며, Bi−Ai는 ci보다 작습니다.
Part IV
마지막입니다. Part III을 이용하여 원하는 바를 증명해봅시다.
위의 정리를 증명하기 위해서 Zn−Z0이 O(i=1∑nci2)-sub-gaussian임을 보여줘도 충분합니다.
E[eλ(Zn−Z0)]=E[eλ∑i=1n(Zi−Zi−1)]=E[E[eλ(Zn−Zn−1)∣∣∣∣X1,X2,⋯,Xn−1]eλ∑i=1n−1(Zi−Zi−1)]≤eλ2cn2/8×E[eλ∑i=1n−1(Zi−Zi−1)](∵Bounded R.V. is sub-gaussian)⋮≤eλ2(∑i=1nci2)/8