[CS229M] Concentration Inequalities - Part I

Sung Jae Hyuk·2023년 9월 7일
0

CS229

목록 보기
2/3

Motivation

Machine Learning에서 가장 중요한 부분 중 하나는 어떤 알고리즘 (혹은 어떤 losss)가 어떤 Complexity를 가지는지, 그리고 Loss가 Uniform convergence하는지 입니다.
그렇기 때문에 일반적으로 data distribution pp에서 단순히 하나만 sampling하기 보다는 Independent and identically distributed(이하 i.i.di.i.d) 가정을 가지고 sampling하는 경우가 많습니다.
이렇게 여러 개의 R.V. X1X_1, X2X_2, \cdots, XnX_n을 sampling하였을 경우엔 확률의 개념에 따라 X1++XnX_1+\cdots +X_nE[X1++Xn]\mathbb{E}[X_1+\cdots+X_n]이 완전히 일치하지는 않겠죠.
(물론, Weak Law of Large number에 의해, nn\rightarrow \infty에 대해 두 값을 n으로 나눈 값은 high probability로 임의의 ε\varepsilon의 차이가 나게하는, 즉 converge to probability하게 됩니다.)
특히, 우리는 sampling한 Data들에 대해 Hypothesis hHh\in\mathcal{H}를 따로 취한 후 Loss를 계산해야하기 때문에, 함수를 취했을 때에도 동일하게 기댓값 주변에 어느 정도의 확률로 모이는지에 대해 관심을 가질 필요가 있습니다.
이번 글에서는 여러개의 Concentration Inequality와 기초가 되는 Big-O notation에 대해 알아볼 예정입니다.

Support Material

이 글은 STATS214/CS229M를 참고하여 작성합니다.
유튜브에서도 강의 영상이 있으니, 참고하시면 좋습니다.

Big-O notation

해당 CS229M 수업을 듣다보면, Complexity를 표시할 때 굉장히 자주 쓰는 표현이 Big-O notation입니다.
Computer Science에서 사용하는 Big-O notation과 동일하고, 간략하게 알아봅시다.

어떤 함수 f(x)f(x)가 있을 때, 이가 어떤 Constant CC에 의해 값이 Bounded되는 경우가 발생합니다.
예를 들어, x>1x>1에서 정의된 함수 f(x)=lnxf(x)=\ln x를 생각해봅시다.
x>1x>1에서 lnx>0\ln x>0이고, x>0:lnx<x\forall x>0\::\:\ln x < x임은 자명한 사실이죠.
그렇기 때문에, f(x)x|f(x)| \leq x라고 적어도 문제가 없습니다. 이때는, 위에서 의미한 Universial constant CC의 값은 11이 됩니다.
이렇듯 어떤 Universial constant CC가 존재하며 f(x)Cx|f(x)|\leq Cx를 만족시킬 때, 우리는 Big-O notation을 사용하여 f(x)=O(f(x))f(x) = O(f(x)) 또는 f(x)=O(x)f(x) = O(x)로 표기를 합니다.
이때 O(x)O(x)에 들어간 xxff에 들어가는 xx와 동일합니다. 예를 들어, O(σlogn)O(\sigma \sqrt{\log n})이라는 표기가 있으면 이는 CR s.t. f(σlogn)Cσlogn\exists C\in\R~s.t.~|f(\sigma \sqrt{\log n})|\leq C\sigma\sqrt{\log n}를 의미합니다.
또한, O(logn)O(\log n)같은 경우 굉장히 자주 나오는 표기입니다. 따라서 가끔씩 logn\log n Factor를 숨기기 위하여 O~(n)\tilde{O}(n)을 사용합니다. 즉, f(n)=O(logn)f(n)=O(\log n)이면 f(n)=O~(1)f(n)=\tilde{O}(1)입니다.

Concentration Inequality (R.V.)

Markov's Inequality

추후 소개할 Chebyshev's inequality에 사용되는 Markov inequality에 대해 알아봅시다.

Theorem

먼저 XX는 음수를 가지지 않고 finite expectation이 있는 Random varaible라고 합시다.
그러면, 임의의 실수 aa에 대해 다음 부등식이 성립합니다.

Pr(X>a)E(X)a\Pr(X>a) \leq \dfrac{\mathbb{E}(X)}{a}

또한, X0|X|\geq 0이므로 이를 이용하여 Momentum 관점에서 하나의 따름정리를 만들 수 있습니다.

Pr(X>a)E(Xn)an\Pr(|X|>a)\leq\dfrac{\mathbb{E}(|X|^n)}{a^n}

Proof는 생략합니다.

Chebyshev's Inequality

가장 Weak하지만 범용성이 뛰어난 Chebyshev's inequality에 대해 알아봅시다.

Theorem 1

E(Z)<E(Z)<\infty, Var(Z)<\rm{Var}(Z)<\infty인 Random Variable ZZ가 있다고 할 때, 임의의 양수 tt에 대해

Pr[ZE[Z]t]Var(Z)t2\Pr\left[|Z-\mathbb{E}[Z]\geq t\right]\leq\dfrac{\rm{Var}(Z)}{t^2}

이때, 임의의 δ(0,1]\delta\in(0,\:1]에 대해 t=sd(Z)/δt=sd(Z)/\sqrt{\delta}를 대입하게 되면

Pr[ZE[Z]sd(Z)δ]1δ\Pr\left[|Z-\mathbb{E}[Z]|\leq\dfrac{sd(Z)}{\sqrt{\delta}}\right]\geq 1-\delta

Analysis

의미를 하나하나 분석해봅시다.
1. ZE(Z)Z-\mathbb{E}(Z)는 Random variable ZZ의 값이 얼마나 평균으로부터 떨어져있는지를 의미합니다.
2. 이 값이 tt보다 크다는 것은, 꼬리쪽에 해당이 됩니다. 즉, tt가 크면 클 수록 엄청 멀리 있는 값들만이 후보가 됩니다.
3. 이때 평균으로부터의 거리를 tt라고 하면 그 확률은 t2t^{-2}에 비례합니다. 즉, 이는 polynomial한 Complexity를 가지고, 이 감소율은 Exponential에 비해 굉장히 Slow합니다.
즉, Chebyshev에서는 O(nc/2)O(n^{c/2})밖에 보장을 안해준다는 것을 의미합니다. (w.h.p)
4. 만약, Random Variable ZZ가 Gaussian이라 하면 Gaussian tail bound를 이용하여 다음 식을 유도해낼 수 있습니다.

Pr[ZE[Z]sd(Z)2log(2/δ)]1δ\Pr\left[|Z-\mathbb{E}[Z]|\leq sd(Z)\cdot\sqrt{2\log(2/\delta)}\right] \geq 1-\delta

즉, δ=1/nc\delta=1/n^c라 하면 ZE[Z]σO~(1)|Z-\mathbb{E}[Z]|\leq \sigma \tilde{O}(1)을 유도할 수 있습니다. (w.h.p)
유도 과정은 아래 Appendix에서 확인할 수 있습니다.

Appendix: Derive Gaussian Tail bound

먼저, Markov inequality를 체른오프식 Bound로 표현을 하면

log(Pr[XE[X]t])infλ0(log(E[eλ(XE[X])])λt)\log (\Pr[X-\mathbb{E}[X]\geq t]) \leq \inf_{\lambda \geq 0}\left(\log\left(\mathbb{E}\left[e^{\lambda(X-\mathbb{E}[X])}\right]\right)-\lambda t\right)

이때 inf\inf는 하한을 의미합니다.
XN(μ,σ2)X\sim \mathcal N(\mu,\:\sigma^2)에서 y=Xμy=X-\mu라 하면, yN(0,σ2)y \sim \mathcal N(0,\:\sigma^2)을 따름은 자명합니다.
Moment generating function에서

E(eλ(XE[X]))=E(eλy)=Reλyey2/2σ22πσ2dy=Re(y2+λσ2y)/2σ22πσ2dy=eλ2σ2/2Re(yλ/σ2)12σ22πσ2dy=eλ2σ22\begin{aligned} \mathbb{E}\left(e^{\lambda(X-\mathbb{E}[X])}\right)&=\mathbb{E}(e^{\lambda y}) \\&=\int_\R e^{\lambda y}\dfrac{e^{-y^2/2\sigma^2}}{\sqrt{2\pi\sigma^2}}dy \\&=\int_\R \dfrac{e^{(-y^2+\lambda\sigma^2 y)/2\sigma^2}}{\sqrt{2\pi\sigma^2}}dy \\&=e^{\lambda^2\sigma^2/2}\int_\R\dfrac{e^{-(y-\lambda/\sigma^2)\cdot\frac{1}{2\sigma^2}}}{\sqrt{2\pi\sigma^2}}dy \\&=e^{\frac{\lambda^2\sigma^2}{2}} \end{aligned}

이를 위의 체른오프 bound에 대입하면

log(Pr[XE[X]t])infλ0(λ2σ22λt)\log\left(\Pr[X-\mathbb{E}[X]\geq t]\right)\leq\inf_{\lambda \geq 0}\left(\dfrac{\lambda^2\sigma^2}{2}-\lambda t\right)

이고 이차함수의 성질을 사용하면 우측은 t22σ2-\dfrac{t^2}{2\sigma^2}와 동일합니다.
즉, Pr[XE[X]t]et2/2σ2\Pr[X -\mathbb{E}[X]\geq t]\leq e^{-t^2/2\sigma^2}가 성립하게 됩니다.
이때 XE[X]X-\mathbb{E}[X], 즉 yy는 Gaussian distribution이므로 대칭성을 활용 하면

Pr[XE[X]t]12et2/2σ2\Pr[|X-\mathbb{E}[X]|\leq t]\geq 1-2e^{-t^2/2\sigma^2}

이고 2et2/2σ2=δ2e^{-t^2/2\sigma^2}=\delta라 하면 δ=σ2log(2/δ)\delta = \sigma\sqrt{2\log(2/\delta)}이므로 위의 식이 성립합니다.

Hoeffding's inequality

다음은 위와 약간 동떨어져서, 범위를 가지는 즉 Bounded 되어 있는 Random Variable"들"에 대해서 성립하는 아주 강력한 inequality에 대해 알아봅시다.

Theorem 2 (Hoeffding's inequality)

X1X_1, X2X_2, \cdots, XnX_n이 독립적인 실수의 R.V라 하고, in:aiXibi\forall i\leq n\::\:a_i\leq X_i\leq b_i라 합시다.
즉, Random variable들이 모두 bounded 되어 있습니다.
이때, X=1ni=1nXi\overline{X}=\dfrac{1}{n}\displaystyle\sum_{i=1}^n X_i라 하고 μ=E[X]\mu=\mathbb{E}[\overline{X}]라 정의합니다. 즉, μ\mu는 평균의 기댓값입니다.
이때, 임의의 양수 ε\varepsilon에 대해

Pr[Xμε]12exp(2n2ε2i=1n(biai)2)\Pr[|\overline{X}-\mu|\leq \varepsilon]\geq 1-2\exp\left(\dfrac{-2n^2\varepsilon^2}{\sum_{i=1}^n (b_i-a_i)^2}\right)

가 성립합니다.

Analysis

σ2=1n2i=1n(biai)2\sigma^2=\frac{1}{n^2}\sum_{i=1}^n (b_i-a_i)^2라 할 때, ε=O(σlogn)\varepsilon = O(\sigma\sqrt{\log n})이라 하면

Pr[Xμε]12exp(2ε2σ2)=12exp(2clogn)=12n2c\Pr[|\overline{X}-\mu|\leq \varepsilon]\geq 1-2\exp\left(\dfrac{-2\varepsilon^2}{\sigma^2}\right)=1-2\exp(-2c\log n)=1-2n^{-2c}

즉, with high probability로 XμO~(σ)|\overline{X}-\mu|\leq \tilde{O}(\sigma)임을 알 수 있습니다.
또한, aia_ibib_i 모두 상수이므로 σ2=O(1n)\sigma^2=O\left(\dfrac{1}{n}\right)이고 이를 대입하면 Xμ=O~(1n)|\overline{X}-\mu|=\tilde{O}\left(\dfrac{1}{\sqrt{n}}\right)입니다.
이는 추후 sub-gaussian와 연계되어 활용됩니다.

Sub-Gaussian Random variables

Definition (Sub-Gaussian Random Variable), Version I

먼저, Sub-gaussian이라는 것이 무엇인지부터 정의를 해 봅시다.
R.V. XX에 대해 μ:=E[X]<\mu:=\mathbb{E}[X]<\infty라 합시다. 이때,

E[eλ(Xμ)]eσ2λ2/2, λR.\mathbb{E}\left[e^{\lambda (X-\mu)}\right]\leq e^{\sigma^2\lambda^2/2},~\forall\lambda\in\R.

가 성립하면 XXσ\sigma를 parameter로 가지는 sub-Gaussian R.V.라고 합니다.
Formally하게, XXσ\sigma-sub-Gaussian 혹은 XXvariance proxyvariance~proxyσ2\sigma^2로 가진다고 표현합니다.

Analysis

일반적으로 Moment Generating function을 E[etX]\mathbb{E}[e^{tX}]로 정의합니다. 이러한 관점에서 보면, 위는 무한히 많은 moment들이 존재하고, 이것들이 지수적으로 감소함을 의미하는 바입니다. 조금 더 strictly하게, Momentum Generating function에 대한 Maclaurin's series을 생각하면

E[exp(λX)]=E[k=0(λX)kk!]=k=0λkk!E[Xk]\mathbb{E}[\exp(\lambda X)]=\mathbb{E}\left[\displaystyle\sum_{k=0}^\infty \dfrac{(\lambda X)^k}{k!}\right]=\displaystyle\sum_{k=0}^\infty \dfrac{\lambda ^k}{k!}\mathbb{E}[X^k]

로 적을 수 있고, 이가 Bounded 되기 때문에 모든 값이 존재함을 알 수 있습니다.
또한, Series가 수렴하므로 극한을 취했을 때 00이 되어야 하고, 더하고 있는 항들은 모두 실수열이므로 Cauchy Sequence로 간주할 때 굉장히 Slowly하게 증가함을 알 수 있습니다.

Definition (Sub-Gaussian Random Variable), Version II

위는 Momentun function에 대해 초점을 맞추었다면, 이제는 Tail에 대해 직관적으로 정의를 해봅시다.
동일하게, XX는 유한한 기댓값을 가지는 R.V.라고 할 때,

Pr[Xμ]t]2exp(t22σ2), tR\Pr[|X-\mu]\geq t]\leq 2\exp\left(-\dfrac{t^2}{2\sigma^2}\right),~\forall t\in\R

일 때 XXσ\sigma-sub-Gaussain이라 합니다.

참고로 두 정의는 동치인 증명이며, Version I => II는 위의 Appendix 과정과 동일하고 II에서 I을 증명하는 과정은 굉장히 복잡합니다.

Sum of sub-gaussian

독립적이고 Gaussian Random variable X1X_1, X2X_2, \cdots, XnX_n에 대해 이들의 합 X1+X2++XnX_1+X_2+\cdots+X_n도 동일하게 Gaussian을 따름은 자명합니다.
그럼, 과연 Sub-gaussian도 동일할까요?
정답은 Yes입니다. 이에 대해 알아봅시다.

Theorem

X1X_1, X2X_2, \cdots, XnX_n을 각각 variance proxy가 σ12\sigma_1^2, σ22\sigma_2^2, \cdots, σn2\sigma_n^2인 sub-gaussian R.V. 라고 합시다.
이때, Z=i=1nXiZ=\sum_{i=1}^n X_i라 하면 ZZ는 variance proxy가 i=1nσi2\sum_{i=1}^n \sigma_i^2인 sub-gaussian이 됩니다.
결론적으로, 임의의 실수 tt에 대해

Pr[ZE[Z]t]2exp(t22i=1nσi2)\Pr[|Z-\mathbb{E}[Z]|\geq t]\leq 2\exp\left(-\dfrac{t^2}{2\sum_{i=1}^n \sigma_i^2}\right)

가 성립합니다.

Proof

Defintion II을 활용하는 것은 굉장히 어려워보입니다. 각각의 확률을 모두 구하여 Union Bound를 사용하기엔 nn개의 범위를 알맞게 나누기가 힘들죠.
그렇기 때문에, Version I을 사용합시다.
운이 좋게 각각의 R.V.들이 독립이기 때문에, 각각을 분리할 수 있으므로 더 유용하겠네요!

E[exp{λ(ZE[Z])}]=E[i=1nexp{λ(XiE[Xi])}]=i=1nE[exp{λ(XiE[Xi]}] (Indenpendent)i=1nexp(λ2σi22) ( Xi is σi-sub-gaussian)=exp(λ2i=1nσi22)\begin{aligned} \mathbb{E}[\exp\{\lambda(Z-\mathbb{E}[Z])\}]&=\mathbb{E}\left[\prod_{i=1}^n \exp\{\lambda(X_i-\mathbb{E}[X_i])\}\right] \\&=\prod_{i=1}^n \mathbb{E}\left[\exp\{\lambda(X_i-\mathbb{E}[X_i]\}\right]~(\because\text{Indenpendent}) \\&\leq\prod_{i=1}^n \exp\left(\dfrac{\lambda^2\sigma_i^2}{2}\right)~(\because~X_i\text{ is }\sigma_i\text{-sub-gaussian}) \\&=\exp\left(\dfrac{\lambda^2\sum_{i=1}^n \sigma_i^2}{2}\right) \end{aligned}

즉, ZZ는 variance proxy i=1nσi2\sum_{i=1}^n \sigma_i^2인 sub-gaussian이고, Definition II에 의해 위의 확률식이 유도됩니다.

Next Posting

  • Examples of sub-gaussian random variables
  • Usefulness of sub-gaussian random variables
  • Functions of random variables
    • McDiarmid's inequality
    • Poincar´e inequality
profile
Hello World!

0개의 댓글

관련 채용 정보