[Mathematical Statistics] 1. Expectation of random variable

박경민·2024년 7월 4일
0

[Mathematical Statistics]

목록 보기
3/24

1.8 Expectation of random variable

확률변수의 기댓값에 대한 정의를 보자.

E(X):={xfX(x)dx if xf(x)dx<(X conti. )xSXxpX(x) if xSXxp(x)<(X discrete )\mathrm{E}(X):= \begin{cases}\int_{-\infty}^{\infty} x f_{X}(x) d x & \text { if } \int_{-\infty}^{\infty}|x| f(x) d x<\infty(X \text { conti. }) \\ \sum_{x \in S_{X}} x p_{X}(x) & \text { if } \sum_{x \in S_{X}}|x| p(x)<\infty(X \text { discrete })\end{cases}
  • E(X)E(X) 는 다르게는 E.XE.X 와 같이 표기하기도 한다.
  • EX의 존재를 말하려면 integral condition 이 무한대로 발산하지 않음을 보이면 된다. EX<\mathrm{E}|X|<\infty, " EX\mathrm{E} X exists", or " EX\mathrm{E}|X| exists".

Theorem) 확률변수의 변환 g의 도입, (pf)
r.v의 변환 g가 도입되었을 때 변환에 대한 기댓값은 어떻게 변할까?

  • Let g:RRg: \mathbb{R} \rightarrow \mathbb{R} be a function
  • such that Eg(X)<\mathrm{E}|g(X)|<\infty. The expectation of Y=g(X)Y=g(X) is
E[g(X)]={g(x)fX(x)dx(X conti. )xSXg(x)pX(x)(X discrete )\mathrm{E}[g(X)]= \begin{cases}\int_{-\infty}^{\infty} g(x) f_{X}(x) d x & (X \text { conti. }) \\ \sum_{x \in S_{X}} g(x) p_{X}(x) & (X \text { discrete })\end{cases}

변수가 g(x) 가 되어서 일반적인 기댓값의 정의와 같이 이에 대한 확률을 곱해야 할 것 같지만 그대로 f(x) 를 쓴다. 이에 대한 증명은 다음과 같다. 보이고 싶은 것은, E(g(x))E(g(x))xSXg(x)pX(x)\sum_{x \in S_{X}} g(x) p_{X}(x) 와 같다는 것이다.

  • Let SXS_{X} and SYS_{Y} be the support of XX and YY, respectively. Then,
xSXg(x)pX(x)=ySYx:g(x)=y,xSXg(x)pX(x)=ySYyx:g(x)=y,xSXpX(x)=ySYypY(y)=E(Y)\begin{aligned} \sum_{x \in S_{X}} g(x) p_{X}(x) & =\sum_{y \in S_{Y}} \sum_{x: g(x)=y, x \in S_{X}} g(x) p_{X}(x) \\ & =\sum_{y \in S_{Y}} y \sum_{x: g(x)=y, x \in S_{X}} p_{X}(x) \\ & =\sum_{y \in S_{Y}} y \cdot p_{Y}(y) \\ & =\mathrm{E}(Y) \end{aligned}
  • 순서를 거꾸로 보면 쉬운 proof 가 된다. E(Y) 는 사실은 y X PY(y) 의 summation 형태로 정의되어야 한다.
  • 그러나 PY(y)는 사실은 X에서 Y로 g 함수를 통해 연결된 것이므로 g(x)=y인 x에 대해 PX(x)를 summation 해주기만 하면 된다. 여기서 변환이 일어나는 것이고
  • 다시금 정의에 따라 y = g(x)를 summation 2개 안으로 넣어주면 된다. 이때 범위도 포함이 가능하다.

Theorem) The linearity of expectation
적분의 선형성을 이용하면 기댓값의 선형성도 도출할 수 있다. 다음을 보자.

For any k1,k2Rk_{1}, k_{2} \in \mathbb{R} and functions g1,g2:RRg_{1}, g_{2}: \mathbb{R} \rightarrow \mathbb{R} such that Eg1(X)\mathrm{E}\left|g_{1}(X)\right| and Eg2(X)\mathrm{E}\left|g_{2}(X)\right| are finite,

E[k1g1(X)+k2g2(X)]=k1E[g1(X)]+k2E[g2(X)]\mathrm{E}\left[k_{1} g_{1}(X)+k_{2} g_{2}(X)\right]=k_{1} \mathrm{E}\left[g_{1}(X)\right]+k_{2} \mathrm{E}\left[g_{2}(X)\right]

각 기댓값이 finite 함이 이미 드러나있다면 전체 합의 기댓값은 각 부분들의 기댓값에 상수배를 살려 더한 것과 같다는 것. 이에 대한 증명은 다음과 같이 할 수 있다.

다음은 cdf 또는 pdf 와 Expectation 사이에서 크기비교를 통한 사실관계이니 챙겨두자. (모두 증명할 수 있다.)

  • If P(Xa)=1P(X \geq a)=1, then E(X)a\mathrm{E}(X) \geq a.
  • If P(Xb)=1P(X \leq b)=1, then E(X)b\mathrm{E}(X) \leq b.
  • If g1(x)0g_{1}(x) \geq 0 for all xx, then E{g1(X)}0\mathrm{E}\left\{g_{1}(X)\right\} \geq 0.
  • If g1(x)g2(x)g_{1}(x) \geq g_{2}(x) for all xx, then E{g1(X)}E{g2(X)}\mathrm{E}\left\{g_{1}(X)\right\} \geq \mathrm{E}\left\{g_{2}(X)\right\}.
  • If ag1(x)ba \leq g_{1}(x) \leq b for all xx, then aE{g1(X)}ba \leq \mathrm{E}\left\{g_{1}(X)\right\} \leq b.

이후에는 적률생성함수와 이를 통해 이어지는 Markov, Chebyshev, Jensen 부등식에 대해 증명해볼 수 있다.

1.9 Some Special Expectatios

Definition μ:=E(X)\mu:=\mathrm{E}(X) : expectation (기댓값), mean (평균) of r.v. XX.

Definition σ2:=E(Xμ)2\sigma^{2}:=\mathrm{E}(X-\mu)^{2} : variance (분산) of X,Var(X)X, \operatorname{Var}(X); σ:=σ2:\sigma:=\sqrt{\sigma^{2}}: standard deviation (표준편차) of X,Var(X)X, \sqrt{\operatorname{Var}(X)}.

평균과 표준편차는 전혀 새롭지 않은 정의의고, 왜도와 첨도를 확인하자.

Definition

ρ3:=E(Xμ)3/σ3: skewness (왜도). ρ4:=E(Xμ)4/σ4: kurtosis (첨도). \begin{aligned} & \rho_{3}:=\mathrm{E}(X-\mu)^{3} / \sigma^{3}: \text { skewness (왜도). } \\ & \rho_{4}:=\mathrm{E}(X-\mu)^{4} / \sigma^{4}: \text { kurtosis (첨도). } \end{aligned}
  • 일반적인 분산이 X에서 평균을 뺀 값에 제곱을 입히는 것과 달리 왜도는 세제곱을 취한다. 세제곱을 한다는 것은 부호가 산다는 것이며 50% 중앙값과 평균이 각각 어디에 위치하는지 그림에 따라 양, 음 값을 가진다.

  • 첨도는 분포 내에 얼마나 이상치 outlier 가 많은지를 확인할 수 있는 값이다.
  • 일반적인 N(0,1)의 왜도는 0, 첨도는 3이다.

이제 적률생성함수 mgf의 정의를 보자. 적률생성함수는 우리가 X의 확률에 대해 분포를 나타날 때 대표적으로 쓰는 cdf / pmf or pdf / mgf 로 매우 중요하게 쓰이는 분포에 대한 표현 중 하나라 이해하자.

Definition (mgf) Let XX be a r.v. such that E(etX)<\mathrm{E}\left(e^{t X}\right)<\infty for all t<h|t|<h for some h(0,]h \in(0, \infty]. Then, MX(t):=E(etX)M_{X}(t):=\mathrm{E}\left(e^{t X}\right) is called the moment generating function (mgf, 적률생성함수) of XX.

  • E(etX)<\mathrm{E}\left(e^{t X}\right)<\infty 라는 것은 발산하지 않고 기댓값이 존재한다는 것이고,
  • 중요하게 t가 -h와h 사이의 open interval 에서 정의된다. (0을 포함해야 한다.)
  • E 안에 들어간 변수를 g(x)로 두고 변환을 적용하면 다음과 같이 쓴다.

정의에 따라서 pmf 가 주어질 때 mgf를 구하는 과정과 특히나 과정서 범위를 유심히 살펴보자.

Exmaple1: negative binomial distribution, 음이항분포. Let XX be a r.v. with the pmf

p(x)=13(23)x1,x=1,2,p(x)=\frac{1}{3}\left(\frac{2}{3}\right)^{x-1}, x=1,2, \ldots

Find the mgf of XX.

Exmaple2: exponential distri'n, 지수분포. Let XX be a r.v. with the pdf f(x)=exf(x)=e^{-x}, x>0x>0. Find the mgf of XX.

Theorem: Uniqueness of mgf: Let XX and YY be r.v.s with mgf MXM_{X} and MYM_{Y}, respectively, existing in open intervals containing 0 . Then, FX(z)=FY(z)F_{X}(z)=F_{Y}(z) for all zRz \in \mathbb{R} if and only if MX(t)=MY(t)M_{X}(t)=M_{Y}(t) for all t(h,h)t \in(-h, h) for some h>0h>0.

cdf 가 모두 같다는 것은 mgf 가 모두 같다는 것과 같은 말이다. 이 증명은.. 따로 없이 넘어갔다.

mgf 사실관계

  • mgf 는 존재하지 않을 수 있다. (발산할 수 있다)
  • mgf 를 통해 pdf 를 찾을 수 있는 경우가 있으나 일반적이지 않음.
  • mgf를 사용하면 m차 적률을 쉽게 구할 수 있다. 즉, mgf 를 한 번 미분하면 E(X)이고 두 번 미분하면 E(X^2) 이다. (모든 m차 적률이 존재한다고 할 때, Taylor expansion 사용하면)
MX(t)=E[1+tX+t2X22!+t3X33!+]=1+tE(X)+t22!E(X2)+\begin{aligned} M_{X}(t) & =\mathrm{E}\left[1+t X+\frac{t^{2} X^{2}}{2!}+\frac{t^{3} X^{3}}{3!}+\cdots\right] \\ & =1+t \mathrm{E}(X)+\frac{t^{2}}{2!} \mathrm{E}\left(X^{2}\right)+\cdots \end{aligned}

Example
사실관계 3에 대한 예시를 보자. binomial distri'n 이라 할 때, mgf는 M(t)=(pet+1p)nM(t)=\left(p e^{t}+1-p\right)^{n}. 이고, E(X)\mathrm{E}(X)를 찾는다고 하자.

E(X)\mathrm{E}(X)는 mgf를 한 번 미분하여 t = 0을 대입하면 구할 수 있다고 하였다. mgf를 미분하면 다음과 같고,

M(t)=ddt(pet+1p)n=petn(pet+1p)n1M^{\prime}(t)=\frac{d}{d t}\left(p e^{t}+1-p\right)^{n}=p e^{t} n\left(p e^{t}+1-p\right)^{n-1}

따라서 t = 0 을 대입하면 pn 이므로 E(X) binomial distribution 의 흔히 알고 있는 expectation 과 맞아떨어진다. (이 부분이 가장 놀라웠던 부분)


그러나 모든 distribution 의 mgf를 외우고 있을 필요도 없고 그럴 수도 없다는 것.. 따라서 mgf의 미분을 통해 E(X^m) 을 구하는 것은 가능은 하지만 일반적이지 않아보이긴 한다.


1.10 Important inequalities

다음의 이어지는 3가지 부등식의 의미와 증명, 적용까지 모두 알아두자.

  1. Markov's inequality (마코프 부등식)

  2. Chebyshev's inequality (체비셰프 부등식)

  3. Jensen's inequality (얀센 부등식)

1. Markov's inequality. Let u(x):RRu(x): \mathbb{R} \rightarrow \mathbb{R} be a nonnegative function. If E{u(X)}E\{u(X)\} exists, then for every positive constant cc, we have

P(u(X)c)E{u(X)}cP(u(X) \geq c) \leq \frac{\mathrm{E}\{u(X)\}}{c}

(proof)

2. Chebyshev's inequality. Let XX be a r.v. where E(X2)<E\left(X^{2}\right)<\infty. Let μ:=E(X)\mu:=\mathrm{E}(X) and σ2:=Var(X)\sigma^{2}:=\operatorname{Var}(X). Then for every k>0k>0,

P(Xμkσ)1k2P(|X-\mu| \geq k \sigma) \leq \frac{1}{k^{2}}

Note that if we take kσ=ϵ>0k \sigma=\epsilon>0, we have

P(Xμϵ)σ2ϵ2P(|X-\mu| \geq \epsilon) \leq \frac{\sigma^{2}}{\epsilon^{2}}

(proof)


3. 얀센 부등식 전.. convex function
얀센 부등식은 convex function 에 대한 이해를 포함하고 있으니 이것 먼저 확인하자. Convex function 의 정의는 다음과 같고, '내분의 함숫값이 함숫값의 내분보다 항상 같거나 작다'로 알아두면 편하다.

Definition. A function φ\varphi defined on an interval (a,b)(a, b) is said to be a convex (볼록 또는 아래로 볼록) function if for all x,y(a,b)x, y \in(a, b) and 0<γ<10<\gamma<1,

φ(γx+(1γ)y)γφ(x)+(1γ)φ(y)\varphi(\gamma x+(1-\gamma) y) \leq \gamma \varphi(x)+(1-\gamma) \varphi(y)

We say φ\varphi is strictly convex (순볼록) if this inequality is strict.

이와 정확히 같은 의미로 쓰이는 것이 다음 φ\varphi에서 그을 수 있는 접선 l(x)=px+ql(x) = px + q 를 통한 정의이다.

++) 만약 φ\varphi is differentiable on open interval, then
Theorem 1.10.4. If φ\varphi is differentiable on some open interval II, then
1. φ\varphi is convex if and only if φ(x)φ(y)\varphi^{\prime}(x) \leq \varphi^{\prime}(y) for all x,yIx, y \in I with x<yx<y,
2. φ\varphi is strictly convex if and only if φ(x)<φ(y)\varphi^{\prime}(x)<\varphi^{\prime}(y) for all x,yIx, y \in I with x<yx<y.

++) 만약 φ\varphi^{\prime \prime} exists on II,

  • φ\varphi is convex if and only if φ(x)0\varphi^{\prime \prime}(x) \geq 0 for all xIx \in I,
  • φ\varphi is strictly convex if and only if φ(x)>0\varphi^{\prime \prime}(x)>0 for all xIx \in I.

여기서 나아가 φ\varphi 가 stricly convex 하다는 것과 동치로 쓰일 수 있는 statement 로 1) 이 함수의 Hessian 이 positive definite 라는 것, 2) hessian 의 eigenvalues 가 모두 positive 라는 것 이 있다.


이제 얀센의 부등식을 보자. 얀센의 부등식 또한, convex를 정의할 때 느낌을 가져와 내분의 함숫값이 함숫값의 내분이라는 의미 그대로다.

3.Jensen's inequality. Let φ\varphi be convex on an open interval I. Let XX be a r.v. whose support is contained in I and EX<E|X|<\infty. Then, we have

φ(EX)E{φ(X)}\varphi(E X) \leq E\{\varphi(X)\}

If φ\varphi is strictly convex, then the inequality is strict unless XX is a constant.

(proof)

부등식의 증명만 두고 보면 간단하나 linear function l 이 다음과 같이 존재하는 것까지 증명하면 더 깔끔해보인다.

(proof-> claim: linear function exist)

profile
Mathematics, Algorithm, and IDEA for AI research🦖

0개의 댓글