통계학 맛보기 - 보충

c0natus·2022년 1월 27일
0

AI Math

목록 보기
6/9

1. 증명: N-1을 나눠줘야 불편추정량이된다.


S2=i=1n(xiXˉ)2n1S^2 = \frac{\sum\limits_{i=1}^n(x_i - \bar{X})^2}{n-1}

E(S2)=E(i=1n(xiXˉ)2n1)\mathbb{E}(S^2) = \mathbb{E}\Bigg(\frac{\sum\limits_{i=1}^n(x_i - \bar{X})^2}{n-1}\Bigg)

E(S2)=1n1E(i=1n(xiXˉ)2)\mathbb{E}(S^2) = \frac{1}{n-1}\mathbb{E}\Big(\sum\limits_{i=1}^n(x_i - \bar{X})^2\Big)

E(S2)=1n1E(i=1n(xiμ+μXˉ)2)\mathbb{E}(S^2) = \frac{1}{n-1}\mathbb{E}\Big(\sum\limits_{i=1}^n(x_i -\mu + \mu - \bar{X})^2\Big)

E(S2)=1n1E(i=1n[(xiμ)2+2(xiμ)(μXˉ)+(μXˉ)2])\mathbb{E}(S^2) = \frac{1}{n-1}\mathbb{E}\Big(\sum\limits_{i=1}^n\Big[(x_i -\mu)^2 + 2(x_i -\mu)(\mu - \bar{X}) + (\mu - \bar{X})^2\Big]\Big)

E(S2)=1n1E(i=1n[(xiμ)2]+i=1n[2(xiμ)(μXˉ)]+i=1n[(μXˉ)2])\mathbb{E}(S^2) = \frac{1}{n-1}\mathbb{E}\Big(\sum\limits_{i=1}^n\Big[(x_i -\mu)^2\Big] +\sum\limits_{i=1}^n\Big[2(x_i -\mu)(\mu - \bar{X})\Big] + \sum\limits_{i=1}^n\Big[(\mu - \bar{X})^2\Big]\Big)

E(S2)=1n1E(i=1n[(xiμ)2]+2(μXˉ)i=1n[(xiμ)]+n(μXˉ)2)\mathbb{E}(S^2) = \frac{1}{n-1}\mathbb{E}\Big(\sum\limits_{i=1}^n\Big[(x_i -\mu)^2\Big] +2(\mu - \bar{X})\sum\limits_{i=1}^n\Big[(x_i -\mu)\Big] + n(\mu - \bar{X})^2\Big)

Xˉ=i=1nxin\bar{X} = \frac{\sum\limits_{i=1}^nx_i}{n}

E(S2)=1n1E(i=1n[(xiμ)2]+2(μXˉ)(nXˉnμ)+n(μXˉ)2)\mathbb{E}(S^2) = \frac{1}{n-1}\mathbb{E}\Big(\sum\limits_{i=1}^n\Big[(x_i -\mu)^2\Big] +2(\mu - \bar{X})(n\bar{X} - n\mu) + n(\mu - \bar{X})^2\Big)

E(S2)=1n1E(i=1n[(xiμ)2]2n(μXˉ)2+n(μXˉ)2)\mathbb{E}(S^2) = \frac{1}{n-1}\mathbb{E}\Big(\sum\limits_{i=1}^n\Big[(x_i -\mu)^2\Big] -2n(\mu - \bar{X})^2 + n(\mu - \bar{X})^2\Big)

E(S2)=1n1E(i=1n[(xiμ)2]n(μXˉ)2)\mathbb{E}(S^2) = \frac{1}{n-1}\mathbb{E}\Big(\sum\limits_{i=1}^n\Big[(x_i -\mu)^2\Big] -n(\mu - \bar{X})^2\Big)

E(S2)=1n1E(i=1n[(xiμ)2]n(Xˉμ)2)\mathbb{E}(S^2) = \frac{1}{n-1}\mathbb{E}\Big(\sum\limits_{i=1}^n\Big[(x_i -\mu)^2\Big] -n(\bar{X} - \mu)^2\Big)

E(S2)=1n1{E(i=1n[(xiμ)2])nE((Xˉμ)2)}\mathbb{E}(S^2) = \frac{1}{n-1}\Big\{\mathbb{E}\Big(\sum\limits_{i=1}^n\Big[(x_i -\mu)^2\Big]\Big) -n\mathbb{E}\Big((\bar{X} - \mu)^2\Big)\Big\}

E((Xˉμ)2)\mathbb{E}\Big((\bar{X} - \mu)^2\Big)은 표본평균의 분산이다. 표본평균의 분산은 모분산n\frac{모분산}{n} 이다. 증명은 아래의 reference를 참고하자.

E(S2)=1n1{E(i=1n[(xiμ)2])σ2}\mathbb{E}(S^2) = \frac{1}{n-1}\Big\{\mathbb{E}\Big(\sum\limits_{i=1}^n\Big[(x_i -\mu)^2\Big]\Big) -\sigma^2\Big\}

E(S2)=1n1{E([(x1μ)2++(xnμ)2])σ2}\mathbb{E}(S^2) = \frac{1}{n-1}\Big\{\mathbb{E}\Big(\Big[(x_1 -\mu)^2 + \cdots + (x_n -\mu)^2\Big]\Big) -\sigma^2\Big\}

E(S2)=1n1{E[(x1μ)2]++E[(xnμ)2]σ2}\mathbb{E}(S^2) = \frac{1}{n-1}\Big\{\mathbb{E}\Big[(x_1 -\mu)^2\Big] + \cdots + \mathbb{E}\Big[(x_n -\mu)^2\Big] -\sigma^2\Big\}

E[(xiμ)2]\mathbb{E}\Big[(x_i -\mu)^2\Big]는 크기가 1인 표본평균의 분산으로 볼 수 있다. 따라서 σ2n\frac{\sigma^2}{n}에서 nn이 1이므로, E[(xiμ)2]=σ2\mathbb{E}\Big[(x_i -\mu)^2\Big] = \sigma^2 이다.

E(S2)=1n1{nσ2σ2}\mathbb{E}(S^2) = \frac{1}{n-1}\Big\{n\sigma^2-\sigma^2\Big\}

E(S2)=σ2\mathbb{E}(S^2) = \sigma^2

2. 카테고리분포란?


  • 카테고리 분포는 베르누이 분포를 d차원으로 확장시킨 개념이다.

  • 카테로기 분포는 generalized Bernoulli distribution, multinoulli distribution라고도 불린다.

  • 베르누이 분포에서는 확률변수 X는 2개의 값만 가진다면, 카테고리 분포에서는 d개의 값을 가진다.

  • 카테고리는 원래 scala 값이지만, 확률변수는 다음과 같이 0과 1로만 이뤄진 다차원 벡터(one-hot vector)를 출력한다.

x=(x1,x2,x3,x4,x5,x6)\boldsymbol{x} = (x_1, x_2, x_3, x_4, x_5, x_6)

x=1x=(1,0,0,0,0,0)\boldsymbol{x} = 1 \rightarrow \boldsymbol{x} = (1, 0, 0, 0, 0, 0)
\vdots
x=6x=(0,0,0,0,0,1)\boldsymbol{x} = 6 \rightarrow \boldsymbol{x} = (0, 0, 0, 0, 0, 1)
  • 원소값 xkx_k베르누이 확률변수로 볼 수 있기 때문에 각각 1이 나올 확률을 나타내는 모수 μk\mu_k를 가진다.

벡터를 나타내는 원소와 모수의 제약 조건은 다음과 같다.

i=1Kxi=1 ,   xi={10\sum\limits_{i=1}^K x_i = 1 \ , \ \ \ x_i = \begin{cases}1\\0\end{cases}

i=1Kμi=1 ,   0μi1\sum\limits_{i=1}^K \mu_i = 1 \ , \ \ \ 0 \le \mu_i \le 1

  • 확률 분포는 XCat(xμ)X \sim Cat(\boldsymbol{x}|\boldsymbol{\mu})로 표기한다.

  • x=(x1,,xK),μ=(μ1,,μK)\boldsymbol{x} = (x_1, \cdots, x_K), \boldsymbol{\mu} = (\mu_1, \cdots, \mu_K)

  • C={μ1   if   x=(1,0,,0)μK   if   x=(0,,0,1)C = \begin{cases}\mu_1 \ \ \ \text{if} \ \ \ x = (1, 0, \cdots , 0)\\\vdots\\\mu_K \ \ \ \text{if} \ \ \ x = (0, \cdots , 0, 1)\end{cases}

  • PMF = P(X=x)=f(xμ)=μ1x1μKxK=i=1KμixiP(\boldsymbol{X} = \boldsymbol{x}) = f(\boldsymbol{x}|\boldsymbol{\mu}) = \mu_1^{\boldsymbol{x}_1}\cdots\mu_K^{\boldsymbol{x}_K} = \prod\limits_{i=1}^K\mu_i^{\boldsymbol{x}_i}

베르누이 확률변수의 데이터가 복수이면 이 데이터의 합이 이항 분포를 이룬다.

카테고리 확률변수의 데이터가 여럿 있으면 이 데이터의 합은 다항분포(Multinomial distribution)가 된다.

3. 라그랑주 승수법(Lagrange Multiplier Method)


  • 너무 잘 소개 되어있는 블로그 포스트의 저작권 표시가 저작자 표시, 비영리, 변경 금지 조건이어서, 내용을 그대로 복붙하였다.

  • 라그랑주 승수법은 프랑스의 수학자 조세프루이 라그랑주 (Joseph-Louis Lagrange)가 제약 조건이 있는 최적화 문제를 풀기 위해 고안한 방법이다.

  • 라그랑주 승수법은 어떠한 문제의 최적점을 찾는 것이 아니라, 최적점이 되기 위한 조건을 찾는 방법이다. 즉, 최적해의 필요조건을 찾는 방법이다.

3.1. 기하학적 해석

  • 라그랑주 승수법의 기본 가정은 "제약 조건 g\boldsymbol{g}를 만족하는 f\boldsymbol{f}의 최솟값 또는 최댓값은 f\boldsymbol{f}g\boldsymbol{g}가 접하는 지점에 존재할 수도 있다."는 것이다.

  • 라그랑주 승수법에서는 두 함수 f\boldsymbol{f}g\boldsymbol{g}가 접하는 지점을 찾기 위해 gradient vector를 이용한다.

  • 아래 식은 f(x,y)f(x,y)에 대한 gradient vector를 나타낸다.

f=(fx,fy)\triangledown f = \Big(\frac{\partial f}{\partial x}, \frac{\partial f}{\partial y}\Big)

  • 어떠한 지점에서의 접선 벡터와 gradient vector의 내적은 0이므로, gradient vector는 접선 벡터와 수직을 이룬다.

  • 따라서, 두 함수 f\boldsymbol{f}g\boldsymbol{g}가 접한다는 것은 두 함수의 gradient vector서로 상수배인 관계에 있다는 것이다.

  • 이러한 관계를 f=λg\triangledown f = \lambda\triangledown g로 날타낼 수 있다. λ\lambda는 임의의 상수이다.

  • 라그랑주 승수법에서는 아래와 같은 보조 함수를 정의한다.

L(x,y,λ)=f(x,y)λ(g(x,y)c)\mathcal{L}(x, y, \lambda) = f(x,y) - \lambda(g(x,y) - c)

  • 위의 함수 L\mathcal{L}의 gradient vector가 영벡터가 되는 점을 찾는 것은 f=λg\triangledown f = \lambda\triangledown g를 푸는 것과 같다.

  • 따라서 함수 L\mathcal{L}gradient vector가 영벡터가 되는 점을 찾으면 두 함수 f\boldsymbol{f}g\boldsymbol{g}접하는 점을 찾을 수 있다.

  • 함수 L\mathcal{L}xxyy에 대해 편미분하면 총 2개의 식을 얻을 수 있으며, 여기에 제약 조건인 g(x,y)=cg(x,y)=c를 이용하면 미지수가 3개인 문제의 해(solution)를 구할 수 있다.

  • 여기에서 구한 xxyy는 제약 조건 g\boldsymbol{g}를 만족하는 함수 f\boldsymbol{f}의 최적점이 될 가능성이 있는 점이다.

  • 만약, 제약 조건 g\boldsymbol{g}가 n개인 경우에는 아래와 같이 일반화할 수 있다.


L(x,y,λ1,,λn)=f(x,y)i=1nλi(g(x,y)ci)\mathcal{L}(x, y, \lambda_1, \cdots, \lambda_n) = f(x,y) - \sum\limits_{i=1}^n\lambda_i(g(x,y) - c_i)

3.1. 전미분(total differential)을 이용한 해석

  • 기하학적 해석은 직관적으로 이해하기에는 용이할 수 있지만, 라그랑주 승수법이 어떻게 계산되는지를 명확하게 나타내지는 못 한다.

  • 따라서, 전미분을 이용하여 라그랑주 승수법의 정의를 더욱 수치적으로 해석한다.

  • 어떠한 함수 f(x,y,z)f(x,y,z)의 최솟값 또는 최댓값은 극점에 존재할 수도 있으며, 다변수 함수의 극점은 전미분 df=0df=0인 지점 중에 존재한다. 함수 f(x,y,z)f(x,y,z)의 전미분은 아래와 같이 정의된다.

df=fxdx+fydy+fzdzdf = \frac{\partial f}{\partial x}dx + \frac{\partial f}{\partial y}dy + \frac{\partial f}{\partial z}dz

  • 변수 dx,dy,dzdx,dy,dz가 각각 독립적이라면, 함수 df=0df=0이 되는 조건은 아래와 같다.

fx=fy=fz=0\frac{\partial f}{\partial x} = \frac{\partial f}{\partial y} = \frac{\partial f}{\partial z} = 0

  • 제약 조건 g(x,y,z)=0g(x,y,z)=0에 대해서 전미분을 하면, 아래의 식을 얻을 수 있다.

dg=gxdx+gydy+gzdz=0dg = \frac{\partial g}{\partial x}dx + \frac{\partial g}{\partial y}dy + \frac{\partial g}{\partial z}dz = 0

  • 위의 식을 dzdz에 대해 정리하면 아래와 같다.

dz=gxdx+gydygzdz = -\frac{\frac{\partial g}{\partial x}dx + \frac{\partial g}{\partial y}dy}{\frac{\partial g}{\partial z}}

  • 위의 식에서 계산한 dzdz를 함수 f(x,y,z)f(x,y,z)의 전미분 식 df=fxdx+fydy+fzdzdf = \frac{\partial f}{\partial x}dx + \frac{\partial f}{\partial y}dy + \frac{\partial f}{\partial z}dz에 대입하면 아래의 식을 얻을 수 있다.

df=fxdx+fydygxdx+gydygzdf = \frac{\partial f}{\partial x}dx + \frac{\partial f}{\partial y}dy-\frac{\frac{\partial g}{\partial x}dx + \frac{\partial g}{\partial y}dy}{\frac{\partial g}{\partial z}}

  • 함수 f의 전미분이 0이 되는 지점을 찾는 것이 목적이므로, 위의 식이 0인 값을 구해야 한다.

fxdx+fydygxdx+gydygz=0\frac{\partial f}{\partial x}dx + \frac{\partial f}{\partial y}dy-\frac{\frac{\partial g}{\partial x}dx + \frac{\partial g}{\partial y}dy}{\frac{\partial g}{\partial z}} = 0

  • 위의 식을 정리하면 아래와 같다.

(fxf/zg/zgx)dx+(fyf/zg/zgy)dy=0\Bigg(\frac{\partial f}{\partial x} - \frac{\partial f / \partial z}{\partial g / \partial z} \frac{\partial g}{\partial x}\Bigg)dx + \Bigg(\frac{\partial f}{\partial y} - \frac{\partial f / \partial z}{\partial g / \partial z} \frac{\partial g}{\partial y}\Bigg)dy = 0

  • 또한, λ\lambda를 아래와 같이 정의한다.

λ=f/zg/z\lambda = \frac{\partial f / \partial z}{\partial g / \partial z}

  • 그러면 함수 ff의 전미분이 0이 되는 지점을 찾는 식을 아래와 같이 정리할 수 있다.

(fxλgx)dx+(fyλgy)dy=0\Bigg(\frac{\partial f}{\partial x} - \lambda \frac{\partial g}{\partial x}\Bigg)dx + \Bigg(\frac{\partial f}{\partial y} - \lambda \frac{\partial g}{\partial y}\Bigg)dy = 0


(fxdx+fydy)λ(gxdx+gydy)=0\Bigg(\frac{\partial f}{\partial x}dx + \frac{\partial f}{\partial y}dy\Bigg) - \lambda\Bigg(\frac{\partial g}{\partial x}dx + \frac{\partial g}{\partial y}dy\Bigg) = 0

  • 서로 독립적인 dxdxdydy를 포함하는 위의 식을 만족하기 위해서는 아래의 식이 성립해야 한다.

fx=λgx , fy=λgy\frac{\partial f}{\partial x} = \lambda \frac{\partial g}{\partial x} \ , \ \frac{\partial f}{\partial y} = \lambda \frac{\partial g}{\partial y}

  • 위의 식을 정리하면 아래의 식과 같다. 이는 기하학적 해석에서 함수 ff의 gradient vector와 제약 조건 gg의 gradient vector의 상수배의 관계에 있어야 한다는 식과 같다.

(fx,fy)=(λgx,λgy)\Bigg(\frac{\partial f}{\partial x}, \frac{\partial f}{\partial y}\Bigg) = \Bigg(\lambda \frac{\partial g}{\partial x},\lambda \frac{\partial g}{\partial y}\Bigg)

4. Information theory: information and entropy


4.1. Information

  • 정보 이론에서, information은 bit로 측정되며, 주어진 이벤트에서 발생하는 놀라움의 양 으로 이해할 수 있다.

  • 이는 어떤 사건이 정보적 측면에서 얼마나 중요한가를 반영한 지표로 볼 수 있다.

  • Information의 수학적 정의는 아래와 같다.


I(x)=log2 1PX(X=x)=log2 PX(X=x)I(x) = log_2 \ \frac{1}{P_X(X=x)} = - log_2 \ P_X(X=x)

동전 앞면이 나올 확률이 0.99이고 뒷면이 나올 확률이 0.01이라면, 뒷면이 나온 경우 훨씬 더 놀라운 상황이다.

이를 수학적으로 나타내면, 앞면에 대한 informationlog(0.99)=0.0144 bits-log(0.99) = 0.0144\ bits로 매우 낮고, 뒷면에 대한 informationlog(0.01)=6.64 bits-log(0.01) = 6.64 \ bits로 높은 값을 가진다.

4.2. Entropy

  • 정보 이론에서, entropy는 확률 분포의 불확실함의 정도를 나타내는 양이다.

  • 이는 특정한 특정한 stochastic process에서 생성된 information의 평균(기대값)이다.

  • Entropy의 수학적 정의는 아래와 같다.


H(X)=E[I(X)]=E[log21PX(x)]=xXPX(x)log21PX(x)=xXPX(x) log2 PX(x)H(X) = \mathbb{E}[I(X)] = \mathbb{E}[log_2\frac{1}{P_X(x)}] = \sum\limits_{x \in X}P_X(x)log_2\frac{1}{P_X(x)} = -\sum\limits_{x \in X}P_X(x)\ log_2\ P_X(x)

위의 동전의 예시를 통해 entropy H(X)H(X)를 구하면 아래와 같다.

H(X)={0.99log(0.99)+0.01log(0.01)}=0.08 bitsH(X) = -\{0.99log(0.99)+0.01log(0.01)\} = 0.08\ bits

즉, 불공평한 동전은 0.08 bits0.08 \ bits의 평균 정보 전달률을 갖는 stochastic information generator이다.

만약, 동전 앞/뒤 확률이 0.5로 같았다면, entropy의 값은 1bit1bit가 나온다.

확률이 0.99, 0.01인 경우 앞면이 나온다는 것을 확신할 수 있지만, 확률이 0.5, 0.5인 경우 앞면과 뒷면 중 어느 것이 나오는지를 예측할 수 없다.

결과값을 예측하기 굉장히 쉬우면 entropy 값이 낮게 나오고, 결과값을 예측하기 굉장히 어려우면 entropy 값이 높게 나온다.

  • entropy는 홀로 머신러닝에서 자주 사용된다. ex) reinforcement learning에서 손실 함수 정규화, bayesian methods 등

References


profile
Done is Better Than Perfect

0개의 댓글