통계학 맛보기 - 보충

c0natus·2022년 1월 27일

ai math

AI Math

목록 보기

6/9

해당 포스트는 통계학 맛보기의 보충 자료 입니다.

1. 증명: N-1을 나눠줘야 불편추정량이된다.

$S^2 = \frac{\sum\limits_{i=1}^n(x_i - \bar{X})^2}{n-1}$

$\mathbb{E}(S^2) = \mathbb{E}\Bigg(\frac{\sum\limits_{i=1}^n(x_i - \bar{X})^2}{n-1}\Bigg)$

$\mathbb{E}(S^2) = \frac{1}{n-1}\mathbb{E}\Big(\sum\limits_{i=1}^n(x_i - \bar{X})^2\Big)$

$\mathbb{E}(S^2) = \frac{1}{n-1}\mathbb{E}\Big(\sum\limits_{i=1}^n(x_i -\mu + \mu - \bar{X})^2\Big)$

$\mathbb{E}(S^2) = \frac{1}{n-1}\mathbb{E}\Big(\sum\limits_{i=1}^n\Big[(x_i -\mu)^2 + 2(x_i -\mu)(\mu - \bar{X}) + (\mu - \bar{X})^2\Big]\Big)$

$\mathbb{E}(S^2) = \frac{1}{n-1}\mathbb{E}\Big(\sum\limits_{i=1}^n\Big[(x_i -\mu)^2\Big] +\sum\limits_{i=1}^n\Big[2(x_i -\mu)(\mu - \bar{X})\Big] + \sum\limits_{i=1}^n\Big[(\mu - \bar{X})^2\Big]\Big)$

$\mathbb{E}(S^2) = \frac{1}{n-1}\mathbb{E}\Big(\sum\limits_{i=1}^n\Big[(x_i -\mu)^2\Big] +2(\mu - \bar{X})\sum\limits_{i=1}^n\Big[(x_i -\mu)\Big] + n(\mu - \bar{X})^2\Big)$

$\bar{X} = \frac{\sum\limits_{i=1}^nx_i}{n}$

$\mathbb{E}(S^2) = \frac{1}{n-1}\mathbb{E}\Big(\sum\limits_{i=1}^n\Big[(x_i -\mu)^2\Big] +2(\mu - \bar{X})(n\bar{X} - n\mu) + n(\mu - \bar{X})^2\Big)$

$\mathbb{E}(S^2) = \frac{1}{n-1}\mathbb{E}\Big(\sum\limits_{i=1}^n\Big[(x_i -\mu)^2\Big] -2n(\mu - \bar{X})^2 + n(\mu - \bar{X})^2\Big)$

$\mathbb{E}(S^2) = \frac{1}{n-1}\mathbb{E}\Big(\sum\limits_{i=1}^n\Big[(x_i -\mu)^2\Big] -n(\mu - \bar{X})^2\Big)$

$\mathbb{E}(S^2) = \frac{1}{n-1}\mathbb{E}\Big(\sum\limits_{i=1}^n\Big[(x_i -\mu)^2\Big] -n(\bar{X} - \mu)^2\Big)$

$\mathbb{E}(S^2) = \frac{1}{n-1}\Big\{\mathbb{E}\Big(\sum\limits_{i=1}^n\Big[(x_i -\mu)^2\Big]\Big) -n\mathbb{E}\Big((\bar{X} - \mu)^2\Big)\Big\}$

$\mathbb{E}\Big((\bar{X} - \mu)^2\Big)$ 은 표본평균의 분산이다. 표본평균의 분산은 $\frac{모분산}{n}$ 이다. 증명은 아래의 reference를 참고하자.

$\mathbb{E}(S^2) = \frac{1}{n-1}\Big\{\mathbb{E}\Big(\sum\limits_{i=1}^n\Big[(x_i -\mu)^2\Big]\Big) -\sigma^2\Big\}$

$\mathbb{E}(S^2) = \frac{1}{n-1}\Big\{\mathbb{E}\Big(\Big[(x_1 -\mu)^2 + \cdots + (x_n -\mu)^2\Big]\Big) -\sigma^2\Big\}$

$\mathbb{E}(S^2) = \frac{1}{n-1}\Big\{\mathbb{E}\Big[(x_1 -\mu)^2\Big] + \cdots + \mathbb{E}\Big[(x_n -\mu)^2\Big] -\sigma^2\Big\}$

$\mathbb{E}\Big[(x_i -\mu)^2\Big]$ 는 크기가 1인 표본평균의 분산으로 볼 수 있다. 따라서 $\frac{\sigma^2}{n}$ 에서 $n$ 이 1이므로, $\mathbb{E}\Big[(x_i -\mu)^2\Big] = \sigma^2$ 이다.

$\mathbb{E}(S^2) = \frac{1}{n-1}\Big\{n\sigma^2-\sigma^2\Big\}$

$\mathbb{E}(S^2) = \sigma^2$

2. 카테고리분포란?

카테고리 분포는 베르누이 분포를 d차원으로 확장시킨 개념이다.
카테로기 분포는 generalized Bernoulli distribution, multinoulli distribution라고도 불린다.
베르누이 분포에서는 확률변수 X는 2개의 값만 가진다면, 카테고리 분포에서는 d개의 값을 가진다.
카테고리는 원래 scala 값이지만, 확률변수는 다음과 같이 0과 1로만 이뤄진 다차원 벡터(one-hot vector)를 출력한다.

\boldsymbol{x} = (x_1, x_2, x_3, x_4, x_5, x_6)

\boldsymbol{x} = 1 \rightarrow \boldsymbol{x} = (1, 0, 0, 0, 0, 0)

\vdots

\boldsymbol{x} = 6 \rightarrow \boldsymbol{x} = (0, 0, 0, 0, 0, 1)

원소값 $x_k$ 는 베르누이 확률변수로 볼 수 있기 때문에 각각 1이 나올 확률을 나타내는 모수 $\mu_k$ 를 가진다.

벡터를 나타내는 원소와 모수의 제약 조건은 다음과 같다.

$\sum\limits_{i=1}^K x_i = 1 \ , \ \ \ x_i = \begin{cases}1\\0\end{cases}$

$\sum\limits_{i=1}^K \mu_i = 1 \ , \ \ \ 0 \le \mu_i \le 1$

확률 분포는 $X \sim Cat(\boldsymbol{x}|\boldsymbol{\mu})$ 로 표기한다.
$\boldsymbol{x} = (x_1, \cdots, x_K), \boldsymbol{\mu} = (\mu_1, \cdots, \mu_K)$
$C = \begin{cases}\mu_1 \ \ \ \text{if} \ \ \ x = (1, 0, \cdots , 0)\\\vdots\\\mu_K \ \ \ \text{if} \ \ \ x = (0, \cdots , 0, 1)\end{cases}$
PMF = $P(\boldsymbol{X} = \boldsymbol{x}) = f(\boldsymbol{x}|\boldsymbol{\mu}) = \mu_1^{\boldsymbol{x}_1}\cdots\mu_K^{\boldsymbol{x}_K} = \prod\limits_{i=1}^K\mu_i^{\boldsymbol{x}_i}$

베르누이 확률변수의 데이터가 복수이면 이 데이터의 합이 이항 분포를 이룬다.

카테고리 확률변수의 데이터가 여럿 있으면 이 데이터의 합은 다항분포(Multinomial distribution)가 된다.

3. 라그랑주 승수법(Lagrange Multiplier Method)

너무 잘 소개 되어있는 블로그 포스트의 저작권 표시가 저작자 표시, 비영리, 변경 금지 조건이어서, 내용을 그대로 복붙하였다.
라그랑주 승수법은 프랑스의 수학자 조세프루이 라그랑주 (Joseph-Louis Lagrange)가 제약 조건이 있는 최적화 문제를 풀기 위해 고안한 방법이다.
라그랑주 승수법은 어떠한 문제의 최적점을 찾는 것이 아니라, 최적점이 되기 위한 조건을 찾는 방법이다. 즉, 최적해의 필요조건을 찾는 방법이다.

3.1. 기하학적 해석

라그랑주 승수법의 기본 가정은 "제약 조건 $\boldsymbol{g}$ 를 만족하는 $\boldsymbol{f}$ 의 최솟값 또는 최댓값은 $\boldsymbol{f}$ 와 $\boldsymbol{g}$ 가 접하는 지점에 존재할 수도 있다."는 것이다.

라그랑주 승수법에서는 두 함수 $\boldsymbol{f}$ 와 $\boldsymbol{g}$ 가 접하는 지점을 찾기 위해 gradient vector를 이용한다.
아래 식은 $f(x,y)$ 에 대한 gradient vector를 나타낸다.

\triangledown f = \Big(\frac{\partial f}{\partial x}, \frac{\partial f}{\partial y}\Big)

어떠한 지점에서의 접선 벡터와 gradient vector의 내적은 0이므로, gradient vector는 접선 벡터와 수직을 이룬다.
따라서, 두 함수 $\boldsymbol{f}$ 와 $\boldsymbol{g}$ 가 접한다는 것은 두 함수의 gradient vector가 서로 상수배인 관계에 있다는 것이다.
이러한 관계를 $\triangledown f = \lambda\triangledown g$ 로 날타낼 수 있다. $\lambda$ 는 임의의 상수이다.
라그랑주 승수법에서는 아래와 같은 보조 함수를 정의한다.

\mathcal{L}(x, y, \lambda) = f(x,y) - \lambda(g(x,y) - c)

위의 함수 $\mathcal{L}$ 의 gradient vector가 영벡터가 되는 점을 찾는 것은 $\triangledown f = \lambda\triangledown g$ 를 푸는 것과 같다.
따라서 함수 $\mathcal{L}$ 의 gradient vector가 영벡터가 되는 점을 찾으면 두 함수 $\boldsymbol{f}$ 와 $\boldsymbol{g}$ 가 접하는 점을 찾을 수 있다.
함수 $\mathcal{L}$ 을 $x$ 와 $y$ 에 대해 편미분하면 총 2개의 식을 얻을 수 있으며, 여기에 제약 조건인 $g(x,y)=c$ 를 이용하면 미지수가 3개인 문제의 해(solution)를 구할 수 있다.
여기에서 구한 $x$ 와 $y$ 는 제약 조건 $\boldsymbol{g}$ 를 만족하는 함수 $\boldsymbol{f}$ 의 최적점이 될 가능성이 있는 점이다.
만약, 제약 조건 $\boldsymbol{g}$ 가 n개인 경우에는 아래와 같이 일반화할 수 있다.

\mathcal{L}(x, y, \lambda_1, \cdots, \lambda_n) = f(x,y) - \sum\limits_{i=1}^n\lambda_i(g(x,y) - c_i)

3.1. 전미분(total differential)을 이용한 해석

기하학적 해석은 직관적으로 이해하기에는 용이할 수 있지만, 라그랑주 승수법이 어떻게 계산되는지를 명확하게 나타내지는 못 한다.
따라서, 전미분을 이용하여 라그랑주 승수법의 정의를 더욱 수치적으로 해석한다.
어떠한 함수 $f(x,y,z)$ 의 최솟값 또는 최댓값은 극점에 존재할 수도 있으며, 다변수 함수의 극점은 전미분 $df=0$ 인 지점 중에 존재한다. 함수 $f(x,y,z)$ 의 전미분은 아래와 같이 정의된다.

df = \frac{\partial f}{\partial x}dx + \frac{\partial f}{\partial y}dy + \frac{\partial f}{\partial z}dz

변수 $dx,dy,dz$ 가 각각 독립적이라면, 함수 $df=0$ 이 되는 조건은 아래와 같다.

\frac{\partial f}{\partial x} = \frac{\partial f}{\partial y} = \frac{\partial f}{\partial z} = 0

제약 조건 $g(x,y,z)=0$ 에 대해서 전미분을 하면, 아래의 식을 얻을 수 있다.

dg = \frac{\partial g}{\partial x}dx + \frac{\partial g}{\partial y}dy + \frac{\partial g}{\partial z}dz = 0

위의 식을 $dz$ 에 대해 정리하면 아래와 같다.

dz = -\frac{\frac{\partial g}{\partial x}dx + \frac{\partial g}{\partial y}dy}{\frac{\partial g}{\partial z}}

위의 식에서 계산한 $dz$ 를 함수 $f(x,y,z)$ 의 전미분 식 $df = \frac{\partial f}{\partial x}dx + \frac{\partial f}{\partial y}dy + \frac{\partial f}{\partial z}dz$ 에 대입하면 아래의 식을 얻을 수 있다.

df = \frac{\partial f}{\partial x}dx + \frac{\partial f}{\partial y}dy-\frac{\frac{\partial g}{\partial x}dx + \frac{\partial g}{\partial y}dy}{\frac{\partial g}{\partial z}}

함수 f의 전미분이 0이 되는 지점을 찾는 것이 목적이므로, 위의 식이 0인 값을 구해야 한다.

\frac{\partial f}{\partial x}dx + \frac{\partial f}{\partial y}dy-\frac{\frac{\partial g}{\partial x}dx + \frac{\partial g}{\partial y}dy}{\frac{\partial g}{\partial z}} = 0

위의 식을 정리하면 아래와 같다.

\Bigg(\frac{\partial f}{\partial x} - \frac{\partial f / \partial z}{\partial g / \partial z} \frac{\partial g}{\partial x}\Bigg)dx + \Bigg(\frac{\partial f}{\partial y} - \frac{\partial f / \partial z}{\partial g / \partial z} \frac{\partial g}{\partial y}\Bigg)dy = 0

또한, $\lambda$ 를 아래와 같이 정의한다.

\lambda = \frac{\partial f / \partial z}{\partial g / \partial z}

그러면 함수 $f$ 의 전미분이 0이 되는 지점을 찾는 식을 아래와 같이 정리할 수 있다.

\Bigg(\frac{\partial f}{\partial x} - \lambda \frac{\partial g}{\partial x}\Bigg)dx + \Bigg(\frac{\partial f}{\partial y} - \lambda \frac{\partial g}{\partial y}\Bigg)dy = 0

\Bigg(\frac{\partial f}{\partial x}dx + \frac{\partial f}{\partial y}dy\Bigg) - \lambda\Bigg(\frac{\partial g}{\partial x}dx + \frac{\partial g}{\partial y}dy\Bigg) = 0

서로 독립적인 $dx$ 와 $dy$ 를 포함하는 위의 식을 만족하기 위해서는 아래의 식이 성립해야 한다.

\frac{\partial f}{\partial x} = \lambda \frac{\partial g}{\partial x} \ , \ \frac{\partial f}{\partial y} = \lambda \frac{\partial g}{\partial y}

위의 식을 정리하면 아래의 식과 같다. 이는 기하학적 해석에서 함수 $f$ 의 gradient vector와 제약 조건 $g$ 의 gradient vector의 상수배의 관계에 있어야 한다는 식과 같다.

\Bigg(\frac{\partial f}{\partial x}, \frac{\partial f}{\partial y}\Bigg) = \Bigg(\lambda \frac{\partial g}{\partial x},\lambda \frac{\partial g}{\partial y}\Bigg)

4. Information theory: information and entropy

4.1. Information

정보 이론에서, information은 bit로 측정되며, 주어진 이벤트에서 발생하는 놀라움의 양 으로 이해할 수 있다.
이는 어떤 사건이 정보적 측면에서 얼마나 중요한가를 반영한 지표로 볼 수 있다.
Information의 수학적 정의는 아래와 같다.

I(x) = log_2 \ \frac{1}{P_X(X=x)} = - log_2 \ P_X(X=x)

동전 앞면이 나올 확률이 0.99이고 뒷면이 나올 확률이 0.01이라면, 뒷면이 나온 경우 훨씬 더 놀라운 상황이다.

이를 수학적으로 나타내면, 앞면에 대한 information은 $-log(0.99) = 0.0144\ bits$ 로 매우 낮고, 뒷면에 대한 information은 $-log(0.01) = 6.64 \ bits$ 로 높은 값을 가진다.

4.2. Entropy

정보 이론에서, entropy는 확률 분포의 불확실함의 정도를 나타내는 양이다.
이는 특정한 특정한 stochastic process에서 생성된 information의 평균(기대값)이다.
Entropy의 수학적 정의는 아래와 같다.

H(X) = \mathbb{E}[I(X)] = \mathbb{E}[log_2\frac{1}{P_X(x)}] = \sum\limits_{x \in X}P_X(x)log_2\frac{1}{P_X(x)} = -\sum\limits_{x \in X}P_X(x)\ log_2\ P_X(x)

위의 동전의 예시를 통해 entropy $H(X)$ 를 구하면 아래와 같다.

$H(X) = -\{0.99log(0.99)+0.01log(0.01)\} = 0.08\ bits$

즉, 불공평한 동전은 $0.08 \ bits$ 의 평균 정보 전달률을 갖는 stochastic information generator이다.

만약, 동전 앞/뒤 확률이 0.5로 같았다면, entropy의 값은 $1bit$ 가 나온다.

확률이 0.99, 0.01인 경우 앞면이 나온다는 것을 확신할 수 있지만, 확률이 0.5, 0.5인 경우 앞면과 뒷면 중 어느 것이 나오는지를 예측할 수 없다.

결과값을 예측하기 굉장히 쉬우면 entropy 값이 낮게 나오고, 결과값을 예측하기 굉장히 어려우면 entropy 값이 높게 나온다.

entropy는 홀로 머신러닝에서 자주 사용된다. ex) reinforcement learning에서 손실 함수 정규화, bayesian methods 등

References

c0natus

Done is Better Than Perfect

이전 포스트