[Machine Learning] Probability Theory(2)

jddjk·2024년 12월 27일

Bayes Theorem Probability Univariate gaussian distribution machine learning univariate distribution 기계학습 단변량 분포 확률 이론

[Machine Learning]

목록 보기

2/7

이 시리즈는 포항공과대학교 옥정슬 교수님의 기계학습(CSED515) 수업과, [Probabilistic Machine Learning: An Introduction], [Probabilistic Machine Learning: Advanced Topics], [Pattern Recognition and Machine Learning] 등을 참고로 하여 작성된 글입니다.

지난 포스트에서는 아주 기초적인 확률을 다뤄봤습니다. 이번에는 확률을 조금 더 엄밀하게 정의해보고, Bayes' Theorem, Univariate distribution(단변량 분포) 등을 다뤄보겠습니다.

Probability space

확률 공간(Probability Space)은 세 요소 $(Ω, F, P)$ 로 정의됩니다. 여기서 $Ω$ 은 실험의 가능한 모든 결과의 집합인 샘플 공간(Sample Space)이며, $F$ 는 $Ω$ 의 모든 부분 집합으로 구성된 사건 공간(Event Space)입니다. $P$ 는 사건 $E ⊆ Ω$ 를 $[0, 1]$ 범위의 숫자로 매핑하는 확률 측도(Probability Measure)입니다.

Discrete Random Variables

가장 단순한 설정은 실험의 결과가 가산 집합을 구성하는 경우입니다. 예를 들어, 3면체 주사위를 던지는 실험을 생각해 봅시다. 주사위의 면은 "A", "B", "C"로 표시됩니다. 샘플 공간은 $Ω = {A, B, C}$ 이며, 이는 실험의 가능한 모든 결과를 나타냅니다. 사건 공간은 샘플 공간의 모든 부분 집합으로 이루어져 있으므로 F = {∅, {A}, {B}, {C}, {A, B}, {A, C}, {B, C}, {A, B, C}}입니다. 사건은 사건 공간의 요소입니다. 예를 들어, 사건 $E = {A, B}$ 는 주사위가 A 또는 B를 나타내는 결과를 의미하고, 사건 $E = {C}$ 는 주사위가 C를 나타내는 결과를 의미합니다.

예시: 3면체 주사위를 던질 때, 사건 $E = {A, B}$ 는 주사위가 A 또는 B를 나타낼 확률을 의미합니다.

확률 측도를 정의하여 사건 공간의 각 집합의 "크기" 또는 "무게"를 계산할 수 있습니다. 3면체 주사위의 예에서 각 기본 사건의 확률을 $P[\{A\}] = P[\{B\}] = P[\{C\}] = \frac{1}{3}$ 으로 정의할 수 있습니다. 다른 사건의 확률은 각 집합의 측정을 합산하여 도출할 수 있습니다. 예를 들어, $P[\{A, B\}] = \frac{2}{3}$ 입니다.

Random Variables(랜덤 변수)

확률 공간의 각 가능한 결과에 번호를 할당하여 표기법을 단순화할 수 있습니다. 이는 랜덤 변수(Random Variable, rv or r.v.)를 정의함으로써 가능합니다. 랜덤 변수 $X : Ω → ℝ$ 는 결과 $ω ∈ Ω$ 를 실수 $X(ω)$ 로 매핑하는 함수입니다. 예를 들어, 3면체 주사위에 대해 랜덤 변수 $X$ 를 $X(A) = 1, X(B) = 2, X(C) = 3$ 으로 정의할 수 있습니다.

예시: 동전을 두 번 던지는 실험에서, 랜덤 변수 $X$ 는 앞면의 수를 나타냅니다. 결과 $ω = (H, H)$ 에 대해 $X(ω) = 2$ , $ω = (H, T)$ 와 $ω = (T, H)$ 에 대해 $X(ω) = 1$ , $ω = (T, T)$ 에 대해 $X(ω) = 0$ 입니다.

랜덤 변수의 가능한 값들의 집합을 상태 공간(State Space)이라 하며, $X(\Omega) = X$ 로 표시됩니다. 임의의 상태 $a$ 의 확률은 $p_X(a) = P[X = a] = P[X^{-1}(a)]$ 로 정의됩니다. 여기서 $X^{-1}(a) = \{\omega \in \Omega | X(\omega) = a\}$ 는 $a$ 의 사전 이미지입니다. $p_X$ 는 확률 질량 함수(Probability Mass Function, pmf)라고 하며, 랜덤 변수 $X$ 의 확률 분포(Probability Distribution)로도 불립니다.

Continuous Random Variables

연속적인 결과를 가지는 케이스도 고려할 수 있습니다. 이 경우 샘플 공간은 실수의 부분 집합 $Ω ⊆ ℝ$ 이라고 가정하며, 각 연속 랜덤 변수는 항등 함수 $X(ω) = ω$ 로 정의됩니다. 예를 들어, 어떤 사건의 지속 시간을 측정한다고 가정합시다. 샘플 공간은 $\Omega = \{ t : 0 \leq t \leq T_{\text{max}} \}$ 로 정의됩니다. 이는 비가산 집합이므로, 이산 경우처럼 모든 부분 집합을 열거하여 정의할 수 없습니다. 대신, 보렐 시그마 필드(Borel Sigma-Field) 또는 보렐 시그마 대수(Borel Sigma-Algebra)를 사용하여 사건 공간을 정의해야 합니다.

보렐 시그마 필드는 다음과 같은 집합을 포함합니다:

$(-\infty, b]$ 형태의 반열린 구간
$\forall a, b, (a, b), [a, b], (a, b], [a, b)$ 등의 구간
$\{b\}$ 과 같은 단일점 집합

확률 측도를 정의하기 위해 각 $x \in \Omega$ 에 대해 확률 밀도 함수(Probability Density Function, pdf) $p_X(x) \geq 0$ 를 할당합니다. 사건 $E = [a, b]$ 의 확률은 다음과 같이 계산됩니다:

P([a, b]) = \int_a^b p(x) \, dx

또한, 랜덤 변수 $X$ 의 누적 분포 함수(Cumulative Distribution Function, cdf)는 다음과 같이 정의됩니다:

P_X(x) = P[X \leq x] = \int_{-\infty}^x p_X(t) \, dt

이를 통해 구간의 확률을 다음과 같이 계산할 수 있습니다:

P([a, b]) = P(a \leq X \leq b) = P_X(b) - P_X(a)

Probability Axioms

사건 공간과 관련된 확률 법칙은 콜모고로프 공리(Kolmogorov Axioms)를 따라야 합니다. 이 공리는 다음과 같습니다:

비음수성: 모든 사건 $E ⊆ Ω$ 에 대해 $P[E] \geq 0$ 입니다.
정규화: $P[\Omega] = 1$ 입니다.
가법성: 서로소인 집합들의 가산 열 $\{E_1, E_2, \dots\}$ 에 대해 $P\left[\bigcup_{i=1}^\infty E_i\right] = \sum_{i=1}^\infty P[E_i]$ 입니다.

유한한 경우, 두 개의 서로소인 사건 $E_1$ 과 $E_2$ 에 대해 $P[E_1 \cup E_2] = P[E_1] + P[E_2]$ 가 성립합니다. 이는 사건 $E_1$ 또는 $E_2$ 가 발생할 확률을 의미합니다.

이 공리들로부터 Complement Rule을 도출할 수 있습니다:

P[E] = 1 - P[\overline{E}]

여기서 $\overline{E}$ 는 사건 $E$ 의 여집합입니다. 또한, $P[E] \leq 1$ 과 $P[\emptyset] = 0$ 도 증명할 수 있습니다.

추가적으로, 두 사건 $E_1$ 과 $E_2$ 에 대해 다음과 같은 Addition Rule을 도출할 수 있습니다:

P[E_1 \cup E_2] = P[E_1] + P[E_2] - P[E_1 \cap E_2]

이는 두 사건이 반드시 서로소일 필요 없이 성립합니다.

Conditional Probability

두 사건 $E_1$ 과 $E_2$ 에 대해 $P[E_2] \neq 0$ 일 때, 사건 $E_1$ 이 사건 $E_2$ 가 발생했을 때 발생할 조건부 확률(Conditional Probability)은 다음과 같이 정의됩니다:

P[E_1 | E_2] = \frac{P[E_1 \cap E_2]}{P[E_2]}

이를 통해 곱셈 규칙(Multiplication Rule)을 얻을 수 있습니다:

P[E_1 \cap E_2] = P[E_1 | E_2] P[E_2]

조건부 확률은 사건 $E_2$ 가 발생한 경우에 사건 $E_1$ 이 발생할 가능성을 측정합니다. 만약 두 사건이 독립적이라면, $P[E_1 | E_2] = P[E_1]$ 가 성립합니다. 이는 두 사건이 서로 독립적(Independent Events)임을 의미합니다:

P[E_1 \cap E_2] = P[E_1] P[E_2]

또한, 조건부 독립성(Conditional Independence) 개념도 도입할 수 있습니다. 세 번째 사건 $E_3$ 가 주어졌을 때, $E_1$ 과 $E_2$ 가 조건부로 독립적이라면 다음과 같이 표현됩니다:

P[E_1 \cap E_2 | E_3] = P[E_1 | E_3] P[E_2 | E_3]

조건부 확률의 정의로부터 Law of Total Probability을 도출할 수 있습니다. 이는 샘플 공간 $Ω$ 의 분할 $\{A_1, \dots, A_n\}$ 에 대해, 임의의 사건 $B ⊆ Ω$ 에 대해 다음이 성립함을 말합니다:

P[B] = \sum_{i=1}^n P[B | A_i] P[A_i]

Bayes’ Rule(Bayes' Theorem)

조건부 확률의 정의로부터 베이즈 정리(Bayes’ Rule), 또는 베이즈 정리(Bayes’ Theorem)를 도출할 수 있습니다. 이는 두 사건 $E_1$ 과 $E_2$ 에 대해 $P[E_1] > 0$ 이고 $P[E_2] > 0$ 일 때 다음과 같이 표현됩니다:

P[E_1 | E_2] = \frac{P[E_2 | E_1] P[E_1]}{P[E_2]}

discrete random variable(이산 랜덤 변수) $X$ 가 $K$ 개의 가능한 상태를 가질 때, 베이즈 정리는 다음과 같이 쓸 수 있습니다:

p(X = k | E) = \frac{p(E | X = k) p(X = k)}{\sum_{k'=1}^K p(E | X = k') p(X = k')}

여기서 $p(X = k)$ 는 사전 확률(Prior Probability), $p(E | X = k)$ 는 우도(Likelihood), $p(X = k | E)$ 는 사후 확률(Posterior Probability), 그리고 $p(E)$ 는 주변 확률(Marginal Likelihood)입니다.

continuous random variable(연속 랜덤 변수) $X$ 에 대해서는 다음과 같이 베이즈 정리를 쓸 수 있습니다:

p(X = x | E) = \frac{p(E | X = x) p(X = x)}{\int_{-\infty}^{\infty} p(E | X = x') p(X = x') \, dx'}

Some Univariate Distributions

Bernoulli and Binomial Distributions

아마도 가장 단순한 확률 분포는 베르누이 분포(Bernoulli Distribution)로, 아래에서 논의할 이진 사건을 모델링하는 데 사용할 수 있습니다. 베르누이 분포는 성공과 실패와 같이 두 가지 가능한 결과를 가지는 실험을 모델링하는 데 적합합니다. 이와 관련된 확률 분포로는 이항 분포(Binomial Distribution)가 있으며, 이는 여러 번의 베르누이 실험의 결과(repeated bernoulli trials)를 모델링하는 데 사용됩니다.

Definition of Bernoulli distribution

동전을 던지는 실험을 고려해 봅시다. 동전이 앞면(heads)이 나올 확률은 $0 \leq \theta \leq 1$ 로 주어집니다. 이 사건을 $Y = 1$ 로 표시하고, 동전이 뒷면(tails)이 나오는 사건을 $Y = 0$ 으로 표시합니다. 따라서 우리는

p(Y = 1) = \theta \quad \text{이고} \quad p(Y = 0) = 1 - \theta

라고 가정합니다. 이는 베르누이 분포(Bernoulli Distribution)라고 하며, 다음과 같이 쓸 수 있습니다:

Y \sim \text{Ber}(\theta)

베르누이 분포의 확률 질량 함수(Probability Mass Function, pmf)는 다음과 같습니다:

p(Y = y) = \theta^y (1 - \theta)^{1 - y} \quad \text{for} \quad y \in \{0, 1\}

제품이 결함이 있을 확률이 $\theta = 0.2$ 인 경우, 제품이 결함이 없을 확률은 $1 - \theta = 0.8$ 입니다. 이 경우, 제품의 결함 여부를 나타내는 랜덤 변수 $Y$ 는 다음과 같이 표현할 수 있습니다.: $p(Y = 1) = 0.2 \quad \text{이고} \quad p(Y = 0) = 0.8$

Binomial Distribution

이항 분포(Binomial Distribution)는 독립적인 베르누이 실험을 여러 번 수행한 결과를 모델링합니다. 예를 들어, 동전을 $n$ 번 던졌을 때 앞면이 나오는 횟수를 모델링할 수 있습니다.

Definition of Binomial distribution

$n$ 번의 독립적인 베르누이 실험에서 성공(success)의 횟수를 나타내는 랜덤 변수 $X$ 는 이항 분포를 따릅니다. 이항 분포의 확률 질량 함수는 다음과 같습니다:

X \sim \text{Bin}(n, \theta)

p(X = k) = \binom{n}{k} \theta^k (1 - \theta)^{n - k} \quad \text{for} \quad k = 0, 1, 2, \dots, n

여기서 $\binom{n}{k}$ 는 이항 계수(binomial coefficient)로, $n$ 번 중 $k$ 번 성공할 확률을 나타냅니다.

동전을 10번 던졌을 때 앞면이 나오는 횟수를 모델링한다고 가정해볼 수 있습니다. 앞면이 나올 확률 $\theta = 0.5$ 일 때, 10번 던져서 정확히 6번 앞면이 나올 확률은 다음과 같습니다:

p(X = 6) = \binom{10}{6} (0.5)^6 (1 - 0.5)^{10 - 6} = 210 \times \frac{1}{64} \times \frac{1}{16} = \frac{210}{1024} \approx 0.205

또한, 이항 분포는 베르누이 분포의 일반화로 볼 수 있으며, 단일 시도의 성공 여부를 나타내는 베르누이 분포가 여러 시도의 성공 횟수를 나타내는 이항 분포로 확장됩니다.

Univariate Gaussian (Normal) Distribution

가장 널리 사용되는 실수값 랜덤 변수 $y \in \mathbb{R}$ 의 분포는 가우시안 분포(Gaussian Distribution), 또는 정규 분포(Normal Distribution)입니다.

Cumulative Distribution Function

연속 랜덤 변수 $Y$ 의 누적 분포 함수(Cumulative Distribution Function, cdf)는 다음과 같이 정의됩니다:

P(y) = P(Y \leq y)

이를 사용하여 어떤 구간에 속할 확률을 다음과 같이 계산할 수 있습니다:

P(a < Y \leq b) = P(b) - P(a)

가우시안의 cdf는 다음과 같이 정의됩니다:

\Phi(y; \mu, \sigma) = \int_{-\infty}^{y} \mathcal{N}(z|\mu, \sigma) \, dz

여기서 $\Phi(y; \mu, \sigma) = \frac{1}{2} \left[1 + \text{erf}\left(\frac{z}{\sqrt{2}}\right)\right]$ , $z = \frac{y - \mu}{\sigma}$ 이고, $\text{erf}(u)$ 는 오류 함수(error function)입니다:

\text{erf}(u) = \frac{2}{\sqrt{\pi}} \int_{0}^{u} e^{-t^2} \, dt

파라미터 $\mu$ 는 분포의 평균(mean)을, $\sigma^2$ 는 분산(variance)을 나타냅니다. $\mu = 0$ 이고 $\sigma = 1$ 일 때, 가우시안은 표준 정규 분포(Standard Normal Distribution)라고 불립니다.

Probability Density Function

누적 분포 함수의 도함수로 확률 밀도 함수(Probability Density Function, pdf)를 정의합니다:

p(y) = \frac{d}{dy} P(y)

가우시안의 pdf는 다음과 같습니다:

\mathcal{N}(y|\mu, \sigma) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(y - \mu)^2}{2\sigma^2}\right)

여기서 $\sqrt{2\pi\sigma^2}$ 는 밀도가 1이 되도록 정규화하는 상수입니다. 이를 통해 연속 변수 $Y$ 가 유한 구간에 속할 확률을 다음과 같이 계산할 수 있습니다:

P(a < Y \leq b) = \int_{a}^{b} p(y) \, dy = P(b) - P(a)

구간의 크기가 작아질수록, 우리는 다음과 같이 쓸 수 있습니다:

P(y \leq Y \leq y + dy) \approx p(y) \, dy

이는 $Y$ 가 $y$ 주변의 작은 구간에 있을 확률이 $y$ 에서의 밀도에 구간의 너비를 곱한 것과 같다는 것을 의미합니다. 중요한 결과로, 점에서의 pdf 값은 1보다 클 수 있습니다. 예를 들어, $\mathcal{N}(0|0, 0.1) = 3.99$ 입니다.

Dirac Delta Function as a Limiting Case

가우시안의 분산이 0으로 갈 때, 분포는 평균에서 무한히 좁고 높게 "스파이크"하는 형태로 접근합니다. 이를 다음과 같이 쓸 수 있습니다:

\lim_{\sigma \to 0} \mathcal{N}(y|\mu, \sigma) = \delta(y - \mu)

여기서 $\delta$ 는 디락 델타 함수(Dirac Delta Function)로, 다음과 같이 정의할 수 있다:

\delta(x) = \begin{cases} +\infty & \text{if } x = 0 \\ 0 & \text{if } x \neq 0 \end{cases}

그리고

\int_{-\infty}^{\infty} \delta(x) \, dx = 1

또한, 약간 변형하여

\delta_y(x) = \begin{cases} +\infty & \text{if } x = y \\ 0 & \text{if } x \neq y \end{cases}

으로 정의할 수 있으며, 이는 다음과 같이 쓸 수 있습니다:

\delta_y(x) = \delta(x - y)

Laplace Distribution

라플라스 분포(Laplace Distribution), 또는 양면 지수 분포(Double Sided Exponential Distribution)는 무거운 꼬리를 가진 분포입니다. 이 분포의 pdf는 다음과 같습니다:

\text{Laplace}(y|\mu, b) = \frac{1}{2b} \exp\left(-\frac{|y - \mu|}{b}\right)

여기서 $\mu$ 는 위치 파라미터(Location Parameter), $b > 0$ 는 스케일 파라미터(Scale Parameter)입니다. 이 분포는 다음과 같은 특성을 가집니다:

평균 = $\mu$
최빈값 = $\mu$
분산 = $2b^2$

Beta Distribution

베타 분포(Beta Distribution)는 구간 $[0, 1]$ 에 대한 분포로, 다음과 같이 정의됩니다:

\text{Beta}(x|a, b) = \frac{B(a, b)}{x^{1 - a} (1 - x)^{1 - b}}

여기서 $B(a, b)$ 는 베타 함수(Beta Function)로, 다음과 같이 정의됩니다:

B(a, b) = \frac{\Gamma(a) \Gamma(b)}{\Gamma(a + b)}

$\Gamma(a)$ 는 감마 함수(Gamma Function)로, 다음과 같이 정의됩니다:

\Gamma(a) = \int_{0}^{\infty} x^{a-1} e^{-x} \, dx

베타 분포는 $a, b > 0$ 일 때 정의되며, $a = b = 1$ 일 경우 균등 분포(Uniform Distribution)가 됩니다. $a, b < 1$ 일 경우 0과 1에 봉우리가 두 개인 분포가 되고, $a, b > 1$ 일 경우 봉우리가 한인 분포가 됩니다.

Exponential Distribution

지수 분포(Exponential Distribution)는 다음과 같이 정의됩니다:

\text{Expon}(x|\lambda) = \text{Ga}(x|\text{shape} = 1, \text{rate} = \lambda)

Chi-squared Distribution

카이제곱 분포(Chi-squared Distribution)는 다음과 같이 정의됩니다:

\chi^2_{\nu}(x) = \text{Ga}\left(x|\text{shape} = \frac{\nu}{2}, \text{rate} = 2\right)

여기서 $\nu$ 는 자유도(Degrees of Freedom)입니다. 이는 독립적인 가우시안 랜덤 변수의 제곱합의 분포입니다.

Inverse Gamma Distribution

역감마 분포(Inverse Gamma Distribution)는 다음과 같이 정의됩니다:

\text{IG}(x|a, b) = \frac{b^a}{\Gamma(a)} x^{-(a+1)} \exp\left(-\frac{b}{x}\right)

이 분포는 다음과 같은 특성을 가집니다:

평균 = $\frac{b}{a - 1}$ (단, $a > 1$ 일 때)
최빈값 = $\frac{b}{a + 1}$
분산 = $\frac{b^2}{(a - 1)^2 (a - 2)}$ (단, $a > 2$ 일 때)

$\Gamma(a)$ 는 감마 함수입니다. 만약 $X \sim \text{Ga}(\text{shape} = a, \text{rate} = b)$ 이면, $1/X \sim \text{IG}(\text{shape} = a, \text{scale} = b)$ 입니다.

Empirical Distribution

우리가 $N$ 개의 샘플 $D = \{x^{(1)}, \dots, x^{(N)}\}$ 을 가지고 있다고 가정합시다. 이는 분포 $p(X)$ 에서 유래된 것입니다, 여기서 $X \in \mathbb{R}$ 입니다. 우리는 델타 함수(Delta Function)를 사용하여 pdf를 다음과 같이 근사할 수 있습니다:

\hat{p}_N(x) = \frac{1}{N} \sum_{n=1}^{N} \delta_{x^{(n)}}(x)

이는 데이터셋 $D$ 의 경험적 분포(Empirical Distribution)라고 불립니다.

누적 분포 함수는 다음과 같이 주어집니다:

P_N(x) = \frac{1}{N} \sum_{n=1}^{N} \mathbb{I}(x \leq x^{(n)})

여기서 $\mathbb{I}(x)$ 는 $y$ 에서 스텝 함수로 정의됩니다:

\mathbb{I}_y(x) = \begin{cases} 1 & \text{if } x \geq y \\ 0 & \text{if } x < y \end{cases}

이는 "계단식"으로 시각화할할 수 있으며, 각 샘플에서 높이 $1/N$ 의 점프가 발생합니다.
즉, empirical distribution은 말 그대로 주어진 관측 데이터를 distribution으로 나타낸 것입니다.

이번 포스트는 상대적으로 분량이 방대할 수 있습니다. 주요하게 사용되는 분포만 외우고, 이를 상황에 적절히 적용하여 모델링할 수 있으면 충분하다고 생각합니다. 다음으로는 Multivariate distribution(다변량 분포), Gaussian joint distribution, Exponential Family 등을 다뤄보도록 하겠습니다.

jddjk

이전 포스트

[Machine Learning] Probability Theory(1)

다음 포스트

[Machine Learning] Probability Theory(2)