이 시리즈는 포항공과대학교 옥정슬 교수님의 기계학습(CSED515) 수업과, [Probabilistic Machine Learning: An Introduction], [Probabilistic Machine Learning: Advanced Topics], [Pattern Recognition and Machine Learning] 등을 참고로 하여 작성된 글입니다.

지난 포스트에서는 아주 기초적인 확률을 다뤄봤습니다. 이번에는 확률을 조금 더 엄밀하게 정의해보고, Bayes' Theorem, Univariate distribution(단변량 분포) 등을 다뤄보겠습니다.

Probability space

확률 공간(Probability Space)은 세 요소 (,F,P)(Ω, F, P)로 정의됩니다. 여기서 은 실험의 가능한 모든 결과의 집합인 샘플 공간(Sample Space)이며, FF의 모든 부분 집합으로 구성된 사건 공간(Event Space)입니다. PP는 사건 EE ⊆ Ω[0,1][0, 1] 범위의 숫자로 매핑하는 확률 측도(Probability Measure)입니다.

Discrete Random Variables

가장 단순한 설정은 실험의 결과가 가산 집합을 구성하는 경우입니다. 예를 들어, 3면체 주사위를 던지는 실험을 생각해 봅시다. 주사위의 면은 "A", "B", "C"로 표시됩니다. 샘플 공간은 =A,B,CΩ = {A, B, C}이며, 이는 실험의 가능한 모든 결과를 나타냅니다. 사건 공간은 샘플 공간의 모든 부분 집합으로 이루어져 있으므로 F = {∅, {A}, {B}, {C}, {A, B}, {A, C}, {B, C}, {A, B, C}}입니다. 사건은 사건 공간의 요소입니다. 예를 들어, 사건 E=A,BE = {A, B}는 주사위가 A 또는 B를 나타내는 결과를 의미하고, 사건 E=CE = {C}는 주사위가 C를 나타내는 결과를 의미합니다.

예시: 3면체 주사위를 던질 때, 사건 E=A,BE = {A, B}는 주사위가 A 또는 B를 나타낼 확률을 의미합니다.

확률 측도를 정의하여 사건 공간의 각 집합의 "크기" 또는 "무게"를 계산할 수 있습니다. 3면체 주사위의 예에서 각 기본 사건의 확률을 P[{A}]=P[{B}]=P[{C}]=13P[\{A\}] = P[\{B\}] = P[\{C\}] = \frac{1}{3}으로 정의할 수 있습니다. 다른 사건의 확률은 각 집합의 측정을 합산하여 도출할 수 있습니다. 예를 들어, P[{A,B}]=23P[\{A, B\}] = \frac{2}{3}입니다.

Random Variables(랜덤 변수)

확률 공간의 각 가능한 결과에 번호를 할당하여 표기법을 단순화할 수 있습니다. 이는 랜덤 변수(Random Variable, rv or r.v.)를 정의함으로써 가능합니다. 랜덤 변수 X:RX : Ω → ℝ는 결과 ωω ∈ Ω를 실수 X(ω)X(ω)로 매핑하는 함수입니다. 예를 들어, 3면체 주사위에 대해 랜덤 변수 XXX(A)=1,X(B)=2,X(C)=3X(A) = 1, X(B) = 2, X(C) = 3으로 정의할 수 있습니다.

예시: 동전을 두 번 던지는 실험에서, 랜덤 변수 XX는 앞면의 수를 나타냅니다. 결과 ω=(H,H)ω = (H, H)에 대해 X(ω)=2X(ω) = 2, ω=(H,T)ω = (H, T)ω=(T,H)ω = (T, H)에 대해 X(ω)=1X(ω) = 1, ω=(T,T)ω = (T, T)에 대해 X(ω)=0X(ω) = 0입니다.

랜덤 변수의 가능한 값들의 집합을 상태 공간(State Space)이라 하며, X(Ω)=XX(\Omega) = X로 표시됩니다. 임의의 상태 aa의 확률은 pX(a)=P[X=a]=P[X1(a)]p_X(a) = P[X = a] = P[X^{-1}(a)]로 정의됩니다. 여기서 X1(a)={ωΩX(ω)=a}X^{-1}(a) = \{\omega \in \Omega | X(\omega) = a\}aa의 사전 이미지입니다. pXp_X는 확률 질량 함수(Probability Mass Function, pmf)라고 하며, 랜덤 변수 XX의 확률 분포(Probability Distribution)로도 불립니다.

Continuous Random Variables

연속적인 결과를 가지는 케이스도 고려할 수 있습니다. 이 경우 샘플 공간은 실수의 부분 집합 RΩ ⊆ ℝ이라고 가정하며, 각 연속 랜덤 변수는 항등 함수 X(ω)=ωX(ω) = ω로 정의됩니다. 예를 들어, 어떤 사건의 지속 시간을 측정한다고 가정합시다. 샘플 공간은 Ω={t:0tTmax}\Omega = \{ t : 0 \leq t \leq T_{\text{max}} \}로 정의됩니다. 이는 비가산 집합이므로, 이산 경우처럼 모든 부분 집합을 열거하여 정의할 수 없습니다. 대신, 보렐 시그마 필드(Borel Sigma-Field) 또는 보렐 시그마 대수(Borel Sigma-Algebra)를 사용하여 사건 공간을 정의해야 합니다.

보렐 시그마 필드는 다음과 같은 집합을 포함합니다:

  • (,b](-\infty, b] 형태의 반열린 구간
  • a,b,(a,b),[a,b],(a,b],[a,b)\forall a, b, (a, b), [a, b], (a, b], [a, b) 등의 구간
  • {b}\{b\}과 같은 단일점 집합

확률 측도를 정의하기 위해 각 xΩx \in \Omega에 대해 확률 밀도 함수(Probability Density Function, pdf) pX(x)0p_X(x) \geq 0를 할당합니다. 사건 E=[a,b]E = [a, b]의 확률은 다음과 같이 계산됩니다:

P([a,b])=abp(x)dxP([a, b]) = \int_a^b p(x) \, dx

또한, 랜덤 변수 XX의 누적 분포 함수(Cumulative Distribution Function, cdf)는 다음과 같이 정의됩니다:

PX(x)=P[Xx]=xpX(t)dtP_X(x) = P[X \leq x] = \int_{-\infty}^x p_X(t) \, dt

이를 통해 구간의 확률을 다음과 같이 계산할 수 있습니다:

P([a,b])=P(aXb)=PX(b)PX(a)P([a, b]) = P(a \leq X \leq b) = P_X(b) - P_X(a)

Probability Axioms

사건 공간과 관련된 확률 법칙은 콜모고로프 공리(Kolmogorov Axioms)를 따라야 합니다. 이 공리는 다음과 같습니다:

  • 비음수성: 모든 사건 EE ⊆ Ω에 대해 P[E]0P[E] \geq 0입니다.
  • 정규화: P[Ω]=1P[\Omega] = 1입니다.
  • 가법성: 서로소인 집합들의 가산 열 {E1,E2,}\{E_1, E_2, \dots\}에 대해 P[i=1Ei]=i=1P[Ei]P\left[\bigcup_{i=1}^\infty E_i\right] = \sum_{i=1}^\infty P[E_i]입니다.

유한한 경우, 두 개의 서로소인 사건 E1E_1E2E_2에 대해 P[E1E2]=P[E1]+P[E2]P[E_1 \cup E_2] = P[E_1] + P[E_2]가 성립합니다. 이는 사건 E1E_1 또는 E2E_2가 발생할 확률을 의미합니다.

이 공리들로부터 Complement Rule을 도출할 수 있습니다:

P[E]=1P[E]P[E] = 1 - P[\overline{E}]

여기서 E\overline{E}는 사건 EE의 여집합입니다. 또한, P[E]1P[E] \leq 1P[]=0P[\emptyset] = 0도 증명할 수 있습니다.

추가적으로, 두 사건 E1E_1E2E_2에 대해 다음과 같은 Addition Rule을 도출할 수 있습니다:

P[E1E2]=P[E1]+P[E2]P[E1E2]P[E_1 \cup E_2] = P[E_1] + P[E_2] - P[E_1 \cap E_2]

이는 두 사건이 반드시 서로소일 필요 없이 성립합니다.

Conditional Probability

두 사건 E1E_1E2E_2에 대해 P[E2]0P[E_2] \neq 0일 때, 사건 E1E_1이 사건 E2E_2가 발생했을 때 발생할 조건부 확률(Conditional Probability)은 다음과 같이 정의됩니다:

P[E1E2]=P[E1E2]P[E2]P[E_1 | E_2] = \frac{P[E_1 \cap E_2]}{P[E_2]}

이를 통해 곱셈 규칙(Multiplication Rule)을 얻을 수 있습니다:

P[E1E2]=P[E1E2]P[E2]P[E_1 \cap E_2] = P[E_1 | E_2] P[E_2]

조건부 확률은 사건 E2E_2가 발생한 경우에 사건 E1E_1이 발생할 가능성을 측정합니다. 만약 두 사건이 독립적이라면, P[E1E2]=P[E1]P[E_1 | E_2] = P[E_1]가 성립합니다. 이는 두 사건이 서로 독립적(Independent Events)임을 의미합니다:

P[E1E2]=P[E1]P[E2]P[E_1 \cap E_2] = P[E_1] P[E_2]

또한, 조건부 독립성(Conditional Independence) 개념도 도입할 수 있습니다. 세 번째 사건 E3E_3가 주어졌을 때, E1E_1E2E_2가 조건부로 독립적이라면 다음과 같이 표현됩니다:

P[E1E2E3]=P[E1E3]P[E2E3]P[E_1 \cap E_2 | E_3] = P[E_1 | E_3] P[E_2 | E_3]

조건부 확률의 정의로부터 Law of Total Probability을 도출할 수 있습니다. 이는 샘플 공간 의 분할 {A1,,An}\{A_1, \dots, A_n\}에 대해, 임의의 사건 BB ⊆ Ω에 대해 다음이 성립함을 말합니다:

P[B]=i=1nP[BAi]P[Ai]P[B] = \sum_{i=1}^n P[B | A_i] P[A_i]

Bayes’ Rule(Bayes' Theorem)

조건부 확률의 정의로부터 베이즈 정리(Bayes’ Rule), 또는 베이즈 정리(Bayes’ Theorem)를 도출할 수 있습니다. 이는 두 사건 E1E_1E2E_2에 대해 P[E1]>0P[E_1] > 0이고 P[E2]>0P[E_2] > 0일 때 다음과 같이 표현됩니다:

P[E1E2]=P[E2E1]P[E1]P[E2]P[E_1 | E_2] = \frac{P[E_2 | E_1] P[E_1]}{P[E_2]}

discrete random variable(이산 랜덤 변수) XXKK개의 가능한 상태를 가질 때, 베이즈 정리는 다음과 같이 쓸 수 있습니다:

p(X=kE)=p(EX=k)p(X=k)k=1Kp(EX=k)p(X=k)p(X = k | E) = \frac{p(E | X = k) p(X = k)}{\sum_{k'=1}^K p(E | X = k') p(X = k')}

여기서 p(X=k)p(X = k)는 사전 확률(Prior Probability), p(EX=k)p(E | X = k)는 우도(Likelihood), p(X=kE)p(X = k | E)는 사후 확률(Posterior Probability), 그리고 p(E)p(E)는 주변 확률(Marginal Likelihood)입니다.

continuous random variable(연속 랜덤 변수) XX에 대해서는 다음과 같이 베이즈 정리를 쓸 수 있습니다:

p(X=xE)=p(EX=x)p(X=x)p(EX=x)p(X=x)dxp(X = x | E) = \frac{p(E | X = x) p(X = x)}{\int_{-\infty}^{\infty} p(E | X = x') p(X = x') \, dx'}

Some Univariate Distributions

Bernoulli and Binomial Distributions

아마도 가장 단순한 확률 분포는 베르누이 분포(Bernoulli Distribution)로, 아래에서 논의할 이진 사건을 모델링하는 데 사용할 수 있습니다. 베르누이 분포는 성공과 실패와 같이 두 가지 가능한 결과를 가지는 실험을 모델링하는 데 적합합니다. 이와 관련된 확률 분포로는 이항 분포(Binomial Distribution)가 있으며, 이는 여러 번의 베르누이 실험의 결과(repeated bernoulli trials)를 모델링하는 데 사용됩니다.

Definition of Bernoulli distribution

동전을 던지는 실험을 고려해 봅시다. 동전이 앞면(heads)이 나올 확률은 0θ10 \leq \theta \leq 1로 주어집니다. 이 사건을 Y=1Y = 1로 표시하고, 동전이 뒷면(tails)이 나오는 사건을 Y=0Y = 0으로 표시합니다. 따라서 우리는

p(Y=1)=θ이고p(Y=0)=1θp(Y = 1) = \theta \quad \text{이고} \quad p(Y = 0) = 1 - \theta

라고 가정합니다. 이는 베르누이 분포(Bernoulli Distribution)라고 하며, 다음과 같이 쓸 수 있습니다:

YBer(θ)Y \sim \text{Ber}(\theta)

베르누이 분포의 확률 질량 함수(Probability Mass Function, pmf)는 다음과 같습니다:

p(Y=y)=θy(1θ)1yfory{0,1}p(Y = y) = \theta^y (1 - \theta)^{1 - y} \quad \text{for} \quad y \in \{0, 1\}

제품이 결함이 있을 확률이 θ=0.2\theta = 0.2인 경우, 제품이 결함이 없을 확률은 1θ=0.81 - \theta = 0.8입니다. 이 경우, 제품의 결함 여부를 나타내는 랜덤 변수 YY는 다음과 같이 표현할 수 있습니다.: p(Y=1)=0.2이고p(Y=0)=0.8p(Y = 1) = 0.2 \quad \text{이고} \quad p(Y = 0) = 0.8

Binomial Distribution

이항 분포(Binomial Distribution)는 독립적인 베르누이 실험을 여러 번 수행한 결과를 모델링합니다. 예를 들어, 동전을 nn번 던졌을 때 앞면이 나오는 횟수를 모델링할 수 있습니다.

Definition of Binomial distribution

nn번의 독립적인 베르누이 실험에서 성공(success)의 횟수를 나타내는 랜덤 변수 XX는 이항 분포를 따릅니다. 이항 분포의 확률 질량 함수는 다음과 같습니다:

XBin(n,θ)X \sim \text{Bin}(n, \theta)
p(X=k)=(nk)θk(1θ)nkfork=0,1,2,,np(X = k) = \binom{n}{k} \theta^k (1 - \theta)^{n - k} \quad \text{for} \quad k = 0, 1, 2, \dots, n

여기서 (nk)\binom{n}{k}는 이항 계수(binomial coefficient)로, nn번 중 kk번 성공할 확률을 나타냅니다.

동전을 10번 던졌을 때 앞면이 나오는 횟수를 모델링한다고 가정해볼 수 있습니다. 앞면이 나올 확률 θ=0.5\theta = 0.5일 때, 10번 던져서 정확히 6번 앞면이 나올 확률은 다음과 같습니다:

p(X=6)=(106)(0.5)6(10.5)106=210×164×116=21010240.205p(X = 6) = \binom{10}{6} (0.5)^6 (1 - 0.5)^{10 - 6} = 210 \times \frac{1}{64} \times \frac{1}{16} = \frac{210}{1024} \approx 0.205

또한, 이항 분포는 베르누이 분포의 일반화로 볼 수 있으며, 단일 시도의 성공 여부를 나타내는 베르누이 분포가 여러 시도의 성공 횟수를 나타내는 이항 분포로 확장됩니다.

Univariate Gaussian (Normal) Distribution

가장 널리 사용되는 실수값 랜덤 변수 yRy \in \mathbb{R}의 분포는 가우시안 분포(Gaussian Distribution), 또는 정규 분포(Normal Distribution)입니다.

Cumulative Distribution Function

연속 랜덤 변수 YY의 누적 분포 함수(Cumulative Distribution Function, cdf)는 다음과 같이 정의됩니다:

P(y)=P(Yy)P(y) = P(Y \leq y)

이를 사용하여 어떤 구간에 속할 확률을 다음과 같이 계산할 수 있습니다:

P(a<Yb)=P(b)P(a)P(a < Y \leq b) = P(b) - P(a)

가우시안의 cdf는 다음과 같이 정의됩니다:

Φ(y;μ,σ)=yN(zμ,σ)dz\Phi(y; \mu, \sigma) = \int_{-\infty}^{y} \mathcal{N}(z|\mu, \sigma) \, dz

여기서 Φ(y;μ,σ)=12[1+erf(z2)]\Phi(y; \mu, \sigma) = \frac{1}{2} \left[1 + \text{erf}\left(\frac{z}{\sqrt{2}}\right)\right], z=yμσz = \frac{y - \mu}{\sigma}이고, erf(u)\text{erf}(u)는 오류 함수(error function)입니다:

erf(u)=2π0uet2dt\text{erf}(u) = \frac{2}{\sqrt{\pi}} \int_{0}^{u} e^{-t^2} \, dt

파라미터 μ\mu는 분포의 평균(mean)을, σ2\sigma^2는 분산(variance)을 나타냅니다. μ=0\mu = 0이고 σ=1\sigma = 1일 때, 가우시안은 표준 정규 분포(Standard Normal Distribution)라고 불립니다.

Probability Density Function

누적 분포 함수의 도함수로 확률 밀도 함수(Probability Density Function, pdf)를 정의합니다:

p(y)=ddyP(y)p(y) = \frac{d}{dy} P(y)

가우시안의 pdf는 다음과 같습니다:

N(yμ,σ)=12πσ2exp((yμ)22σ2)\mathcal{N}(y|\mu, \sigma) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(y - \mu)^2}{2\sigma^2}\right)

여기서 2πσ2\sqrt{2\pi\sigma^2}는 밀도가 1이 되도록 정규화하는 상수입니다. 이를 통해 연속 변수 YY가 유한 구간에 속할 확률을 다음과 같이 계산할 수 있습니다:

P(a<Yb)=abp(y)dy=P(b)P(a)P(a < Y \leq b) = \int_{a}^{b} p(y) \, dy = P(b) - P(a)

구간의 크기가 작아질수록, 우리는 다음과 같이 쓸 수 있습니다:

P(yYy+dy)p(y)dyP(y \leq Y \leq y + dy) \approx p(y) \, dy

이는 YYyy 주변의 작은 구간에 있을 확률이 yy에서의 밀도에 구간의 너비를 곱한 것과 같다는 것을 의미합니다. 중요한 결과로, 점에서의 pdf 값은 1보다 클 수 있습니다. 예를 들어, N(00,0.1)=3.99\mathcal{N}(0|0, 0.1) = 3.99입니다.

Dirac Delta Function as a Limiting Case

가우시안의 분산이 0으로 갈 때, 분포는 평균에서 무한히 좁고 높게 "스파이크"하는 형태로 접근합니다. 이를 다음과 같이 쓸 수 있습니다:

limσ0N(yμ,σ)=δ(yμ)\lim_{\sigma \to 0} \mathcal{N}(y|\mu, \sigma) = \delta(y - \mu)

여기서 δ\delta는 디락 델타 함수(Dirac Delta Function)로, 다음과 같이 정의할 수 있다:

δ(x)={+if x=00if x0\delta(x) = \begin{cases} +\infty & \text{if } x = 0 \\ 0 & \text{if } x \neq 0 \end{cases}

그리고

δ(x)dx=1\int_{-\infty}^{\infty} \delta(x) \, dx = 1

또한, 약간 변형하여

δy(x)={+if x=y0if xy\delta_y(x) = \begin{cases} +\infty & \text{if } x = y \\ 0 & \text{if } x \neq y \end{cases}

으로 정의할 수 있으며, 이는 다음과 같이 쓸 수 있습니다:

δy(x)=δ(xy)\delta_y(x) = \delta(x - y)

Laplace Distribution

라플라스 분포(Laplace Distribution), 또는 양면 지수 분포(Double Sided Exponential Distribution)는 무거운 꼬리를 가진 분포입니다. 이 분포의 pdf는 다음과 같습니다:

Laplace(yμ,b)=12bexp(yμb)\text{Laplace}(y|\mu, b) = \frac{1}{2b} \exp\left(-\frac{|y - \mu|}{b}\right)

여기서 μ\mu는 위치 파라미터(Location Parameter), b>0b > 0는 스케일 파라미터(Scale Parameter)입니다. 이 분포는 다음과 같은 특성을 가집니다:

  • 평균 = μ\mu
  • 최빈값 = μ\mu
  • 분산 = 2b22b^2

Beta Distribution

베타 분포(Beta Distribution)는 구간 [0,1][0, 1]에 대한 분포로, 다음과 같이 정의됩니다:

Beta(xa,b)=B(a,b)x1a(1x)1b\text{Beta}(x|a, b) = \frac{B(a, b)}{x^{1 - a} (1 - x)^{1 - b}}

여기서 B(a,b)B(a, b)는 베타 함수(Beta Function)로, 다음과 같이 정의됩니다:

B(a,b)=Γ(a)Γ(b)Γ(a+b)B(a, b) = \frac{\Gamma(a) \Gamma(b)}{\Gamma(a + b)}

Γ(a)\Gamma(a)는 감마 함수(Gamma Function)로, 다음과 같이 정의됩니다:

Γ(a)=0xa1exdx\Gamma(a) = \int_{0}^{\infty} x^{a-1} e^{-x} \, dx

베타 분포는 a,b>0a, b > 0일 때 정의되며, a=b=1a = b = 1일 경우 균등 분포(Uniform Distribution)가 됩니다. a,b<1a, b < 1일 경우 0과 1에 봉우리가 두 개인 분포가 되고, a,b>1a, b > 1일 경우 봉우리가 한인 분포가 됩니다.

Exponential Distribution

지수 분포(Exponential Distribution)는 다음과 같이 정의됩니다:

Expon(xλ)=Ga(xshape=1,rate=λ)\text{Expon}(x|\lambda) = \text{Ga}(x|\text{shape} = 1, \text{rate} = \lambda)

Chi-squared Distribution

카이제곱 분포(Chi-squared Distribution)는 다음과 같이 정의됩니다:

χν2(x)=Ga(xshape=ν2,rate=2)\chi^2_{\nu}(x) = \text{Ga}\left(x|\text{shape} = \frac{\nu}{2}, \text{rate} = 2\right)

여기서 ν\nu는 자유도(Degrees of Freedom)입니다. 이는 독립적인 가우시안 랜덤 변수의 제곱합의 분포입니다.

Inverse Gamma Distribution

역감마 분포(Inverse Gamma Distribution)는 다음과 같이 정의됩니다:

IG(xa,b)=baΓ(a)x(a+1)exp(bx)\text{IG}(x|a, b) = \frac{b^a}{\Gamma(a)} x^{-(a+1)} \exp\left(-\frac{b}{x}\right)

이 분포는 다음과 같은 특성을 가집니다:

  • 평균 = ba1\frac{b}{a - 1} (단, a>1a > 1일 때)
  • 최빈값 = ba+1\frac{b}{a + 1}
  • 분산 = b2(a1)2(a2)\frac{b^2}{(a - 1)^2 (a - 2)} (단, a>2a > 2일 때)

Γ(a)\Gamma(a)는 감마 함수입니다. 만약 XGa(shape=a,rate=b)X \sim \text{Ga}(\text{shape} = a, \text{rate} = b)이면, 1/XIG(shape=a,scale=b)1/X \sim \text{IG}(\text{shape} = a, \text{scale} = b)입니다.

Empirical Distribution

우리가 NN개의 샘플 D={x(1),,x(N)}D = \{x^{(1)}, \dots, x^{(N)}\}을 가지고 있다고 가정합시다. 이는 분포 p(X)p(X)에서 유래된 것입니다, 여기서 XRX \in \mathbb{R}입니다. 우리는 델타 함수(Delta Function)를 사용하여 pdf를 다음과 같이 근사할 수 있습니다:

p^N(x)=1Nn=1Nδx(n)(x)\hat{p}_N(x) = \frac{1}{N} \sum_{n=1}^{N} \delta_{x^{(n)}}(x)

이는 데이터셋 DD의 경험적 분포(Empirical Distribution)라고 불립니다.

누적 분포 함수는 다음과 같이 주어집니다:

PN(x)=1Nn=1NI(xx(n))P_N(x) = \frac{1}{N} \sum_{n=1}^{N} \mathbb{I}(x \leq x^{(n)})

여기서 I(x)\mathbb{I}(x)yy에서 스텝 함수로 정의됩니다:

Iy(x)={1if xy0if x<y\mathbb{I}_y(x) = \begin{cases} 1 & \text{if } x \geq y \\ 0 & \text{if } x < y \end{cases}

이는 "계단식"으로 시각화할할 수 있으며, 각 샘플에서 높이 1/N1/N의 점프가 발생합니다.
즉, empirical distribution은 말 그대로 주어진 관측 데이터를 distribution으로 나타낸 것입니다.


이번 포스트는 상대적으로 분량이 방대할 수 있습니다. 주요하게 사용되는 분포만 외우고, 이를 상황에 적절히 적용하여 모델링할 수 있으면 충분하다고 생각합니다. 다음으로는 Multivariate distribution(다변량 분포), Gaussian joint distribution, Exponential Family 등을 다뤄보도록 하겠습니다.

0개의 댓글