베이즈 정리(Bayes' Theorem), 우도(Likelihood), 최대 우도 추정법(MLE)의 유도 과정

김승혁·2024년 11월 22일

베이즈 정리(Bayes' Theorem)는 확률론에서 조건부 확률을 계산하는 중요한 도구입니다. 베이즈 정리는 주어진 데이터나 증거를 바탕으로 사건의 확률을 갱신하는 방법을 제공합니다. 이 정리는 주로 사후 확률을 계산하는 데 사용됩니다.

베이즈 정리의 수식

베이즈 정리는 다음과 같은 수식으로 표현됩니다.

$P(A|B) = \frac{P(B|A) P(A)}{P(B)}$

$P(A|B)$ : 사건 $B$ 가 일어난 후, 사건 $A$ 가 일어날 확률 (사후 확률)
$P(B|A)$ : 사건 $A$ 가 일어난 후, 사건 $B$ 가 일어날 확률 (우도)
$P(A)$ : 사건 $A$ 가 일어날 확률
$P(B)$ : 사건 $B$ 가 일어날 확률

각 용어의 설명

Posterior Probability (사후 확률): 주어진 증거 $B$ 에 대해 사건 $A$ 가 일어날 확률을 계산한 것입니다. 이는 우리가 구하고자 하는 값입니다.
Likelihood (우도): 사건 $A$ 가 일어났을 때, 사건 $B$ 가 발생할 확률입니다.
Prior Probability (사전 확률): 사건 $A$ 가 발생할 확률로, 데이터나 증거를 보기 전에 우리가 이미 알고 있는 정보입니다.
Marginal Likelihood or Evidence (증거): 사건 $B$ 가 발생할 확률로, 모든 가능한 사건 $A$ 에 대해 확률을 가중 평균한 값입니다.

베이즈 정리의 해석

베이즈 정리는 사전 확률을 바탕으로 사후 확률을 계산하는 방법을 제시합니다. 즉, 어떤 사건이 발생할 확률을 갱신하는 방식으로, 초기의 믿음(사전 확률)을 주어진 증거(사건 $B$ )를 바탕으로 업데이트합니다.

예시

예를 들어, 질병 진단 문제에서 베이즈 정리를 사용할 수 있습니다.

$A$ 는 "환자가 질병에 걸렸음"이라는 사건
$B$ 는 "환자가 양성 반응을 보였음"이라는 사건

우리는 양성 반응을 보였을 때, 실제로 환자가 질병에 걸렸을 확률을 알고 싶습니다. 이때 베이즈 정리를 사용하여 사후 확률 $P(A|B)$ 를 계산할 수 있습니다.

$P(\text{질병|양성}) = \frac{P(\text{양성|질병}) \cdot P(\text{질병})}{P(\text{양성})}$

$P(\text{양성|질병})$ : 질병에 걸린 사람이 양성 반응을 보일 확률 (우도)
$P(\text{질병})$ : 일반적인 인구에서 질병에 걸린 사람의 비율 (사전 확률)
$P(\text{양성})$ : 양성 반응을 보일 확률 (증거의 확률)

베이즈 정리의 활용

베이즈 정리는 여러 분야에서 매우 유용하게 사용됩니다. 그 예시는 다음과 같습니다:

의학: 질병의 진단에서 환자가 증상을 보일 때, 실제 질병에 걸렸을 확률을 계산하는 데 사용됩니다.
기계 학습: 분류 문제에서 클래스의 사후 확률을 계산하거나, 모델의 파라미터를 추정하는 데 사용됩니다.
자연어 처리: 단어의 의미나 문장의 확률을 계산할 때 베이즈 정리를 활용할 수 있습니다.
통계: 모델의 추정값을 갱신할 때 사용되며, 특히 베이지안 통계학에서 중요합니다.

베이즈 정리는 우리가 이전에 알고 있던 정보(사전 확률)를 새로운 데이터나 증거(우도)를 바탕으로 갱신하여 보다 정확한 예측을 가능하게 합니다.

우도(Likelihood)는 통계학과 확률론에서 주어진 데이터가 특정 모델에 의해 생성될 확률을 나타내는 개념입니다. 보통, 우도는 모델의 파라미터를 추정하는 데 사용됩니다. 즉, 데이터를 관찰한 후, 해당 데이터가 주어진 모델에서 나올 확률을 측정하고, 이를 바탕으로 모델 파라미터를 추정하는 데 활용됩니다.

우도는 보통 확률 밀도 함수 또는 확률 질량 함수의 형태로 나타내며, 모델 파라미터가 주어졌을 때, 그 파라미터가 관찰된 데이터에 대해 얼마나 잘 맞는지를 측정합니다.

우도의 정의

우도는 다음과 같이 정의할 수 있습니다.

주어진 데이터 $X = (x_1, x_2, \dots, x_n)$ 와 모델의 파라미터 $\theta$ 에 대해, 우도 함수는 $P(X | \theta)$ 또는 $L(\theta | X)$ 로 표기되며, 이는 데이터 $X$ 가 주어진 파라미터 $\theta$ 에 의해 생성될 확률을 나타냅니다.

$L(\theta | X) = P(X | \theta)$

여기서 $P(X | \theta)$ 는 조건부 확률로, 파라미터 $\theta$ 에 대한 확률 분포 함수가 주어진 데이터 $X$ 를 생성할 확률을 의미합니다.

이항 분포에서의 우도

동전을 10번 던져서 7번 앞면이 나온 결과가 있을 때, 동전이 공정한지 아닌지를 평가하는 문제를 생각해 봅시다.
동전 던지기 실험은 이항 분포를 따르며, 이때 우도 함수는 다음과 같이 정의됩니다:

$L(p) = P(X = 7 | p) = \binom{10}{7} p^7 (1-p)^3$

여기서 $p$ 는 동전이 앞면이 나올 확률입니다.
우리는 우도 함수를 통해 동전이 공정한지(즉, $p = 0.5$ )를 추정하려고 합니다.

$p^7 \cdot (1-p)^3$ 는 성공 7번과 실패 3번을 각각의 확률로 표현한 것입니다.
이는 "성공할 확률 $p$ 를 7번 곱하고, 실패할 확률 $1-p$ 를 3번 곱한 것"입니다.
$\binom{10}{7} p^7 (1-p)^3$ 는 위의 식에 더하여, 성공 7번과 실패 3번이 일어날 수 있는 모든 가능한 경우의 수를 고려한 것입니다.
즉, 이항계수 $\binom{10}{7}$ 가 포함되어 있기 때문에, "성공 7번과 실패 3번이 일어날 수 있는 경우의 수"를 추가로 계산해야 합니다.

$\binom{10}{7} = \frac{10!}{7!(10-7)!} = \frac{10 \times 9 \times 8}{3 \times 2 \times 1} = 120$

$p = 0.5$

$\binom{10}{7} p^7 (1-p)^3 = \frac{15}{128}$

동전 던지기에서 10번 던져서 7번 앞면이 나오고 3번 뒷면이 나올 확률은 $\frac{15}{128}$ 입니다.

정규 분포에서의 우도

주어진 데이터 $X = (x_1, x_2, \dots, x_n)$ 가 정규 분포 $N(\mu, \sigma^2)$ 에서 나왔다는 가정 하에,
이 데이터가 특정한 평균 $\mu$ 와 표준편차 $\sigma$ 를 가진 정규 분포에서 나올 확률을 계산하는 함수입니다.

식의 구조

$L(\mu, \sigma | X) = \prod_{i=1}^{n} \frac{1}{\sigma \sqrt{2\pi}} \exp \left( -\frac{(x_i - \mu)^2}{2\sigma^2} \right)$

1. 정규 분포의 확률 밀도 함수 (PDF)

우리가 사용하는 정규 분포의 확률 밀도 함수는 다음과 같습니다:

$p(x | \mu, \sigma) = \frac{1}{\sigma \sqrt{2\pi}} \exp \left( -\frac{(x - \mu)^2}{2\sigma^2} \right)$

$\mu$ : 정규 분포의 평균
$\sigma$ : 정규 분포의 표준편차
$\sigma^2$ : 분산 (표준편차의 제곱)
$x$ : 데이터 포인트

이 확률 밀도 함수는 하나의 데이터 포인트가 평균 $\mu$ 와 표준편차 $\sigma$ 를 가진 정규 분포에서 나올 확률을 나타냅니다.

2. 우도 함수 (Likelihood Function)

우도 함수는 주어진 전체 데이터가 특정한 파라미터 (여기서는 $\mu$ 와 $\sigma$ )를 가질 때 나올 확률을 나타냅니다.

전체 데이터 $X = (x_1, x_2, \dots, x_n)$ 가 독립적으로 정규 분포에서 나왔다고 가정합니다.
그러므로, 각 데이터 포인트 $x_i$ 의 확률 밀도 함수는 모두 독립적으로 계산됩니다.
이 확률들의 곱이 바로 우도 함수입니다.

우도 함수는 각 데이터 포인트의 확률 밀도 함수의 곱으로 계산됩니다:

$L(\mu, \sigma | X) = \prod_{i=1}^{n} p(x_i | \mu, \sigma) = \prod_{i=1}^{n} \frac{1}{\sigma \sqrt{2\pi}} \exp \left( -\frac{(x_i - \mu)^2}{2\sigma^2} \right)$

구성 요소

$\prod_{i=1}^{n}$ : 모든 데이터 포인트 $x_1, x_2, \dots, x_n$ 에 대해 확률 밀도 함수를 곱하는 연산입니다. 각 데이터가 독립적으로 생성되었기 때문에, 각 데이터의 확률을 곱합니다.
$\frac{1}{\sigma \sqrt{2\pi}}$ : 정규 분포의 확률 밀도 함수의 첫 번째 항목으로, 정규 분포에서 특정 데이터가 나올 확률을 나타냅니다. $\sigma$ 는 분포의 표준편차이고, $\sqrt{2\pi}$ 는 정규 분포의 특성에 의한 상수입니다.
$\exp \left( -\frac{(x_i - \mu)^2}{2\sigma^2} \right)$ : 정규 분포의 지수 함수 부분으로, 각 데이터 포인트 $x_i$ 가 평균 $\mu$ 와 표준편차 $\sigma$ 를 가진 정규 분포에서 얼마나 "멀리 떨어져 있는지"를 나타냅니다. 값이 작을수록 해당 데이터가 정규 분포에서 더 자연스럽게 나왔다고 볼 수 있습니다.

3. 우도 함수의 역할

우도 함수 $L(\mu, \sigma | X)$ 는 주어진 데이터가 특정한 $\mu$ 와 $\sigma$ 를 가진 정규 분포에서 나올 확률을 측정합니다. 이 함수는 모델 파라미터 $\mu$ 와 $\sigma$ 가 주어진 데이터에 얼마나 잘 맞는지 평가합니다. 즉, 데이터가 주어졌을 때, 파라미터 $\mu$ 와 $\sigma$ 가 얼마나 적합한지를 확인하는 데 사용됩니다.

5. 최대 우도 추정법 (MLE)

이 우도 함수는 최대 우도 추정법 (Maximum Likelihood Estimation, MLE)에 사용됩니다. 최대 우도 추정법은 우도 함수 $L(\mu, \sigma | X)$ 를 최대화하는 파라미터 $\mu$ 와 $\sigma$ 를 찾는 방법입니다. 이 값들이 주어진 데이터에서 가장 높은 확률을 가진 파라미터 추정치가 됩니다.

최대 우도 추정법의 유도 과정

1. 우도 함수 (Likelihood Function)

주어진 데이터 $X = (x_1, x_2, \dots, x_n)$ 가 특정 확률 분포에 따라 발생했다고 가정합시다. 모델 파라미터를 $\theta = (\theta_1, \theta_2, \dots, \theta_k)$ 라고 할 때, 각 데이터 $x_i$ 가 모델 파라미터 $\theta$ 를 따를 확률 밀도 함수는 $f(x_i | \theta)$ 입니다.

데이터가 독립적으로 발생한다고 가정하면, 우도 함수 $L(\theta | X)$ 는 모든 데이터 포인트의 확률 밀도 함수의 곱입니다:

$L(\theta | X) = \prod_{i=1}^{n} f(x_i | \theta)$

여기서 $L(\theta | X)$ 는 주어진 데이터 $X$ 가 파라미터 $\theta$ 하에서 발생할 확률입니다.

2. 로그 우도 함수 (Log-Likelihood Function)

우도 함수를 곱셈 형태로 계산하는 것은 계산이 매우 복잡할 수 있습니다. 그래서 보통 로그를 취해서 계산을 간단히 합니다. 로그 우도 함수는 다음과 같이 정의됩니다:

$\log L(\theta | X) = \log \left( \prod_{i=1}^{n} f(x_i | \theta) \right)$

로그의 성질을 이용하여 이 식을 풀면:

$\log L(\theta | X) = \sum_{i=1}^{n} \log f(x_i | \theta)$

이제 우리는 로그 우도 함수 $\log L(\theta | X)$ 를 최대화하는 파라미터 $\theta$ 를 찾는 것이 목표입니다.

3. 최대화 문제 (Optimization)

최대 우도 추정법은 로그 우도 함수를 최대화하는 파라미터 $\theta$ 를 찾는 문제입니다. 즉, 다음과 같은 최적화 문제를 푸는 것입니다:

$\hat{\theta} = \arg\max_{\theta} \log L(\theta | X)$

이제 주어진 분포에 대한 확률 밀도 함수 $f(x_i | \theta)$ 와 로그 우도 함수의 형태를 구체적으로 확인한 후, 이를 최대화하는 $\theta$ 를 구합니다.

4. 최대 우도 추정법 예시: 정규 분포

정규 분포에서 최대 우도 추정법을 유도하는 예시를 들어 보겠습니다.

데이터: $X = (x_1, x_2, \dots, x_n)$

정규 분포의 확률 밀도 함수는 다음과 같습니다:

$f(x_i | \mu, \sigma) = \frac{1}{\sigma \sqrt{2\pi}} \exp \left( -\frac{(x_i - \mu)^2}{2\sigma^2} \right)$

따라서, 우도 함수는 다음과 같습니다:

$L(\mu, \sigma | X) = \prod_{i=1}^{n} \frac{1}{\sigma \sqrt{2\pi}} \exp \left( -\frac{(x_i - \mu)^2}{2\sigma^2} \right)$

로그 우도 함수는:

$\log L(\mu, \sigma | X) = \sum_{i=1}^{n} \log \left( \frac{1}{\sigma \sqrt{2\pi}} \exp \left( -\frac{(x_i - \mu)^2}{2\sigma^2} \right) \right)$

이 식을 풀면:

$\log L(\mu, \sigma | X) = -n \log (\sigma \sqrt{2\pi}) - \frac{1}{2\sigma^2} \sum_{i=1}^{n} (x_i - \mu)^2$

5. 최대화

이제 로그 우도 함수를 최대화해야 합니다. 파라미터 $\mu$ 와 $\sigma$ 에 대해 각각 미분하여 최대화할 수 있습니다.

(1) $\mu$ 에 대해 미분

로그 우도 함수에서 $\mu$ 에 대한 부분만 보면:

$\frac{\partial}{\partial \mu} \log L(\mu, \sigma | X) = \frac{1}{\sigma^2} \sum_{i=1}^{n} (x_i - \mu)$

이 값을 0으로 두고 $\mu$ 를 구하면:

$\sum_{i=1}^{n} (x_i - \mu) = 0$

따라서, 최적의 평균 $\mu$ 는 데이터의 산술 평균입니다:

$\hat{\mu} = \frac{1}{n} \sum_{i=1}^{n} x_i$

(2) $\sigma$ 에 대해 미분

로그 우도 함수에서 $\sigma$ 에 대한 부분만 보면:

$\frac{\partial}{\partial \sigma} \log L(\mu, \sigma | X) = -\frac{n}{\sigma} + \frac{1}{\sigma^3} \sum_{i=1}^{n} (x_i - \mu)^2$

이 값을 0으로 두고 $\sigma$ 를 구하면:

$\hat{\sigma}^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i - \mu)^2$

따라서, 최적의 표준편차 $\sigma$ 는 표준편차로 계산할 수 있습니다:

$\hat{\sigma} = \sqrt{\frac{1}{n} \sum_{i=1}^{n} (x_i - \hat{\mu})^2}$

6. 결론

최대 우도 추정법을 통해 정규 분포의 평균 $\mu$ 와 표준편차 $\sigma$ 를 다음과 같이 추정할 수 있습니다:

$\hat{\mu} = \frac{1}{n} \sum_{i=1}^{n} x_i$ (데이터의 평균)
$\hat{\sigma}^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i - \hat{\mu})^2$ (데이터의 분산)

이러한 추정값은 주어진 데이터에 대해 가장 가능성이 높은 모델 파라미터입니다.

김승혁

열심히 사는 척

이전 포스트

[Instant Gratification] 모델 발전 과정

다음 포스트

베이즈 정리(Bayes' Theorem), 우도(Likelihood), 최대 우도 추정법(MLE)의 유도 과정

베이즈 정리의 수식

각 용어의 설명

베이즈 정리의 해석

예시

베이즈 정리의 활용

우도의 정의

이항 분포에서의 우도

정규 분포에서의 우도

식의 구조

1. 정규 분포의 확률 밀도 함수 (PDF)

2. 우도 함수 (Likelihood Function)

구성 요소

3. 우도 함수의 역할

5. 최대 우도 추정법 (MLE)

최대 우도 추정법의 유도 과정

1. 우도 함수 (Likelihood Function)

2. 로그 우도 함수 (Log-Likelihood Function)

3. 최대화 문제 (Optimization)

4. 최대 우도 추정법 예시: 정규 분포

데이터: $X = (x_1, x_2, \dots, x_n)$

5. 최대화

(1) $\mu$ 에 대해 미분

(2) $\sigma$ 에 대해 미분

6. 결론

[Instant Gratification] 모델 발전 과정

고유 벡터, 고유값, 행렬식(det), 고유값 분해

0개의 댓글

베이즈 정리(Bayes' Theorem), 우도(Likelihood), 최대 우도 추정법(MLE)의 유도 과정

베이즈 정리의 수식

각 용어의 설명

베이즈 정리의 해석

예시

베이즈 정리의 활용

우도의 정의

이항 분포에서의 우도

정규 분포에서의 우도

식의 구조

1. 정규 분포의 확률 밀도 함수 (PDF)

2. 우도 함수 (Likelihood Function)

구성 요소

3. 우도 함수의 역할

5. 최대 우도 추정법 (MLE)

최대 우도 추정법의 유도 과정

1. 우도 함수 (Likelihood Function)

2. 로그 우도 함수 (Log-Likelihood Function)

3. 최대화 문제 (Optimization)

4. 최대 우도 추정법 예시: 정규 분포

데이터: X=(x1,x2,…,xn)X = (x_1, x_2, \dots, x_n)X=(x1​,x2​,…,xn​)

5. 최대화

(1) μ\muμ에 대해 미분

(2) σ\sigmaσ에 대해 미분

6. 결론

[Instant Gratification] 모델 발전 과정

고유 벡터, 고유값, 행렬식(det), 고유값 분해

0개의 댓글

데이터: $X = (x_1, x_2, \dots, x_n)$

(1) $\mu$ 에 대해 미분

(2) $\sigma$ 에 대해 미분