베이즈 정리(Bayes' Theorem), 우도(Likelihood), 최대 우도 추정법(MLE)의 유도 과정

김승혁·2024년 11월 22일

베이즈 정리(Bayes' Theorem)는 확률론에서 조건부 확률을 계산하는 중요한 도구입니다. 베이즈 정리는 주어진 데이터나 증거를 바탕으로 사건의 확률을 갱신하는 방법을 제공합니다. 이 정리는 주로 사후 확률을 계산하는 데 사용됩니다.


베이즈 정리의 수식


베이즈 정리는 다음과 같은 수식으로 표현됩니다.

P(AB)=P(BA)P(A)P(B)P(A|B) = \frac{P(B|A) P(A)}{P(B)}

  • P(AB)P(A|B) : 사건 BB가 일어난 후, 사건 AA가 일어날 확률 (사후 확률)
  • P(BA)P(B|A) : 사건 AA가 일어난 후, 사건 BB가 일어날 확률 (우도)
  • P(A)P(A) : 사건 AA가 일어날 확률
  • P(B)P(B) : 사건 BB가 일어날 확률

각 용어의 설명


  • Posterior Probability (사후 확률): 주어진 증거 BB에 대해 사건 AA가 일어날 확률을 계산한 것입니다. 이는 우리가 구하고자 하는 값입니다.
  • Likelihood (우도): 사건 AA가 일어났을 때, 사건 BB가 발생할 확률입니다.
  • Prior Probability (사전 확률): 사건 AA가 발생할 확률로, 데이터나 증거를 보기 전에 우리가 이미 알고 있는 정보입니다.
  • Marginal Likelihood or Evidence (증거): 사건 BB가 발생할 확률로, 모든 가능한 사건 AA에 대해 확률을 가중 평균한 값입니다.

베이즈 정리의 해석


베이즈 정리는 사전 확률을 바탕으로 사후 확률을 계산하는 방법을 제시합니다. 즉, 어떤 사건이 발생할 확률을 갱신하는 방식으로, 초기의 믿음(사전 확률)을 주어진 증거(사건 BB)를 바탕으로 업데이트합니다.


예시


예를 들어, 질병 진단 문제에서 베이즈 정리를 사용할 수 있습니다.

  • AA는 "환자가 질병에 걸렸음"이라는 사건
  • BB는 "환자가 양성 반응을 보였음"이라는 사건

우리는 양성 반응을 보였을 때, 실제로 환자가 질병에 걸렸을 확률을 알고 싶습니다. 이때 베이즈 정리를 사용하여 사후 확률 P(AB)P(A|B)를 계산할 수 있습니다.


P(질병|양성)=P(양성|질병)P(질병)P(양성)P(\text{질병|양성}) = \frac{P(\text{양성|질병}) \cdot P(\text{질병})}{P(\text{양성})}

  • P(양성|질병)P(\text{양성|질병}) : 질병에 걸린 사람이 양성 반응을 보일 확률 (우도)
  • P(질병)P(\text{질병}) : 일반적인 인구에서 질병에 걸린 사람의 비율 (사전 확률)
  • P(양성)P(\text{양성}) : 양성 반응을 보일 확률 (증거의 확률)

베이즈 정리의 활용


베이즈 정리는 여러 분야에서 매우 유용하게 사용됩니다. 그 예시는 다음과 같습니다:

  • 의학: 질병의 진단에서 환자가 증상을 보일 때, 실제 질병에 걸렸을 확률을 계산하는 데 사용됩니다.
  • 기계 학습: 분류 문제에서 클래스의 사후 확률을 계산하거나, 모델의 파라미터를 추정하는 데 사용됩니다.
  • 자연어 처리: 단어의 의미나 문장의 확률을 계산할 때 베이즈 정리를 활용할 수 있습니다.
  • 통계: 모델의 추정값을 갱신할 때 사용되며, 특히 베이지안 통계학에서 중요합니다.

베이즈 정리는 우리가 이전에 알고 있던 정보(사전 확률)를 새로운 데이터나 증거(우도)를 바탕으로 갱신하여 보다 정확한 예측을 가능하게 합니다.










우도(Likelihood)는 통계학과 확률론에서 주어진 데이터가 특정 모델에 의해 생성될 확률을 나타내는 개념입니다. 보통, 우도는 모델의 파라미터를 추정하는 데 사용됩니다. 즉, 데이터를 관찰한 후, 해당 데이터가 주어진 모델에서 나올 확률을 측정하고, 이를 바탕으로 모델 파라미터를 추정하는 데 활용됩니다.

우도는 보통 확률 밀도 함수 또는 확률 질량 함수의 형태로 나타내며, 모델 파라미터가 주어졌을 때, 그 파라미터가 관찰된 데이터에 대해 얼마나 잘 맞는지를 측정합니다.


우도의 정의


우도는 다음과 같이 정의할 수 있습니다.

  • 주어진 데이터 X=(x1,x2,,xn)X = (x_1, x_2, \dots, x_n)와 모델의 파라미터 θ\theta에 대해, 우도 함수는 P(Xθ)P(X | \theta) 또는 L(θX)L(\theta | X)로 표기되며, 이는 데이터 XX가 주어진 파라미터 θ\theta에 의해 생성될 확률을 나타냅니다.

L(θX)=P(Xθ)L(\theta | X) = P(X | \theta)

  • 여기서 P(Xθ)P(X | \theta)조건부 확률로, 파라미터 θ\theta에 대한 확률 분포 함수가 주어진 데이터 XX를 생성할 확률을 의미합니다.

이항 분포에서의 우도


동전을 10번 던져서 7번 앞면이 나온 결과가 있을 때, 동전이 공정한지 아닌지를 평가하는 문제를 생각해 봅시다.
동전 던지기 실험은 이항 분포를 따르며, 이때 우도 함수는 다음과 같이 정의됩니다:

L(p)=P(X=7p)=(107)p7(1p)3L(p) = P(X = 7 | p) = \binom{10}{7} p^7 (1-p)^3

여기서 pp는 동전이 앞면이 나올 확률입니다.
우리는 우도 함수를 통해 동전이 공정한지(즉, p=0.5p = 0.5)를 추정하려고 합니다.


  • p7(1p)3p^7 \cdot (1-p)^3는 성공 7번과 실패 3번을 각각의 확률로 표현한 것입니다.
    이는 "성공할 확률 pp를 7번 곱하고, 실패할 확률 1p1-p를 3번 곱한 것"입니다.

  • (107)p7(1p)3\binom{10}{7} p^7 (1-p)^3는 위의 식에 더하여, 성공 7번과 실패 3번이 일어날 수 있는 모든 가능한 경우의 수를 고려한 것입니다.
    즉, 이항계수 (107)\binom{10}{7}가 포함되어 있기 때문에, "성공 7번과 실패 3번이 일어날 수 있는 경우의 수"를 추가로 계산해야 합니다.


(107)=10!7!(107)!=10×9×83×2×1=120\binom{10}{7} = \frac{10!}{7!(10-7)!} = \frac{10 \times 9 \times 8}{3 \times 2 \times 1} = 120

p=0.5p = 0.5

(107)p7(1p)3=15128\binom{10}{7} p^7 (1-p)^3 = \frac{15}{128}

동전 던지기에서 10번 던져서 7번 앞면이 나오고 3번 뒷면이 나올 확률은 15128\frac{15}{128}입니다.






정규 분포에서의 우도


주어진 데이터 X=(x1,x2,,xn)X = (x_1, x_2, \dots, x_n)가 정규 분포 N(μ,σ2)N(\mu, \sigma^2)에서 나왔다는 가정 하에,
이 데이터가 특정한 평균 μ\mu표준편차 σ\sigma를 가진 정규 분포에서 나올 확률을 계산하는 함수입니다.

식의 구조

L(μ,σX)=i=1n1σ2πexp((xiμ)22σ2)L(\mu, \sigma | X) = \prod_{i=1}^{n} \frac{1}{\sigma \sqrt{2\pi}} \exp \left( -\frac{(x_i - \mu)^2}{2\sigma^2} \right)


1. 정규 분포의 확률 밀도 함수 (PDF)


우리가 사용하는 정규 분포의 확률 밀도 함수는 다음과 같습니다:

p(xμ,σ)=1σ2πexp((xμ)22σ2)p(x | \mu, \sigma) = \frac{1}{\sigma \sqrt{2\pi}} \exp \left( -\frac{(x - \mu)^2}{2\sigma^2} \right)


  • μ\mu: 정규 분포의 평균
  • σ\sigma: 정규 분포의 표준편차
  • σ2\sigma^2: 분산 (표준편차의 제곱)
  • xx: 데이터 포인트

이 확률 밀도 함수는 하나의 데이터 포인트가 평균 μ\mu와 표준편차 σ\sigma를 가진 정규 분포에서 나올 확률을 나타냅니다.


2. 우도 함수 (Likelihood Function)


우도 함수는 주어진 전체 데이터가 특정한 파라미터 (여기서는 μ\muσ\sigma)를 가질 때 나올 확률을 나타냅니다.

  • 전체 데이터 X=(x1,x2,,xn)X = (x_1, x_2, \dots, x_n)가 독립적으로 정규 분포에서 나왔다고 가정합니다.
  • 그러므로, 각 데이터 포인트 xix_i의 확률 밀도 함수는 모두 독립적으로 계산됩니다.
  • 이 확률들의 곱이 바로 우도 함수입니다.

우도 함수는 각 데이터 포인트의 확률 밀도 함수의 곱으로 계산됩니다:

L(μ,σX)=i=1np(xiμ,σ)=i=1n1σ2πexp((xiμ)22σ2)L(\mu, \sigma | X) = \prod_{i=1}^{n} p(x_i | \mu, \sigma) = \prod_{i=1}^{n} \frac{1}{\sigma \sqrt{2\pi}} \exp \left( -\frac{(x_i - \mu)^2}{2\sigma^2} \right)


구성 요소


  • i=1n\prod_{i=1}^{n} : 모든 데이터 포인트 x1,x2,,xnx_1, x_2, \dots, x_n에 대해 확률 밀도 함수를 곱하는 연산입니다. 각 데이터가 독립적으로 생성되었기 때문에, 각 데이터의 확률을 곱합니다.

  • 1σ2π\frac{1}{\sigma \sqrt{2\pi}} : 정규 분포의 확률 밀도 함수의 첫 번째 항목으로, 정규 분포에서 특정 데이터가 나올 확률을 나타냅니다. σ\sigma는 분포의 표준편차이고, 2π\sqrt{2\pi}는 정규 분포의 특성에 의한 상수입니다.

  • exp((xiμ)22σ2)\exp \left( -\frac{(x_i - \mu)^2}{2\sigma^2} \right) : 정규 분포의 지수 함수 부분으로, 각 데이터 포인트 xix_i가 평균 μ\mu와 표준편차 σ\sigma를 가진 정규 분포에서 얼마나 "멀리 떨어져 있는지"를 나타냅니다. 값이 작을수록 해당 데이터가 정규 분포에서 더 자연스럽게 나왔다고 볼 수 있습니다.


3. 우도 함수의 역할

우도 함수 L(μ,σX)L(\mu, \sigma | X)는 주어진 데이터가 특정한 μ\muσ\sigma를 가진 정규 분포에서 나올 확률을 측정합니다. 이 함수는 모델 파라미터 μ\muσ\sigma가 주어진 데이터에 얼마나 잘 맞는지 평가합니다. 즉, 데이터가 주어졌을 때, 파라미터 μ\muσ\sigma가 얼마나 적합한지를 확인하는 데 사용됩니다.


5. 최대 우도 추정법 (MLE)

이 우도 함수는 최대 우도 추정법 (Maximum Likelihood Estimation, MLE)에 사용됩니다. 최대 우도 추정법은 우도 함수 L(μ,σX)L(\mu, \sigma | X)를 최대화하는 파라미터 μ\muσ\sigma를 찾는 방법입니다. 이 값들이 주어진 데이터에서 가장 높은 확률을 가진 파라미터 추정치가 됩니다.






최대 우도 추정법의 유도 과정


1. 우도 함수 (Likelihood Function)


주어진 데이터 X=(x1,x2,,xn)X = (x_1, x_2, \dots, x_n)가 특정 확률 분포에 따라 발생했다고 가정합시다. 모델 파라미터를 θ=(θ1,θ2,,θk)\theta = (\theta_1, \theta_2, \dots, \theta_k)라고 할 때, 각 데이터 xix_i가 모델 파라미터 θ\theta를 따를 확률 밀도 함수는 f(xiθ)f(x_i | \theta)입니다.

데이터가 독립적으로 발생한다고 가정하면, 우도 함수 L(θX)L(\theta | X)는 모든 데이터 포인트의 확률 밀도 함수의 곱입니다:

L(θX)=i=1nf(xiθ)L(\theta | X) = \prod_{i=1}^{n} f(x_i | \theta)

여기서 L(θX)L(\theta | X)는 주어진 데이터 XX가 파라미터 θ\theta 하에서 발생할 확률입니다.


2. 로그 우도 함수 (Log-Likelihood Function)


우도 함수를 곱셈 형태로 계산하는 것은 계산이 매우 복잡할 수 있습니다. 그래서 보통 로그를 취해서 계산을 간단히 합니다. 로그 우도 함수는 다음과 같이 정의됩니다:

logL(θX)=log(i=1nf(xiθ))\log L(\theta | X) = \log \left( \prod_{i=1}^{n} f(x_i | \theta) \right)

로그의 성질을 이용하여 이 식을 풀면:

logL(θX)=i=1nlogf(xiθ)\log L(\theta | X) = \sum_{i=1}^{n} \log f(x_i | \theta)

이제 우리는 로그 우도 함수 logL(θX)\log L(\theta | X)를 최대화하는 파라미터 θ\theta를 찾는 것이 목표입니다.


3. 최대화 문제 (Optimization)


최대 우도 추정법은 로그 우도 함수를 최대화하는 파라미터 θ\theta를 찾는 문제입니다. 즉, 다음과 같은 최적화 문제를 푸는 것입니다:

θ^=argmaxθlogL(θX)\hat{\theta} = \arg\max_{\theta} \log L(\theta | X)

이제 주어진 분포에 대한 확률 밀도 함수 f(xiθ)f(x_i | \theta)와 로그 우도 함수의 형태를 구체적으로 확인한 후, 이를 최대화하는 θ\theta를 구합니다.


4. 최대 우도 추정법 예시: 정규 분포


정규 분포에서 최대 우도 추정법을 유도하는 예시를 들어 보겠습니다.

데이터: X=(x1,x2,,xn)X = (x_1, x_2, \dots, x_n)


정규 분포의 확률 밀도 함수는 다음과 같습니다:

f(xiμ,σ)=1σ2πexp((xiμ)22σ2)f(x_i | \mu, \sigma) = \frac{1}{\sigma \sqrt{2\pi}} \exp \left( -\frac{(x_i - \mu)^2}{2\sigma^2} \right)


따라서, 우도 함수는 다음과 같습니다:

L(μ,σX)=i=1n1σ2πexp((xiμ)22σ2)L(\mu, \sigma | X) = \prod_{i=1}^{n} \frac{1}{\sigma \sqrt{2\pi}} \exp \left( -\frac{(x_i - \mu)^2}{2\sigma^2} \right)


로그 우도 함수는:

logL(μ,σX)=i=1nlog(1σ2πexp((xiμ)22σ2))\log L(\mu, \sigma | X) = \sum_{i=1}^{n} \log \left( \frac{1}{\sigma \sqrt{2\pi}} \exp \left( -\frac{(x_i - \mu)^2}{2\sigma^2} \right) \right)


이 식을 풀면:

logL(μ,σX)=nlog(σ2π)12σ2i=1n(xiμ)2\log L(\mu, \sigma | X) = -n \log (\sigma \sqrt{2\pi}) - \frac{1}{2\sigma^2} \sum_{i=1}^{n} (x_i - \mu)^2


5. 최대화


이제 로그 우도 함수를 최대화해야 합니다. 파라미터 μ\muσ\sigma에 대해 각각 미분하여 최대화할 수 있습니다.

(1) μ\mu에 대해 미분


로그 우도 함수에서 μ\mu에 대한 부분만 보면:

μlogL(μ,σX)=1σ2i=1n(xiμ)\frac{\partial}{\partial \mu} \log L(\mu, \sigma | X) = \frac{1}{\sigma^2} \sum_{i=1}^{n} (x_i - \mu)


이 값을 0으로 두고 μ\mu를 구하면:

i=1n(xiμ)=0\sum_{i=1}^{n} (x_i - \mu) = 0


따라서, 최적의 평균 μ\mu는 데이터의 산술 평균입니다:

μ^=1ni=1nxi\hat{\mu} = \frac{1}{n} \sum_{i=1}^{n} x_i



(2) σ\sigma에 대해 미분


로그 우도 함수에서 σ\sigma에 대한 부분만 보면:

σlogL(μ,σX)=nσ+1σ3i=1n(xiμ)2\frac{\partial}{\partial \sigma} \log L(\mu, \sigma | X) = -\frac{n}{\sigma} + \frac{1}{\sigma^3} \sum_{i=1}^{n} (x_i - \mu)^2


이 값을 0으로 두고 σ\sigma를 구하면:

σ^2=1ni=1n(xiμ)2\hat{\sigma}^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i - \mu)^2


따라서, 최적의 표준편차 σ\sigma표준편차로 계산할 수 있습니다:

σ^=1ni=1n(xiμ^)2\hat{\sigma} = \sqrt{\frac{1}{n} \sum_{i=1}^{n} (x_i - \hat{\mu})^2}


6. 결론

최대 우도 추정법을 통해 정규 분포의 평균 μ\mu표준편차 σ\sigma를 다음과 같이 추정할 수 있습니다:

  • μ^=1ni=1nxi\hat{\mu} = \frac{1}{n} \sum_{i=1}^{n} x_i (데이터의 평균)
  • σ^2=1ni=1n(xiμ^)2\hat{\sigma}^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i - \hat{\mu})^2 (데이터의 분산)

이러한 추정값은 주어진 데이터에 대해 가장 가능성이 높은 모델 파라미터입니다.

profile
열심히 사는 척

0개의 댓글