MLE, MAP

Seohyeon Park·2025년 3월 27일

MLE (Maximum Likelihood Estimation).

  1. 우도 함수

    Likelihood는 주어진 모델 파라미터 θ\theta하에서 관측된 데이터 XX가 나타날 확률을 나타낸다. 이는 확률 분포 P(Xθ)P(X|\theta)로 표현된다. 확률과 우도의 차이점은, 확률은 주어진 파라미터 하에서 특정 데이터가 나올 확률을 의미하고, 우도는 주어진 데이터 하에서 특정 파라미터가 실제로 맞을 확률을 의미한다.

    L(θX)=P(Xθ)L(\theta|X)=P(X|\theta)
  2. 목적

    MLE는 데이터들의 Likelihood 값을 최대화할 수 있는 방향으로 학습시키는 방법이다.

    θ^MLE=argmaxθP(Xθ)\hat{\theta}_{MLE}=argmax_{\theta}P(X|\theta)
  3. 예시

    주사위의 면이 각각 1~6일 때, 10번 던져서 나온 결과가 [2, 3, 2, 5, 6, 1, 4, 2, 3, 6]라면, 이 데이터를 바탕으로 주사위의 각 면이 나올 확률(θ\theta)을 추정한다

MAP(Maximum A Posteriori).

  1. 사후 확률

    사후 확률은 주어진 데이터가 관측된 후에 특정 파라미터 θ\theta가 가질 확률을 나타낸다. 이는 베이즈 정리를 통해 계산된다.

    P(θX)=P(Xθ)P(θ)P(X)P(\theta|X)=\frac{P(X|\theta)P(\theta)}{P(X)}

베이즈 정리 (Bayes’ Theorem)

P(θX)=P(Xθ)P(θ)P(X)P(\theta|X)=\frac{P(X|\theta)P(\theta)}{P(X)}
  • P(θX)P(\theta|X) : 사후 확률 (Posterior Probability) - 데이터 X가 주어졌을 때 파라미터 θ\theta의 확률
    (ex. 질병이 있을 때 테스트가 양성일 확률)
  • P(Xθ)P(X|\theta) : 우도 (Likelihood) - 파라미터 θ\theta가 주어졌을 때 데이터 X가 관측될 확률
    (ex. 질병이 있을 사전 확률)
  • P(θ)P(\theta) : 사전 확률 (Prior Probability) - 데이터가 관측되기 전 파라미터 θ\theta의 확률
    (ex. 테스트가 양성일 확률)
  • P(X)P(X) : 증거 (Evidence) - 데이터 X가 관측될 확률
    (테스트가 양성일 때 질병이 있을 사후 확률)
  1. 목적

    MAP는 Posterior를 최대화하는 방향으로 모델을 학습 시키는 방법이다. 우리는 데이터가 따르는 정확한 확률분포 P(X)P(X)를 알 수가 없고 P(θX)P(\theta|X)도 구할 수 없다. 우변 또한 P(X)P(X)가 있으므로 구할 수가 없다. 다만, P(X)P(X)는 고정된 값이고 Likelihood P(Xθ)P(X|\theta)와 Prior Probability P(θ)P(\theta)는 계산이 가능하므로 우변을 최대화 하는 파라미터 값을 구할 수 있다.

    θ^MAP=argmaxθP(θX)\hat{\theta}_{MAP}=argmax_{\theta}P(\theta|X)
  2. 예시

    주사위의 면이 각각 1~6일 때, 10번 던져서 나온 결과가 [2, 3, 2, 5, 6, 1, 4, 2, 3, 6]라면, 주사위가 공정할 확률이 높다는 사전 지식을 반영하여 각 면이 나올 확률(θ\theta)을 추정한다.

Difference.

  • MLE는 데이터만을 기반으로 추정하며, 많은 데이터가 있을 때 유리하다. 이런 특징으로 인해 이미지 분류, 음성 인식 등 대규모 데이터셋이 있는 경우에 적합하다.
  • MAP는 사전 지식을 반영하여 추정하며, 데이터가 적거나 사전 정보가 중요할 때 유리하다. 이런 특징으로 인해 베이즈 네트워크, 의료 데이터 분석 등 사전 지식이 중요한 경우에 적합하다.
profile
카페에서 한줄 한줄

0개의 댓글