MLE, MAP

Seohyeon Park·2025년 3월 27일

MLE (Maximum Likelihood Estimation).

우도 함수

Likelihood는 주어진 모델 파라미터 $\theta$ 하에서 관측된 데이터 $X$ 가 나타날 확률을 나타낸다. 이는 확률 분포 $P(X|\theta)$ 로 표현된다. 확률과 우도의 차이점은, 확률은 주어진 파라미터 하에서 특정 데이터가 나올 확률을 의미하고, 우도는 주어진 데이터 하에서 특정 파라미터가 실제로 맞을 확률을 의미한다.
$L(\theta|X)=P(X|\theta)$
목적

MLE는 데이터들의 Likelihood 값을 최대화할 수 있는 방향으로 학습시키는 방법이다.
$\hat{\theta}_{MLE}=argmax_{\theta}P(X|\theta)$
예시

주사위의 면이 각각 1~6일 때, 10번 던져서 나온 결과가 [2, 3, 2, 5, 6, 1, 4, 2, 3, 6]라면, 이 데이터를 바탕으로 주사위의 각 면이 나올 확률( $\theta$ )을 추정한다

MAP(Maximum A Posteriori).

사후 확률

사후 확률은 주어진 데이터가 관측된 후에 특정 파라미터 $\theta$ 가 가질 확률을 나타낸다. 이는 베이즈 정리를 통해 계산된다.
$P(\theta|X)=\frac{P(X|\theta)P(\theta)}{P(X)}$

베이즈 정리 (Bayes’ Theorem)
$P(\theta|X)=\frac{P(X|\theta)P(\theta)}{P(X)}$

$P(\theta|X)$ : 사후 확률 (Posterior Probability) - 데이터 X가 주어졌을 때 파라미터 $\theta$ 의 확률
(ex. 질병이 있을 때 테스트가 양성일 확률)

$P(X|\theta)$ : 우도 (Likelihood) - 파라미터 $\theta$ 가 주어졌을 때 데이터 X가 관측될 확률
(ex. 질병이 있을 사전 확률)

$P(\theta)$ : 사전 확률 (Prior Probability) - 데이터가 관측되기 전 파라미터 $\theta$ 의 확률
(ex. 테스트가 양성일 확률)

$P(X)$ : 증거 (Evidence) - 데이터 X가 관측될 확률
(테스트가 양성일 때 질병이 있을 사후 확률)

목적

MAP는 Posterior를 최대화하는 방향으로 모델을 학습 시키는 방법이다. 우리는 데이터가 따르는 정확한 확률분포 $P(X)$ 를 알 수가 없고 $P(\theta|X)$ 도 구할 수 없다. 우변 또한 $P(X)$ 가 있으므로 구할 수가 없다. 다만, $P(X)$ 는 고정된 값이고 Likelihood $P(X|\theta)$ 와 Prior Probability $P(\theta)$ 는 계산이 가능하므로 우변을 최대화 하는 파라미터 값을 구할 수 있다.
$\hat{\theta}_{MAP}=argmax_{\theta}P(\theta|X)$
예시

주사위의 면이 각각 1~6일 때, 10번 던져서 나온 결과가 [2, 3, 2, 5, 6, 1, 4, 2, 3, 6]라면, 주사위가 공정할 확률이 높다는 사전 지식을 반영하여 각 면이 나올 확률( $\theta$ )을 추정한다.

Difference.

MLE는 데이터만을 기반으로 추정하며, 많은 데이터가 있을 때 유리하다. 이런 특징으로 인해 이미지 분류, 음성 인식 등 대규모 데이터셋이 있는 경우에 적합하다.
MAP는 사전 지식을 반영하여 추정하며, 데이터가 적거나 사전 정보가 중요할 때 유리하다. 이런 특징으로 인해 베이즈 네트워크, 의료 데이터 분석 등 사전 지식이 중요한 경우에 적합하다.

Seohyeon Park

카페에서 한줄 한줄

이전 포스트

Attention Mechanism

다음 포스트

MLE, MAP

MLE (Maximum Likelihood Estimation).

MAP(Maximum A Posteriori).

Difference.

Attention Mechanism

Markov Chain

0개의 댓글