Poseteriori는 사후확률이라는 뜻입니다. 가능도를 최대화하는 것이 목적이었던 MLE와 달리, MAP는 사후확률을 최대화함으로써 최빈값(mode)을 찾습니다. 이렇게 구한 최빈값이 곧 우리가 찾는 파라미터 θ^가 됩니다.
MAP를 수식으로 표현하면 다음과 같습니다.
θ^=θargmax(P(θ)P(θ∣X))
사후확률을 어떻게 구할까?
우리는 데이터의 분포 P(X)를 알고 있습니다. 따라서 사전확률(prior) P(θ)를 가정하면 베이즈 정리를 이용하여 사후확률 P(θ∣X)를 구할 수 있습니다.
P(θ∣X)=P(X)P(X∣θ)P(θ)(1)
식 (1)을 보면 우변의 분모는 별도의 파라미터를 가지지 않습니다. 즉, 데이터를 따라 고정된 상수 취급을 할 수 있습니다. 결과적으로 식 (1)은 다음과 같이 바꿔 쓸 수 있습니다.
P(θ∣X)∝P(θ)P(X∣θ)(2)
이제 식 (2)를 최대화하는 파라미터 θ를 찾으면 됩니다.
θ^=θargmaxk=1∏NP(θ)P(xk∣θ)(3)
그런데 식 (3)은 prior를 필수적으로 요구합니다. 그렇다면 prior는 어떻게 알 수 있을까요?
사전확률은 설계자가 정한다
정해진 방법은 없습니다. 사실상 모델을 설계하는 사람에 달려 있다고 봐도 됩니다. prior를 정하는 한 방법으로는 데이터 수집 과정을 참고하는 것이 있습니다. 예를 들어, 동전을 던지는 실험은 그 자체로 베르누이 시행입니다. 그러면 동전을 수백, 수천 번 던져 결과를 모은 데이터는 이항분포를 따르겠죠? 따라서 prior를 이항분포로 설정하는 것은 타당합니다.
문제는 연구/실험이나 현실 데이터의 실 분포를 정확히 알 수 없다는 데 있습니다. 즉, 주어진 데이터가 어떤 과정으로 얻어진 것인지, 그것이 타당한 방법인지 알 수 있는 방법이 없습니다. 따라서 다양한 논리와 근거를 기반으로 설계자가 직접 prior를 설정하거나, 통계적 방법론 등을 활용하여 prior를 보정해야 합니다.
활용 예시
MLE 때와 마찬가지로 정규분포를 사용하여 파라미터를 추정해 보겠습니다. 정규분포의 분산과 평균은 다음과 같습니다.