[AI] EM 알고리즘 & 최대우도추정 & 베이즈 추정 개념 정리

김성윤(Jack)·2026년 1월 26일

AI

목록 보기
9/9

EM 알고리즘과 MLE/베이즈 추정은 왜 같이 등장하는가?

머신러닝/딥러닝 논문을 읽다 보면
EM 알고리즘, 최대우도추정(MLE), 베이즈 추정이 자주 같이 나온다.

겉보기엔 서로 다른 개념처럼 보이지만, 실제로는

  • MLE는 “학습 목표”
  • EM은 “그 목표를 풀기 위한 방법”
  • 베이즈는 “학습을 바라보는 더 큰 관점(불확실성 포함)”

으로 자연스럽게 연결된다.

이 글에서는

  • EM을 수식 나열이 아니라 직관적으로
  • MLE와 베이즈를 차이 중심으로
  • AI 모델 학습에서 어떻게 쓰이는지

한 흐름으로 정리한다.


1. 최대우도추정(MLE)은 무엇을 하는가?

MLE가 묻는 질문

“이 데이터가 나오게 만든 파라미터는 무엇이 가장 그럴듯한가?”

즉, 데이터가 관측됐을 때
그 데이터를 가장 높은 확률로 설명하는 파라미터를 고른다.

정의

(θ^MLE=argmaxθP(Xθ))(\hat{\theta}_{MLE} = \arg\max_\theta P(X \mid \theta))

핵심 특징

  • 파라미터 (θ)(\theta)고정된 값이라고 본다
  • 데이터 (X)(X)는 확률적으로 생성된다고 본다
  • 결과는 “분포”가 아니라 하나의 점(추정값)

2. 그런데 MLE가 어려워지는 순간이 있다

MLE는 “확률을 최대화”하면 되는데, 다음 상황에서 갑자기 어려워진다.

숨겨진 변수가 있을 때 (latent variable)

예를 들어 GMM(가우시안 혼합 모델)에서는

  • 데이터 (X)(X)는 보이지만
  • “각 데이터가 어느 군집에서 왔는지” (Z)(Z)는 안 보인다

즉, 관측되지 않은 (Z)(Z)가 있어서 우도가

(P(Xθ)=ZP(X,Zθ))(P(X \mid \theta) = \sum_Z P(X, Z \mid \theta))

처럼 숨은 경우를 전부 합쳐야 한다.

이 합 때문에 최적화가 복잡해지는 경우가 많다.


3. EM 알고리즘은 무엇을 하는가? (직관)

EM은 한 문장으로 요약하면 이거다.

“숨겨진 정답(Z)을 먼저 추정하고,
그걸 정답처럼 두고 파라미터를 다시 학습한다.”

즉,

  • 추정(E-step)
  • 학습(M-step)

을 반복하는 방식이다.


4. EM의 E-step / M-step을 감으로 이해하기

(1) E-step (Expectation)

“현재 파라미터로 볼 때,
각 데이터가 어떤 숨은 상태일 확률이 얼마지?”

예: GMM이라면

  • 이 점은 1번 군집일 확률 0.8
  • 2번 군집일 확률 0.2

같이 “소속 확률(책임도)”을 계산한다.

즉,

(P(ZX,θ))(P(Z \mid X, \theta))

를 업데이트하는 단계다.


(2) M-step (Maximization)

“방금 구한 소속 확률을 반영해서
파라미터를 다시 최적화하자!”

이 단계는 사실상

  • “지금은 Z가 어느 정도 알려진 것처럼” 보고
  • MLE처럼 파라미터를 업데이트하는 단계다.

5. EM은 결국 ‘MLE를 쉽게 풀기 위한 반복법’이다

EM의 목적은 새 목표가 아니라,

원래 하고 싶었던 MLE를
latent variable 때문에 어려웠을 때 풀어주는 방법

이다.

그리고 중요한 성질 하나:

  • EM은 반복할수록 우도(likelihood)를 떨어뜨리지 않는다
    • 항상 같거나 증가한다 (단, 전역 최적이 아닌 국소 최적에 멈출 수 있음)

6. 베이즈 추정은 MLE와 관점이 다르다

여기서부터는 “학습을 어떻게 해석하느냐”의 차이다.


7. MLE vs 베이즈 추정의 결정적 차이

MLE의 관점

파라미터 (θ)(\theta)진짜 값(고정된 값)
우리는 그걸 하나로 찍어서 맞춘다.

(argmaxθP(Xθ))(\arg\max_\theta P(X \mid \theta))


베이즈 추정의 관점

파라미터 (θ)(\theta)불확실한 확률변수로 본다.
그래서 “하나의 값”이 아니라 “분포”를 구한다.

베이즈 정리는:

(P(θX)=P(Xθ)P(θ)P(X))(P(\theta \mid X) = \frac{P(X \mid \theta)P(\theta)}{P(X)})

  • (P(θ))(P(\theta)): prior (사전분포, 사전 지식)
  • (P(θX))(P(\theta|X)): posterior (사후분포, 데이터 보고 업데이트된 믿음)

즉 베이즈는

“데이터를 보고 파라미터에 대한 믿음을 업데이트”

한다.


8. MAP는 “MLE + prior” 버전이다

베이즈 추정은 원래 결과가 (P(θX))(P(\theta|X))라는 “분포”지만,
그중 가장 가능성이 큰 점을 찍는 방법이 MAP다.

(θ^MAP=argmaxθP(θX))(\hat{\theta}_{MAP} = \arg\max_\theta P(\theta \mid X))

베이즈 정리를 대입하면

(θ^MAP=argmaxθP(Xθ)P(θ))(\hat{\theta}_{MAP} = \arg\max_\theta P(X \mid \theta)P(\theta))

로그로 보면

(argmaxθlogP(Xθ)+logP(θ))(\arg\max_\theta \log P(X \mid \theta) + \log P(\theta))

즉,

  • MLE: 데이터만 반영
  • MAP: 데이터 + 사전지식(prior) 반영

9. 베이즈 추정이 좋은 이유 (직관)

(1) 데이터가 적을 때 덜 흔들린다

MLE는 데이터가 적으면 추정이 불안정해지기 쉽다.
베이즈는 prior가 “완충재” 역할을 한다.

(2) 불확실성을 표현할 수 있다

MLE는 “정답 하나”만 주지만,
베이즈는 “가능한 파라미터의 범위”를 준다.

(3) 과적합 방지에 유리하다

prior는 파라미터가 너무 극단으로 가는 걸 막아주는 효과가 있다.


10. 베이즈 추정은 AI 모델 학습에서 어떻게 쓰이는가?

베이즈는 “그대로” 쓰이기도 하고,
“형태를 바꿔서” 딥러닝에 깊게 들어가 있다.


11. (중요) 정규화(Regularization)는 사실 MAP 해석이 가능하다

딥러닝에서 흔한 L2 정규화는

(minθlogP(Xθ)+λθ2)(\min_\theta -\log P(X \mid \theta) + \lambda \|\theta\|^2)

이 형태인데, 베이즈 관점에서는

가중치 (θ)(\theta)에 가우시안 prior를 둔 MAP 추정

으로 해석된다.

즉,

  • 정규화 = “prior를 넣는 효과”
  • 학습이 안정적이고 과적합이 줄어드는 이유를 베이즈로 설명 가능

12. 나이브 베이즈 (가장 대표적인 베이즈 모델)

분류 문제에서

(P(yx)P(xy)P(y))(P(y \mid x) \propto P(x \mid y)P(y))

형태로 계산하는 모델이다.

특히 텍스트 분류(스팸, 감성분석)에서 베이스라인으로 많이 쓰인다.


13. 베이지안 신경망(BNN): 가중치를 “값”이 아니라 “분포”로 학습

일반 신경망은 가중치 (W)(W)를 하나의 값으로 학습하지만,
베이지안 신경망은

(P(WD))(P(W \mid D))

처럼 “가중치의 사후분포”를 학습한다.

이렇게 하면

  • 예측 결과뿐 아니라
  • 모델이 얼마나 확신하는지(불확실성)

까지 얻을 수 있다.

(의료/자율주행/금융 같은 분야에서 특히 중요)


14. 변분추론(VI) / VAE는 “베이즈를 학습 가능하게 만든 방식”

정확한 베이즈 추정은 계산이 너무 어려운 경우가 많아서
근사추론이 필요하다.

대표적으로

  • Variational Inference(변분추론)
  • MCMC

같은 방식이 있고,
VAE는 변분추론을 딥러닝으로 구현한 대표 사례다.

핵심은:

“진짜 posterior를 못 구하니까,
근사 posterior를 학습한다”

이다.


15. 점추정 vs 구간추정 vs 베이즈 추정

여기서 “추정”을 조금 더 명확하게 구분하면 다음과 같다.

점추정(Point estimate)

파라미터를 “분포”가 아니라 값 하나로 찍는 것

예: (θ^)(\hat{\theta}) 같은 형태

  • 나이브 베이즈는 보통 평균/분산/카운트를 계산해서 파라미터를 구하는데, 이것도 점추정이다.
  • 딥러닝도 SGD로 가중치를 “값 하나”로 학습하면 점추정이다.

구간추정(Interval estimate)

파라미터가 있을 법한 범위(구간) 를 주는 것
예: (θ[a,b])(\theta \in [a,b])

베이즈 추정(Bayesian estimate)

파라미터 자체를 확률변수로 보고 분포를 구하는 것
예: (P(θX))(P(\theta \mid X))


16. 나이브 베이즈 vs 베이지안 신경망 핵심 차이

나이브 베이즈와 베이지안 신경망은 둘 다 “베이즈”라는 단어가 들어가지만, 실제로는 쓰임이 다르다.

나이브 베이즈

  • 보통 (P(y))(P(y)), (P(xiy))(P(x_i \mid y)) 같은 확률을 점추정으로 계산해서 모델을 만든다.
  • 이후 예측에서 베이즈 정리 형태 (P(yx)P(xy)P(y))(P(y \mid x) \propto P(x \mid y)P(y)) 를 사용한다.

베이지안 신경망(BNN)

  • 가중치 (W)(W) 자체를 “값”이 아니라 “분포”로 보고, (P(WD))(P(W \mid D)) 같은 사후분포를 학습하려는 접근이다.
  • 예측에서도 분포를 활용해 불확실성까지 반영할 수 있다.

17. 한 문장으로 정리하면

MLE는 “가장 그럴듯한 파라미터 하나를 찾는 것”,
EM은 “숨은 변수가 있을 때 MLE를 풀어주는 반복법”,
베이즈는 “파라미터도 불확실하다고 보고 분포로 업데이트하는 관점”이다.


18. 최종 요약

  • MLE: (argmaxθP(Xθ))(\arg\max_\theta P(X|\theta))
    → 데이터에 가장 잘 맞는 파라미터를 하나 찾음
  • EM: latent variable이 있을 때
    → E-step(숨은 상태 추정) + M-step(파라미터 업데이트) 반복
  • 베이즈 추정: (P(θX))(P(\theta|X))
    → 파라미터를 분포로 보고 prior로 안정화
  • MAP: MLE + prior
    → 딥러닝 정규화와 연결됨
  • AI에서 베이즈 활용:
    • 정규화(MAP 관점)
    • 나이브 베이즈
    • 베이지안 신경망(불확실성)
    • VI/VAE 같은 근사 베이지안 학습
profile
AI 공부합니다

0개의 댓글