VAE에서 MLE를 이용하지 않는 이유

유승한·2024년 10월 21일
0

딥러닝

목록 보기
12/15

Variational Autoencoder (VAE)가 최대우도법(MLE, Maximum Likelihood Estimation)을 직접적으로 사용하지 않는 이유는, 잠재 변수z의 존재로 인해 확률 분포pθ(x)p_\theta(x)를 계산하기가 매우 어렵기 때문입니다. 이 복잡성을 해결하기 위해 변분 추론(Variational Inference)을 사용하여 근사적인 최적화를 수행합니다. 이를 좀 더 구체적으로 설명하겠습니다.

1. 최대우도법(MLE)에서의 문제점

최대우도법(MLE)은 주어진 데이터에 대해 모델의 파라미터 θ\theta를 최적화하여 데이터를 가장 잘 설명하는 파라미터를 찾는 방법입니다. Autoencoder에서는 비교적 단순한 모델 구조로 인해 MLE를 사용해 손실을 직접 최소화할 수 있습니다.

하지만 VAE에서는 잠재 변수 z가 포함되어 있어, z를 통해 데이터를 설명하는 확률 모델이 필요합니다. 이때 잠재 변수 z는 관측되지 않으므로, 데이터 x의 우도(likelihood) pθ(x)p_\theta(x)를 계산하기 위해 잠재 변수 z를 적분해야 합니다:

pθ(x)=pθ(xz)p(z)dzp_{θ}(x)=∫p_{θ}(x∣z)p(z)dz

이 적분은 고차원의 잠재 공간에서 이루어지며, 일반적으로 계산이 매우 복잡하고 불가능에 가깝습니다. 이는 특히 고차원 데이터나 복잡한 모델에서 계산 부담이 큽니다.

2. 잠재 변수로 인해 MLE의 직접적인 사용이 어려움

  • 잠재 변수 z의 존재: z는 관측되지 않은 변수로, 각 z에 대해 모델이 생성할 수 있는 x의 가능도를 계산해야 하는데, 이 적분이 고차원일 경우 매우 복잡해집니다.
  • 우도를 계산하는 적분의 어려움: MLE는 데이터를 생성하는 확률 pθ(x)p_\theta(x)를 최대화해야 하지만, 잠재 변수 z를 포함한 확률 모델에서 이 확률을 계산하는 것은 적분을 포함하므로 직접적으로 계산하기 어렵습니다.

0개의 댓글