잠재 변수 모델(Latent Variable Models)과 변분추론(Variational Inference)

‍한지영·2022년 3월 17일
0

1. 잠재 변수 모델(Latent Variable Models)

잠재 변수 모델(Latent Variable Models) vs 자기 회귀모델(Autoregressive Models)

  • Autoregressive Model들의 모든 random variable은 관찰될 수 있다. Tractable한 density를 가진다.

  • 반면, Latent Variable Models의 경우, 어떤 random variables는 숨겨져 있다. 즉 hidden한 상태로 두고, 실제로 여기에 접근하기 위해 별다른 노력을 하지 않는다. Intractable한 density를 가진다.(z를 정확히 파악하지 않는 상태에서 학습)


잠재 변수 모델은 왜 필요한가?

Embedding? 모델이 input으로 들어온 것 간의 상관관계를 조금 더 잘 알 수 있다던가 등 낮은 차원의 representation이 필요하기 때문에 embedding을 했었다.

이처럼,

  • 데이터에서 간단하고 낮은 차원의 representation이 종종 더 필요하기 때문에
    - LVM은 latent representation(hidden)을 자동으로 식별할 수 있는 모델

  • AR은 sampling이 느리다. (전후 time의 결과에 prediction이 의존적 -> sequential 한 연산 필요 -> sampling 느림)
    - LVM은 통계적인 패턴을 활용하여 빠른 샘플링이 가능

  • 일부 잠재 변수 값을 독립적으로 conditional하게 넣어, observation space을 바꾸고 생성되는 값을 변경할 수 있다.
    - latent space z에서 x'를 생성한다고 했을 때, 일부 latent variable을 바꿔주면서 observation space를 바꾸고 x''를 생성할 수도 있음.

등의 이유로 잠재 변수 모델이 활용된다.

+) 추가 정보_LVM

  • AR model처럼, latent variable Model도 시간의 흐름을 이해하여 데이터 생성도 가능
  • 일반적으로 LVM은 unsupervised 모델

잠재변수모델의 조건

  • p(x)의 효율적인 컴퓨팅
  • p(z), p(x|z)를 O(1)으로 빠르게 얻는 것

-> Bayes' Rule
p(x) = p(x|z)p(z)/p(z|x)
p(x) = likelihood x prior / posterior
-> posterior 분포를 구하면 p(x)를 구할 수 있음
-> posterior 분포를 구하기 어렵기 때문에, Variational Inference!(변분 추론)


2. 변분추론(Variational Inference)

  • 목표: posterior distribution의 획득(p(z|x))
  • 변분추론이란? 사후확률 분포를 구하는게 어렵기 때문에, p모델(생성 모델) 외에 이를 근사하는 q모델(q(z))을 만들어 variational distribution로 posterior(p(z|x))를 근사하자는 것.
  • 이는 곧, 2개의 분포, 즉 q(z)와 p(z|x) 사이의 거리를 줄여 최적화하는 문제
    - KL Divergence 사용

KL Divergence

  • 두 확률분포의 다른 정도를 나타내는 척도
  • Cross entrophy에서 entrophy 값을 빼서 Relative entrophy라고도 함.
  • KL Divergence의 성질
    1. 교환법칙이 성립하지 않는다.
    1. 0이 되는 시점 : q 분포와 p 분포가 동일할 때
      3 KL divergence는 0과 같거나 크다.
  • 즉, q(z)로 true posterior p(z|x)를 근사하는 문제는, 2개의 분포의 거리를 줄여 최적화하는 문제와 같다.

Reference
패스트캠퍼스 강의(한번에끝내는딥러닝/인공지능초격차패키지Online)

profile
NLP 전공 잡식성 문헌정보 석사생

0개의 댓글