[Generation] 생성모델과 MLE

myeongwang·2024년 2월 26일
0

가능도와 로그가능도

  • 모델 파라미터 𝜃에 의존하는 분포 p(x; 𝜃) 를 따르는 n개의 데이터 x1, x2, ..., xₙ 관찰
  • 데이터로부터 모델 파라미터 𝜃를 어떻게 추정할 수 있을까?
    가능도를 최대화하는 파라미터를 찾자!

MLE

  • 가능도를 최대화하는 파라미터 𝜃를 찾는 방법

  • 일반적으로 가능도 함수의 미분을 통해 계산

  • 동전 던지기 예제:

    • 관측치: 앞면 7번, 뒷면 3번
    • 파라미터 𝜃: 동전을 던질 때 앞면이 나올 확률
    • 확률질량함수: p(앞면; 𝜃) = 𝜃, p(뒷면; 𝜃) = 1-𝜃
    • 가능도 최대화 = 어떤 𝜃에 대해 앞면 7번, 뒷면 3번이 나올 확률이 가장 클까?

생성 모델의 학습

  • 데이터의 분포 Pdata 를 어떻게 모델링할까? = 모델 P𝜃 를 어떻게 학습할까?

    • 데이터의 분포 Pdata와 모델 P𝜃 를 가깝게 하자!

  • 생성 모델의 학습 - 쿨백-라이블러 발산 최소화

    • 두 분포 Pdata 와 P𝜃 사이의 거리 → 쿨백-라이블러 발산 (Kullback-Leibler Divergence, KL-Divergence)

    생성 모델과 최대 가능도 추정법

  • 생성 모델의 학습은 최대 가능도를 최적화하며 진행할 수 있음

  • 쿨백-라이블러 발산 (KL Divergence)은 최대 가능도 최적화에 활용 가능한 기준이 됨

  • 그러나 데이터의 정확한 분포를 알 수 없어 이 같은 작업은 바로 적용하기 어려움

profile
Real Cryptocurrency Trader & AI Engineer LV.0

0개의 댓글