PR-375: MaskGIT: Masked Generative Image Transformer

YeonJu Kim·2023년 1월 19일

PR12 Season4 정리

목록 보기
4/6

Intro

  • GANs
    • 장점 : high-fidelity, sampling speed 빠름, 고품질
    • 단점 : 학습 불안정, 이미지의 다양성이 부족
  • Autoregressive
    • 장점 : explicit하게 estimation, 복잡한 분포도 학습 가능, 안정적, large scale
    • stage 1 : image compression with discretized codes
    • stage 2 : autoregressive modeling
  • AR model의 3가지 한계
    1. unidirectional context만 볼 수 있다. 세상을 인식할 때는 bidirectional로 이해함
    2. long sequence를 modeling, computational cost 높다
    3. computational cost가 sequence length에 비례하게 증가

      bidirection도 고려하면서 generation 할 수 있다.

Method

  • 마스크 된 곳의 code 추론함
  • Sequence of Binary mask : mask를 바꿔가며 추론하게 돼서 mask가 계속 변해야 한다.
  • Mask Scheduling function : 마스크 되는 비율에 대한 함수, 점점 마스킹되는 비율을 줄여가면서 이미지를 만들게 됨.
    • less-to-more(concave)가 낫다.
  • 사용법
    • 처음에는 다 마스킹
    • 마스킹 한 것을 추론 시작
    • confidence 계산, confidence으로 sort해서 낮은 것부터 일정 비율 마스킹
    • 위 두 step 반복
  • 결과
    • 다양하고, high quality
    • image editing
      • mask를 씌워서 class를 condition으로 줄 수 있음
    • mask scheduling function : less-to-more(concave)가 낫다.
    • iteration 적절히 하는 것이 좋다.
      • 너무 많이 하면, 너무 confidence한것만 뽑아서 이미지가 단순해진다.
    • 10%만 토큰을 줘도 잘 한다.
  • conclusion
    • image synthesis, bidirectional transformer decoder
    • decoding process를 8번 정도만 하면, 이미지 generate 할 수 있다. 샘플링 속도 빠르다.

bidirecitonal transformer decoder
codebook 이용하고, masking 비율을 100%에서 0%로 줄여가면서 generate

profile
2023년 기록, 2023년 계획 : 연구, 블로그, 컨트리뷰션

0개의 댓글