시리즈

Multimodal

1.[Multimodal #1] ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks (NeurIPS, 2019)

인용이 무려 1913회! ㅇ_ㅇ Summary Introduction Approach Preliminaries: Bidirectional Encoder Representations from Transformers (BERT) Text Representation Tr

2023년 1월 29일

2.[Multimodal #2] Found in Translation: Learning Robust Joint Representations by Cyclic Translations between Modalities (AAAI, 19)

Paper: https://ojs.aaai.org/index.php/AAAI/article/view/4666 > Github: https://github.com/hainow/MCTN # Introduction # Related Work # Proposed Appro

2023년 2월 22일

3.[Vision] DDIM: Denoising Diffusion Implicit Models (ICLR, 2021)

paper: https://arxiv.org/pdf/2010.02502.pdfbackgroundgenerative modeldiffusion model1) 이미지가 주어지면 노이지를 줄여가는 diffusion process2) noise 가지고 생성하는 sam

2023년 5월 9일