
1. Intro 본 논문은 ViT가 나오기 이전에 Attention을 바탕으로 이미지 캡션을 생성하는 방법을 소개하고 있다. 기존의 방법론은 다음과 같다. 이미지에서 객체를 식별하고 이를 정의된 탬플릿에 채워넣는 방식 예: [객체]가 [장소]에 있다. > 🤦♂
1. Intro CLIP: Contrastive Language-Image Pretraining 본 논문은 이미지와 텍스트라는 서로 다른 모달리티의 데이터를 하나로 융합하여, 두 영역 간의 의미적 연관성을 효과적으로 학습하고 새로운 데이터나 개념에 대해서도 우수한 성능
Flamingo: a Visual Language Model for Few-Shot Learning 멀티모달 학습 분야에서는 Contrastive Learning 기반의 비전-언어 모델(CLIP)과 이미지 캡셔닝 및 VQA(Visual Question Answerin