시리즈

Paper Review

1.ViT: An Image Is Worth 16X16 Words: Transformaers for Image Recognition at Scale

(1) 입력 이미지를 패치 단위로 분할(2) 패치의 embedding을 생성함(3) 얻은 embedding 시퀀스를 Transformer의 입력으로 넣어줌→ 이미지 패치를 NLP의 토큰처럼 처리하는 것기존 Transformer는 1D 토큰 임베딩 시퀀스를 입력으로 받음

2026년 4월 19일

2.CLIP: Learning Transferable Visual Models From Natural Language Supervision

NLP 분야에서 raw text로부터 pre-training 하는 방법이 큰 발전을 가지고 옴더하여, text-to-text 인터페이스의 개발은 범용성을 확보하며, 특정 downstream dataset에 대한 zero-shot이 가능하고, 특화된 crowd-label

2026년 4월 19일

3.BLIP: Bootstrapped Language-Image Pre-training for Unified Vision-Language Understanding and Generation

Background 기존 방법의 한계 (1) Model perspective: 기존 방법: encoder-based model 혹은 encoder-decoder를 사용함 한계점: 하지만, encoder-based model의 경우 text generation에 곧

2026년 4월 19일

4.BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models

Vision-Language Pre-training(VLP) 연구에서는 모델의 사이즈를 키우면서 성능을 올려왔음하지만, 이는 pre-train 과정에서 방대한 양의 computational cost를 요구함large-scale model과 많은 양의 데이터셋을 사용VL

2026년 4월 19일