
(1) 입력 이미지를 패치 단위로 분할(2) 패치의 embedding을 생성함(3) 얻은 embedding 시퀀스를 Transformer의 입력으로 넣어줌→ 이미지 패치를 NLP의 토큰처럼 처리하는 것기존 Transformer는 1D 토큰 임베딩 시퀀스를 입력으로 받음

NLP 분야에서 raw text로부터 pre-training 하는 방법이 큰 발전을 가지고 옴더하여, text-to-text 인터페이스의 개발은 범용성을 확보하며, 특정 downstream dataset에 대한 zero-shot이 가능하고, 특화된 crowd-label

Background 기존 방법의 한계 (1) Model perspective: 기존 방법: encoder-based model 혹은 encoder-decoder를 사용함 한계점: 하지만, encoder-based model의 경우 text generation에 곧

Vision-Language Pre-training(VLP) 연구에서는 모델의 사이즈를 키우면서 성능을 올려왔음하지만, 이는 pre-train 과정에서 방대한 양의 computational cost를 요구함large-scale model과 많은 양의 데이터셋을 사용VL