https://arxiv.org/abs/2004.06165
- Visual Question Answering (VQA): 이미지와 관련된 질문에 답변하는 작업. 예: 이미지 속 개체, 색상, 행동 등을 묻는 질문에 텍스트로 답함 (예: "이 사진에 강아지가 있나요?" → "네, 강아지가 있습니다")
- Image-Text Retrieval: 이미지와 텍스트 간의 관련성을 찾아 매칭하는 작업. 예: 주어진 텍스트 설명에 맞는 이미지를 찾거나, 이미지에 맞는 텍스트를 검색 (예: "해변 일몰" → 관련 이미지 반환)
- Image Captioning: 이미지의 내용을 설명하는 텍스트를 생성하는 작업. 예: 이미지를 보고 자동으로 캡션 생성 (예: "해변에서 일몰을 바라보는 사람")
- 핵심 차이:
- VQA는 질문에 답하는 대화형 작업
- Image-Text Retrieval은 이미지와 텍스트 간 매칭
- Image Captioning은 이미지 설명 생성

위 그림은 Oscar 모델이 image-text pair를 dictionary lookup으로 semantic space에 표현하는 과정 설명
- (a) Input 예시: Image-text pair 제공
- (b) Object tag 활용: Object tag(예: "dog", "couch")를 anchor로 이미지 region과 언어 모델의 word embedding 정렬
- (c) Word semantic space 우수성: Image feature보다 word semantic space가 더 대표성을 가짐. 예: Visual feature space에서 "dog"와 "couch" 혼동, word embedding space에서는 구분

위 그림은 Oscar 모델 설명
- Image-text pair 표현: [word tokens, object tags, region features] 형태의 triple로 표현. Object tags(예: “dog”, “couch”)는 cross-domain semantics 정렬 제안. Object tags 제거 시, 기존 VLP 방법으로 축소
- 두 가지 관점:
- Modality view: Image와 text의 modality 간 관계
- Dictionary view: Dictionary lookup을 통한 semantic 정렬
- 요약: Oscar는 object tags로 image-text triple 구성, cross-domain semantics 정렬. Tags 제거 시 기존 VLP로 축소, modality 및 dictionary view로 이해 가능
Masked Token Loss (MTL):
토큰 시퀀스 는 텍스트 단어()와 객체 태그()를 합친 것으로, 둘 다 같은 언어 의미 공간을 공유
이미지 정보 : Faster R-CNN으로 추출한 region features(최대 50개의 ROI에서 얻은 시각적 특징 벡터 집합). 각 region feature는 시각적 정보(, 2048차원)와 위치 정보(, 4 또는 6차원)를 결합한 후 word embedding 차원(768 또는 1024)으로 변환
마스킹 과정: 각 token을 15% 확률로 [MASK]로 대체, 이는 BERT의 MLM과 동일한 전략:
Loss function:
BERT의 masked language model과 유사, 이미지 정보를 추가해 word embedding을 vision context에 grounding
Contrastive Loss (LC):

- 주요 결과:
- Oscar base 모델은 대부분 task에서 기존 large 모델을 큰 차이로 상회, parameter 효율성 입증
- Object tag를 anchor point로 사용하여 image-text semantic alignment 학습 용이
- Oscar는 650만 pair로 pre-training, UNITER (960만 pair) 및 LXMERT (918만 pair)보다 적은 데이터로 학습


- Intra-class: Object tag 사용 시 동일 객체의 시각적/텍스트 representation 간 거리 크게 감소 (예: person, zebra)
- Inter-class: Object tag 추가 시 관련 semantic class (예: animal, furniture, transportation)는 구분 가능하면서도 가까워짐, baseline은 혼합 (예: person/zebra, chair/couch)
- Object tag는 cross-modal feature 학습에서 anchor point로 작용, alignment 정규화에 기여

- Baseline (object tag 없는 VLP) 대비 Oscar는 Faster R-CNN으로 검출된 정확하고 다양한 object tag 활용, 더 상세한 이미지 설명 생성
- Object tag는 word embedding space에서 anchor point로 작용, text 생성 과정 가이드
Oscar의 pre-training 및 fine-tuning 설계 선택을 네 가지 대표 downstream task에서 ablation 실험, base 모델 사용
Object Tag 효과:
Attention Interaction:

- Full attention 대비 w-v partial attention 비교 시 object tag 추가가 유리
- Region feature가 object tag보다 이미지 표현에 더 유익 (w-v > v-q)
- Object tag는 feature로 사용 시 미미한 개선, anchor point로 사용 시 효과적
Pre-training에서의 Object Tag:

- Object tag 사용(Oscar_VG, Oscar_OI)은 baseline(No Tags) 대비 성능 향상
- VG tag가 OI tag보다 약간 우수, VG의 더 다양한 객체 집합 때문으로 추정
- OI는 더 높은 정밀도, VG는 객체 다양성 제공