Align before Fuse: Vision and Language Representation Learning with Momentum Distillation

임형빈·2024년 7월 24일
0

PaperReview

목록 보기
12/12

Abstract

큰 규모의 vision, language representation learning이 발전되어 옴.
대부분의 기존 연구는 트랜스포머 기반의 멀티몯라 인코더를 visual, word token에 대해 공동으로 학습함.
하지만 visual token과 word token이 align되지 않아서 멀티모달 인코더가 이미지 텍스트의 상호작용을 학습하는데 어려움이 있을 때가 있었음.

fusing하기 전, contrastive loss를 도입해 이미지와 텍스트 representation을 align하는 ALBEF를 연구함.
bbox나 annotation, 고해상도 이미지가 필요하지 않음.
노이즈가 많은 웹 데이터에서 학습 개선을 위해 momentum distillation을 제안함.
Momentum model에서 pseudo-target을 생성해 self training하는 메소드임.

Introduction

Vision-Language Pre training(VLP)은 하위 작업인 Vision-Language(V+L) 작업을 개선할 수 있는 대규모 이미지-텍스트 쌍에서 멀티모달 representation을 학습하는 것을 목표로 함.
기존의 대부분 VLP 방법론은 사전 학습된 object detectors로 region based image features를 추출하고 멀티모달 인코더를 적용해 word token과 image feature를 fuse(융합)함
멀티모달 인코더는 MLM이나 image text matching같은 테스크의 이미지와 텍스트를 동시에 이해할 수 있는 task를 풀기위해 학습됨.

하지만 단점이 있음.
1. 이미지 피쳐와 word token은 그들만의 space에 있기 때문에 멀티모달 인코더가 그들의 interaction을 학습하기 힘듬.
2. Object detector는 사전 학습에 bbox annotation을 필요로하고 인퍼런스에 고해상도 이미지가 필요하기 때문에 annotation expensive하고 compute expensive함
3. 기존에 널리 사용되던 Image text 데이터는 웹에서 수집되고 noisy함. 그리고 MLM 같은 기존의 사전학습된 objective는 noisy한 텍스트에 과적합 되어 있을 것이고 일반화 성능을 감소시키는 원인임.

ALBEF는 이러한 한계를 극복할 수 있는 VLP 프레임 워크임.
Detector free image encoder와 text encoder를 사용해 이미지와 텍스트를 각각 인코딩함.
그 다음 멀티모달 인코더를 사용해 cross modal attention을 통해 이미지 feature와 text feature를 fuse함.
Unimodal encoder의 representation의 loss를 계산할 때 intermediate(중간의) image text contrastive loss를 사용함.
이는 아래 3가지 이유로 사용됨.
1. 이미지 피쳐와 텍스트 피쳐를 align(정렬)해서 멀티모달 인코더가 cross modal 학습을 더 잘 수행하게 함.
2. Unimodal 인코더가 이미지와 텍스트의 semantic한 의미를 더 잘 이해하게 해줌.
3. 이미지와 텍스트를 임베딩하기 위한 common low dimensional 공간을 학습함. 이는 저자들의 contrastive hard negative mining을 통해 이미지 텍스트 매칭 학습이 더 정보있는 샘플들을 잘 찾게 해줌.

noisy한 지도학습을 개선하기 위해 Momentum Distillation (MoD)를 도입함.
모델이 큐레이션 되지 않은 웹 데이터를 활용할 수 있게 해줌.
학습 중에, 파라미터의 이동 평균을 취함으로써 모델의 momentum 버전을 유지함.
그리고 추가적인 지도학습으로써 pseudo target을 momentum model이 생성함.
MoD를 사용하면 web annotation과 다른 reasonable한 아웃풋을 생성하는데에 패널티를 받지 않음.
MoD는 사전 학습을 개선할 뿐 아니라 annotation이 깨끗한 하위 테스크에서도 좋음.

ALBEF는 상호(mutual) information maximization 관점에서도 이론적인 정당성을 가짐.
ITC와 MLM (intermediate image text contrastive loss, masked language model)이 저자들은 이미지 텍스트 쌍의 다른 뷰( 각각의 쌍에서 부분적인 정보를 취해 만들어진)에서 mutual information 에서의 lower bound를 최대화하는 것을 증명함.
이 관점에서 MoD는 의미적으로 유사한 샘플들에서의 새로운 뷰를 생성하는 것으로 해석될 수 있음.
따라서 ALBEF는 의미 보존 변환에서의 불변성을 가지는 vision language representation을 학습한다고 볼 수 있음.

Vision-Language Representation Learning
두 카테고리로 나뉜다.
1. 트랜스포머 기반의 멀티모달 인코더와 이미지, 텍스트 피쳐의 상관관계를 모델링하는데 초점을 두는 방법
우수하지만, high-resolution input images and pre-trained object detectors가 필요 함.
2. 이미지와 텍스트 피쳐에 대해 unimodal 인코더를 사용하는 방법
contrastive loss로 노이지한 웹 데이터에 대해 수행 가능하다.

ALBEF는 두개 합침.
Unimodal, multimodal representation 모두 사용.
또한 많은 연산량을 요구하는 object detector가 필요 없음.

Knowledge Distillation
Teacher model의 지식을 distillation 함으로써 student model의 성능 향상

profile
Wannabe AI Engineer

0개의 댓글

관련 채용 정보