Vicuna text decoder
. 기본 언어 모델
(foundation language model) 성장비전과 비전-언어 문제
의 경우, 아래 3가지의 foundation 모델 후보가 탐색됨Contrastive loss
와 captioning (generative) loss
모두에 대해 end-to-end로 pre-train 가능한, 세 가지 카테고리 모두에서 도움이 된다.
글로벌한 표현을 학습하기 위한 contrastive learning
과 세분화된 영역 레벨 feature를 위한 captioning을 활용
하므로 attentional pooling
모델은 두 목적 함수에 대해 서로 다른 길이의 임베딩을 풀링하는 방법을 학습할 수 있음
다양한 task에 대한 다양한 요구 사항을 해결
할 뿐만 아니라 pooler를 자연스러운 task adapter로 도입 가능
전혀 본 적 없는 새로운 상황에 적용
할 수 있음을 의미사전 학습 중에는 관련 supervision 정보(즉, 정답 레이블이나 지시사항 등)를 볼 수 있음
사전 학습 데이터를 준비할 때, 다운스트림 작업과 관련된 "가까운 도메인"의 예제를 제외하기 위해 엄격한 중복 제거 절차를 따릅니다.
고정된 image 인코더 feature
을 사용하면서도, Pooler에는 하나의 query 토큰이 있으므로, 모든 공간적 및 시간적 토큰에 대한 pooling 계산 비용이 많이 들지 않는다.
공간 패치의 모든 토큰의 출력을 가중하는 단일 쿼리 토큰이 학습
attentional pooling
과 softmax cross-entropy loss layer
이 학습되고, image encoder은 frozen 하는 것으로 보인다.attentional pooling
과 softmax cross-entropy loss layer
이 학습되고, image encoder은 frozen 하는 것으로 보인다.attentional pooling
과 softmax cross-entropy loss layer
이 학습CoCa 인코더를 더욱 미세조정