image-text contrastive pre-training & image-to text captioning(generative) pre-training 학습을 end-to-end로 한번에 처리 가능한 모델 아키텍쳐 및 학습법을 제안함Image Encoder은 Video Action Recognition 테스크를 위해 사용될 수 있음기본 언어 모델 (foundation language model) 성장비전과 비전-언어 문제의 경우에 대해 연구해보자.Contrastive loss와 captioning (generative) loss 모두에 대해 end-to-end로 pre-train 가능한, 
세 가지 카테고리 모두에서 도움이 된다.글로벌한 표현을 학습하기 위한 contrastive learning과 세분화된 영역 레벨 feature를 위한 captioning을 활용하므로 
attentional pooling모델은 두 목적 함수에 대해 서로 다른 길이의 임베딩을 풀링하는 방법을 학습할 수 있음다양한 task에 대한 다양한 요구 사항을 해결할 뿐만 아니라 pooler를 자연스러운 task adapter로 도입 가능전혀 본 적 없는 새로운 상황에 적용할 수 있음을 의미사전 학습 중에는 관련 supervision 정보(즉, 정답 레이블이나 지시사항 등)를 볼 수 있음사전 학습 데이터를 준비할 때, 다운스트림 작업과 관련된 "가까운 도메인"의 예제를 제외하기 위해 엄격한 중복 제거 절차를 따릅니다. 고정된 image 인코더 feature을 사용하면서도, 
Pooler에는 하나의 query 토큰이 있으므로, 모든 공간적 및 시간적 토큰에 대한 pooling 계산 비용이 많이 들지 않는다.공간 패치의 모든 토큰의 출력을 가중하는 단일 쿼리 토큰이 학습 attentional pooling과 softmax cross-entropy loss layer이 학습되고, image encoder은 frozen 하는 것으로 보인다.attentional pooling과 softmax cross-entropy loss layer이 학습되고, image encoder은 frozen 하는 것으로 보인다.
attentional pooling 과 softmax cross-entropy loss layer 이 학습CoCa 인코더를 더욱 미세조정