FSA.log
로그인
FSA.log
로그인
[CoCa] dual encoder for visual Foundation model
FSA
·
2024년 3월 1일
팔로우
0
0
딥러닝 기초
목록 보기
30/44
CLIP(
http://proceedings.mlr.press/v139/radford21a/radford21a.pdf
), ALIGN, Florence 논문들
해당 모델들은 image encoder와 text encoder가 있고, web에서 수집한 거대 image-text 데이터셋(noisy한 이미지-텍스트 설명을 활용)을 사용해 image feature, text feature를 뽑아냄
학습 가능한 텍스트 타워를 도입하여 자유 형식 텍스트를 인코딩
이미지와 쌍을 이루는 텍스트를, 샘플 배치의 다른 텍스트와 대조하여 공동으로 최적화
그리고 같은 pair의 image feature와 text feature를 최대한 유사하게 만드는 방식으로 모델을 학습
여기서 xi와 yj는 i번째 쌍에 있는 이미지와 j번째 쌍에 있는 텍스트의 정규화된 임베딩
N 은 배치 크기
이렇게 되면 image feature와 text feature는 embedding space를 공유
이러한 특징을 통해 image-text retrieval(
https://velog.io/@hsbc/이미지-도메인-task-정리
), zero-shot image classification이 가능해집니다. (crossmodal alignment 능력)
이미지 latent vector와 가까운 거리에 있는 text latent vector을 찾아, 그 text로 분류한다.
단점
이러한 모델은 융합된 이미지와 텍스트 표현을 학습하기 위한 공동 구성 요소가 없기 때문에,
visual question answering (VQA) (
https://velog.io/@hsbc/이미지-도메인-task-정리
)과 같은 비전-언어 공동 이해 task에 직접 적용할 수 없다.
multi-modal input task에 적용하기 어렵다.
FSA
모든 의사 결정 과정을 지나칠 정도로 모두 기록하고, 나중에 스스로 피드백 하는 것
팔로우
이전 포스트
이미지 도메인 task 정리
다음 포스트
[CoCa] Encoder-Decoder for visual Foundation model
0개의 댓글
댓글 작성
관련 채용 정보
화해(버드뷰)
Frontend Developer
화해 프론트엔드팀은 웹과 B2B 서비스 등을 개발하며, 사용자 경험을 최우선으로 생각하는 팀입니다. JavaScript, React 및 문제 해결 능력을 요구하며, 하이브리드 근무제와 무한 자율휴가 등으로 개발자 친화적인 환경을 제공합니다.
카카오뱅크(kakaobank)
웹 프론트엔드 개발자 - 신사업
카카오뱅크 신사업팀에서 웹 프론트엔드 개발자로 혁신적인 금융 서비스를 현실로 만드는 기회를 제공합니다. JavaScript 및 React 경험을 활용해 다양한 신사업 아이템들을 개발하며, 유연근무제와 성장 지원 등 다양한 복지를 누릴 수 있습니다.
토스플레이스
Frontend Developer
토스플레이스에서 프론트엔드 개발자로 팀에 합류하여 오프라인 결제 시장의 디지털 혁신에 기여하세요. React와 TypeScript를 활용하여 매장 운영의 새로운 경험을 창출하고, 자율적인 근무 문화를 누리며 도전적인 프로젝트에 참여할 기회를 가져보세요.