
VLM에서 LMM으로 변해가는 context를 대략적으로 정리해본다현재 여기 까지 읽었음 (25.12.15)

CLIP 논문에서 주 관련연구로 VirTex에 대한 언급을 많이 했음.CLIP 논문에서 주 관련 연구 중 하나로, VirTex를 많이 언급한다.그래서 VLM에 대한 이해와 background를 넓히고자 읽게 되었다.아래는 실제 CLIP 논문에서 언급한 VirTex에 대

CLIP 논문에서 이 논문(CoVIRT)을 기반으로 연구했다고 많이 언급되어, VLM에 대한 이해, background를 넓히고자 읽게 되었다.

Abstract

ConVIRT: Zhang, Yuhao, et al. "Contrastive learning of medical visual representations from paired images and text." Machine learning for healthcare co

Jia, Chao, et al. "Scaling up visual and vision-language representation learning with noisy text supervision." International conference on machine lea

Paper Info Abstract (Background) Vision-Language Pre-training (VLP)는 많은 vision-language tasks에서 성능을 향상시켜 왔다. (문제 1) 하지만, 대부분의 pre-trained models은 u

https://openreview.net/forum?id=Ee277P3AYC(제안: encoding=understanding과 decoding=generating을 동시에 수행할 수 있게 contrasitve loss와 captioning loss로 joint

Paper Info. openreview: https://openreview.net/forum?id=EbMuimAbPbs neurips proceedings: https://proceedings.neurips.cc/paper_files/paper/2022/file/9

https://arxiv.org/abs/2301.12597