
https://arxiv.org/abs/2103.00020이 논문은 2021년에 OpenAI로부터 발표된 Multi Modal 관련 논문이다. 앞으로 이 벨로그에서는 Multi Modal의 초기 모델부터 최신 모델까지 리뷰와 스크래치 구현을 할 예정이다. Ab

https://arxiv.org/abs/2102.059182021년 Google AI에서 발표한 논문이다. Abstract NLP에서는 사람이 직접 주석을 달지 않은 텍스트 데이터를 사용하여 학습하는 방식으로 전환되고 있지만, Vision 학습이나 Vision

2022년 1월에 공개한 논문이다. Abstract Vision-Language Pre-training (VLP) 방법론에 관한 내용을 다룬다. 기존 모델들은 Understanding-based Task나 Generation-based Task 중 하나에만 뛰어난 경우

https://llava-vl.github.io/2023년 7월에 컬럼비아 및 여러 대학교에서 연구한 VLP에 관한 논문이다.이 논문을 읽게 된 계기는 기존 논문들(CLIP, BLIP, Align 등)은 학습 시 데이터셋의 형식이 단순한 Image-Text p