
AI 가 이미지는 잘 본다. 그런데 이미지를 보고 말은 얼마나 잘할 수 있을까? 시각과 언어의 연결이 어떻게 이루어지는거지? Vision 과 언어를 연결하는 연구 중 큰 영향을 미친 연구인 LLaVA 를 리뷰합니다.

보고 말하는 인공지능. 멀티모달 AI 중 누구나 접근할 수 있도록 쉽게 만든 LLaVA 의 등장 배경과 관련 연구들, LLaVA 의 의의를 소개합니다. LLaVA 리뷰의 첫번째 포스트입니다.

LLaVA 의 동작 원리와 데이터 확보 방식에 대하여 리뷰하였습니다. 2 stage 로 시각정보와 언어정보를 잇는 W 학습의 1 단계와 다양한 언어를 입력하여 대화 능력을 키우는 2단계로 구성되어있습니다. 또한 데이터셋 확보 방식에 대해서도 설명합니다.

LLaVA는 시각적 지시어 튜닝을 통해 챗봇 성능 85.1%(vs GPT-4)와 ScienceQA 92.53%(SoTA)를 달성했습니다. 처음 보는 이미지도 해석하는 강력한 추론 능력을 입증했으나, 환각 현상과 미세 인식의 한계는 해결해야 할 과제로 남아있습니다.

최근 화제인 '딥시크'는 저비용, 자체 아키텍처, 오픈소스로 전 세계에 충격을 주었습니다. 이들의 멀티모달 모델 DeepSeek-VL은 기존 모델의 저해상도 한계와 언어 능력 저하 문제를 극복하고, 복잡한 문서를 이해하는 등 '실세계'에서의 유용성에 집중했습니다.

DeepSeek를 기반으로한 멀티모달 모델 DeepSeek VL 의 아키텍처와 학습 전략, 데이터에 대해서 알아봅니다.

DeepSeek-VL 의 성능과 앞으로의 방향에 대하여 소개합니다.