
AI 가 이미지는 잘 본다. 그런데 이미지를 보고 말은 얼마나 잘할 수 있을까? 시각과 언어의 연결이 어떻게 이루어지는거지?
Vision 도메인에서 모델 강건성, OOD, 최적화 같은 문제를 풀어오던 저는 멀티모달이 너무 신기했습니다. 세상의 트랜드는 모델은 ‘보는 AI’에서 ‘보고 말하는 AI’로 빠르게 이동 중인데 나는 아직 잘 모르는구나. 그래서 저는 멀티모달 전환을 가장 짧은 러닝커브로 체득하게 해줄 실제 사례를 찾았고, 그중 하나로 LLaVA를 선택했습니다.
이번 분기 목표는 분명합니다. 멀티모달 연구의 토대를 쌓고, 운영 가능한 기술 스택으로 연결하기. LLaVA 리뷰를 출발점으로 삼아 관련 연구들을 연속적으로 읽고, 실전 재현과 응용까지 잇겠습니다.
앞서 말씀드리면 공부를 하면서 이것도 결국 feature space 상에서 다루면 통하는구나 이해하고나서부터 급격히 이해가 되기 시작했습니다. 이 관점에서 보신다면 여러분들께서도 멀티모달에 대한 진입 장벽을 낮추실 수 있을 것 같습니다.
트렌드의 중심: 세상은 LLM으로 재편됐고, 다음 스텝은 LLM × Vision 결합이라 생각합니다.
커리어 확장성: Vision 역량 위에 멀티모달 정렬(Alignment)과 LLM 활용을 얹고, 작은 프로토타입이라도 운영(Ops)까지 연결하면 연구·제품 모두에서 선택지가 넓어집니다.
LLaVA 로 첫 멀티모달 포스팅을 시작하는 이유는 간단하기 때문입니다. 우선 CLIP 에 대한 사전지식이 있었기에 더 쉽게 다가왔던 것 같습니다. CLIP 에 대해서는 이번 글에서 이해를 돕기 위한 정도로 다루고 자세한 포스팅은 추후 별도로 다루겠습니다.
간결 연결 설계(= 최소 연결로 짠 Vision-Language Model, VLM)
데이터 전략의 현실성
확장성과 재현성
오해 방지 한 줄: CLIP은 시각 인코더, W는 언어 임베딩 정렬기, Vicuna가 언어 생성과 추론의 주체입니다.
Alignment 의 감각
지시 튜닝 파이프라인(Instruction-tuning Pipeline)
트레이드오프 맵(Trade-off Map)
1) CLIP이 입력 이미지를 시각 특징으로 변환한다 (Z_v).
2) 선형 프로젝터 W가 그 특징을 언어 임베딩 토큰으로 투사한다 (H_v = W · Z_v).
3) Vicuna가 H_v와 사용자 지시/질문을 함께 받아 오토리그레시브로 답을 생성한다.
W (학습 대상)Z_v를 Vicuna의 단어 임베딩 차원으로 직선형(Linear) 투사하여 시각 토큰열 H_v를 만든다. 복잡한 Q-Former나 크로스어텐션 없이 가벼운 연결만 쓴다.H_v와 텍스트 지시를 받아 대화/설명/추론을 수행한다.오해 방지 한줄
CLIP은 “보는 역할”,W는 “보는 것을 언어 토큰으로 바꾸는 어댑터”, Vicuna는 “말하는/추론하는 역할”이다.
1) 이미지 X_v → CLIP → 시각 특징 Z_v
2) Z_v → W → 시각 토큰열 H_v
3) [H_v] + 사용자 프롬프트 → Vicuna
4) Vicuna가 토큰을 순차 생성하고 /EOS에서 종료
CLIP(고정) →
W로 언어공간 정렬 → Vicuna로 지시-응답 생성.
이 단순한 연결과 2단계 SFT만으로, 이미지를 근거로 대화/추론하는 멀티모달 에이전트를 만든다.
https://velog.io/@jsy7058/reviewllava1
Vision-Language Navigation(VLN)
https://arxiv.org/abs/1711.07280
https://arxiv.org/abs/2002.10638