VLM 모델 예시

상솜공방·2025년 4월 25일

비전 언어 모델

목록 보기

9/9

1. VLM 모델 예시

1.1 BEiT

1. 학습 목표

이미지 패치의 “시각 토큰”을 예측하도록 마스킹-복원 학습을 수행해 ViT에 고수준 시각 표현력을 부여한다.

2. 방법론
1. 시각 코드북 구축: Discrete VAE/VQ-GAN으로 약 8 192개 규모의 벡터 ‘코드북’을 사전학습.
2. Masked Image Modeling: 전체 패치의 40 %를 [MASK]로 가린 뒤, 각 위치의 정답 코드북 인덱스를 Cross-Entropy로 예측.
3. ViT 프리트레인: 패치→선형 투영→Transformer 인코더 구조에 MIM 헤드를 붙여 학습.
4. 다운스트림 파인튜닝: 분류·탐지 등 과제에서 사전학습된 ViT를 활용.

3. 실험 결과

ImageNet-1k 분류에서, 동일 규모의 supervised ResNet-101을 능가하는 Top-1 약 83 % 수준 성능을 달성했다.

1.2 FLAVA

1. 학습 목표

Vision, Language, Multimodal 과제를 하나의 파운데이션 모델로 모두 소화하도록 학습한다.

2. 방법론
1. 세 인코더 분리

Image Encoder (ViT-B/16, MIM 프리트레인)
Text Encoder (Transformer, MLM 프리트레인)
Multimodal Encoder (별도 ViT 블록, Late-Fusion 크로스어텐션)

네 가지 손실
- Unimodal: MIM, MLM
- Multimodal: Global Contrastive (CLIP), Masked Multimodal Modeling, Image-Text Matching
라운드-로빈 학습
- 이미지·텍스트·멀티모달 데이터 풀을 순환 샘플링하며 각 손실 최적화
2단계 파이프라인
- Stage 1: Unimodal 프리트레인 → Stage 2: Multimodal 통합학습

3. 실험 결과

30여 개 평가 벤치마크(분류·검색·캡션·VQA)에서 CLIP/ALIGN 급 성능을 보였으며, 하나의 체크포인트로 멀티태스크를 수행할 수 있음을 입증했다.

1.3 MaskVLM

1. 학습 목표

한쪽 모달만 마스킹하고 다른 모달로 복원하는 Cross-Modal Masking으로 세밀한 객체·속성 이해를 강화한다.

2. 방법론
1. ViT + Cross-Attention 백본 구성
2. 세 가지 손실

Image-Text Contrast (CLIP식)
CM-MLM (텍스트 마스킹→이미지 정보로 복원)
CM-MIM (이미지 마스킹→텍스트 정보로 복원)

랜덤 마스킹 비율
- 텍스트 15 %, 이미지 40 % 정도로 교차 학습
정보 흐름 강화
- 마스킹된 모달이 타 모달 힌트를 적극적으로 사용하도록 유도

3. 실험 결과

MS-COCO·Flickr30k 검색(R@1)·캡션에서 CLIP-L/14 대비 1–3 %p 성능 향상을 보고했다.

1.4 CoCa (Contrastive Captioners)

1. 학습 목표

이미지와 텍스트를 정렬(contrastive) 한 뒤, 이를 기반으로 자가회귀 캡션 생성을 수행해 통합적 이해·생산 역량을 강화한다.

2. 방법론
1. Unimodal Encoder–Decoder

이미지 인코더 → 이미지 임베딩
텍스트 디코더 → 텍스트 임베딩

Contrastive Loss
- InfoNCE로 이미지↔텍스트 임베딩 정렬
Multimodal Decoder
- Cross-Attention 레이어로 unimodal 표현 융합
Captioning Loss
- 생성된 캡션과 정답 캡션 간 Cross-Entropy 최적화

3. 실험 결과

COCO 캡션 평가에서 BLEU-4, CIDEr 등 주요 지표가 기존 대비 상당폭 향상되었으며, retrieval과 자가회귀 생성에서 모두 강인한 성능을 보였다.

1.5 Chameleon

1. 학습 목표

이미지 토큰과 텍스트 토큰을 초기 결합(early-fusion)해, 교차 모달 생성을 한 모델에서 완전 자가회귀 방식으로 처리한다.

2. 방법론
1. 토큰화

텍스트: BPE
이미지: VQGAN 기반 시각 토큰

Autoregressive Transformer
- 두 모달 토큰을 단일 시퀀스로 연결해 다음 토큰 예측만으로 학습
교차 생성
- 텍스트 생성 중 이미지 삽입, 이미지 생성 중 텍스트 삽입 등 멀티모달 출력 지원

3. 실험 결과

대화형 콘텐츠·인터랙티브 그래픽 제작 시, 텍스트·이미지 혼합 출력의 자연스러움·정밀도에서 우수함을 시연했다.

1.6 Frozen

1. 학습 목표

동결된 거대 LLM을 그대로 유지하면서, 소수의 prefix/adaptor 레이어만 학습해 “이미지 → 대화·질의응답” 기능을 경량화한다.

2. 방법론
1. 비전 모듈

ResNet/ViT 특징을 몇 개의 “prefix 토큰”으로 압축
또는 작은 어댑터 레이어로 LLM 입력에 삽입

LLM 완전 동결
- LLM 파라미터는 고정, 비전 모듈과 연결층만 학습
자가회귀 언어 모델링(LM) 손실
- 이미지 조건부 텍스트 생성 Cross-Entropy 최적화

3. 실험 결과

적은 학습 파라미터(수백만 개)로도 멀티모달 챗봇·QA에서 기존 대형 VLM에 필적하는 정확도·응답 품질을 달성했다.

1.7 BLIP

1. 학습 목표

이미지와 텍스트 쌍으로 고품질 캡션 생성 및 노이즈 필터링을 동시에 수행해, 멀티모달 데이터의 품질과 모델 성능을 개선한다.

2. 방법론
1. 모듈 구조

Unimodal Encoders: 이미지용 ViT/ResNet, 텍스트용 Transformer
Image-Grounded Text Encoder: 이미지 임베딩을 텍스트 인코더에 결합
Image-Grounded Text Decoder: 최종 캡션 생성용 자가회귀 디코더

세 가지 손실 결합
- ITC (Image-Text Contrastive): 이미지↔텍스트 임베딩을 InfoNCE로 정렬
- ITM (Image-Text Matching): 매칭/비매칭 쌍 이진 분류
- LM (Language Modeling): 이미지 조건부 캡션 자가회귀 생성
CapFilt (Captioning + Filtering)
- 모델이 생성한 합성 캡션으로 원시 웹 캡션의 노이즈를 필터링
- 필터링된 대규모 데이터로 재학습해 품질 및 견고성 강화

3. 실험 결과

CapFilt 적용 시, TR(검색), IR(캡션), BLEU-4 지표가 모두 향상
데이터 규모(14M→129M) 및 백본 크기(ViT-B/16→ViT-L/16)에 따라 성능 선형 확장 확인

1.8 BLIP-2

1. 학습 목표

Frozen LLM + Frozen Vision Encoder 환경에서, 경량 Q-Former 만 학습해 효율적으로 멀티모달 생성·이해 능력을 제공한다.

2. 방법론
1. Stage 1: Representation Learning

Q-Former: 소수의 learnable query 토큰이, Frozen 비전 인코더 출력에서 텍스트 친화적 특징을 추출

Stage 2: Generative Learning
- Q-Former 출력과 Frozen LLM(GPT-style)을 연결
- 이미지→텍스트 자가회귀 LM 손실로 미세 조정
모듈 동결
- 비전 인코더(NF-ResNet/ViT)와 LLM 파라미터는 고정하여 계산 효율과 망각 감소

3. 실험 결과

Zero-shot 멀티모달 챗봇 구현에 성공, VQA 및 이미지 캡션에서 SOTA급 성능
두 스테이지만으로 학습 비용·메모리 사용량 크게 절감

1.9 MiniGPT-4

1. 학습 목표

소수의 파라미터(선형 투영층)만 학습해, “이미지 + 자연어 지시 → GPT-4 급 멀티모달 대화” 기능을 오픈소스 LLM/VLM으로 재현한다.

2. 방법론
1. 비전→언어 브릿지

ViT + BLIP-2 Q-Former 출력 → Vicuna(LLM)에 Prefix로 삽입

두 단계 훈련
- (1) 500K 이미지-텍스트 쌍으로 Prefix Projection만 학습
- (2) GPT-4가 생성한 5K 고품질 시각 대화 데이터로 Instruction Tuning

3. 실험 결과

Multimodal 챗봇으로서, 오리지널 GPT-4 대비 유사한 수준의 응답 품질과 지시 이해력 달성
학습 파라미터 0.1 % 미만으로도 강력한 멀티모달 대화 가능

1.10 LLaVA (Large Language and Vision Assistant)

1. 학습 목표

“이미지 기반 지시문(Instruction) → 자연어 답변” 형식의 Visual Instruction Tuning으로, 멀티모달 대화·QA 능력을 극대화한다.

2. 방법론
1. Feature Alignment

CLIP ViT-L 특징 → Projection Layer → LLaMA/Vicuna 입력으로 매핑 (Stage 1)

Instruction Tuning
- GPT-4로 생성한 158K 이미지-질문-답변 데이터로, LLM + projection 레이어를 End-to-End Fine-tuning (Stage 2)
데이터 파이프라인
- COCO 이미지·바운딩박스·5개 캡션 → GPT-4 Prompt로 대화 예시 자동 생성 → 모델 훈련

3. 실험 결과

VQA, 이미지 대화, 텍스트 생성 등 다양한 멀티모달 과제에서 우수한 지시 수행 능력 입증
GPT-4 기반 도구 대비 학습 비용·지연(latency) 크게 저감

1.11 ViperGPT

1. 학습 목표

복잡한 시각 질의를 “코드 생성 → 실행” 형태로 분해 처리해, 명시적이고 해석 가능한 멀티스텝 추론을 가능하게 한다.

2. 방법론
1. Program Generator

GPT-3 Codex 기반 LLM이, 사용자 질문을 받아 Python 함수 호출 코드를 자동 생성

Execution Engine
- Python Interpreter 및 Vision Expert APIs(GLIP, MiDaS, BLIP-2, X-VLM 등)를 호출해 시각 연산 수행
Result Integration
- 코드 실행 결과(객체 좌표·깊이 정보 등)를 취합해 최종 텍스트·이미지 출력

3. 실험 결과

Complex reasoning 과제(객체 개수 세기, 지형 분석, 수학적 계산 등)에서 기존 엔드투엔드 모델 대비 오류율 ↓, 해석 가능성 ↑
추가 훈련 없이 다양한 비전 모듈 조합으로 확장성·유연성 확보

1.12 HuggingGPT

1. 학습 목표

ChatGPT 인터페이스를 오케스트레이터로 활용해, Hugging Face 모델 허브의 다양한 도메인별 전문가 모델들을 결합·제어함으로써, “모든 AI 태스크”를 단일 대화형 에이전트로 해결한다.

2. 방법론
1. Task Planning

ChatGPT가 사용자 질의 해석 후, 처리에 필요한 하위 모델(Segmentation, OCR, TTS 등) 시퀀스 생성

Model Invocation
- 각 하위 모델의 API를 순차·병렬 호출해 중간 결과 획득
Response Synthesis
- 모델별 출력을 통합해 최종 답변 생성 및 사용자 전달

3. 실험 결과

다양한 컴퓨터 비전·언어 과제(객체 검출·분할, 문서 OCR, 음성합성 등)에서 전용 모델 대비 경쟁력 있는 정확도 달성
ChatGPT 기반 플로우로 유지보수·업데이트가 용이하며, 추가 학습 없이도 새로운 모델 자동 조합 가능

1.13 MM-CoT (Multimodal Chain-of-Thought)

1. 학습 목표

시각·문맥 정보를 결합한 단계별 추론(rationale) 을 도입해, 복잡한 멀티모달 질문에 대한 정확한 답변 생성 능력을 향상한다.

2. 방법론
1. 두 단계 분리 학습

Stage 1 (Rationale Generation)
- 입력: 질문 텍스트 + 이미지
- 출력: 중간 추론(이유 설명) 텍스트
Stage 2 (Answer Inference)
- 입력: 질문 + 생성된 추론 + 이미지
- 출력: 최종 답변

모델 구조
- 언어 인코더: T5 계열(FLAN-T5, UnifiedQA 등)
- 비전 추출기: ViT, CLIP, DETR, ResNet-50 중 선택, 동결(frozen) 후 learnable projection 추가
- 퓨전 레이어: 단일-헤드 어텐션 및 게이트 기반 융합으로 텍스트 토큰과 이미지 패치 결합
- 디코더: Transformer 기반으로 목표 텍스트 생성
독립적 학습
- 두 단계 모델은 동일 아키텍처지만 별도 데이터·손실로 독립 학습

3. 실험 결과

VQA, 시각 지리 문제, 수학적 논리 문제 등 Complex Reasoning 벤치마크에서, 비슷 규모 CoT-LM 대비 정확도 5–10%p 향상을 보였으며, hallucination(터무니없는 답변) 감소 효과를 확인했다.

1.14 MM-ReAct (Multimodal Reasoning + Action)

1. 학습 목표

사고(Reasoning) + 행동(Action) 프레임워크를 멀티모달로 확장해, 시각 전문가 API를 호출하는 멀티스텝 추론을 구현한다.

2. 방법론
1. Prompting ChatGPT

프롬프트에 시각 전문가 사용법(in-context examples) 포함

Thought & Action 루프
- Thought: 내부 추론 문장 생성
- Action: GLIP, MiDaS, BLIP-2 등의 vision API 호출 명령 생성
- Observation: API 결과(텍스트 표준화) → 대화 히스토리에 합류
반복
- 필요한 만큼 Thought↔Action↔Observation을 반복, 최종 Answer 도출

3. 실험 결과

복잡한 시각 질의(객체 위치 식별, 논리 퍼즐)에서 End-to-End 모델 대비 정확도 15%p↑, 중간 과정 식별 가능성(해석성)도 크게 개선됨을 확인했다.

1.15 Visual Prompt Tuning (VPT)

1. 학습 목표

대형 ViT 백본을 동결한 채, 입력 이미지 패치에 소수의 learnable prompt 토큰을 추가해 다양한 시각 과제를 효율적으로 적응(finetune)한다.

2. 방법론
1. Prompt 레이어

이미지 패치를 투영하기 전, learnable vector(프롬프트)를 패치 시퀀스 앞에 삽입

동결된 백본
- ViT 전체 파라미터는 고정, prompt 토큰만 학습
과제별 파인튜닝
- 분류, 검출, 분할 등 downstream 손실로 prompt 토큰을 최적화

3. 실험 결과

ImageNet-1k 분류에서 전체 ViT 파인튜닝 대비 성능 하락 1%p 미만, 파라미터 0.1%만 업데이트하여 효율성을 입증했다.

1.16 VisionLLM

1. 학습 목표

LLM을 디코더로 활용해, “이미지 중심” 시각 과제를 언어 생성 프레임워크로 처리할 수 있게 한다.

2. 방법론
1. 단일 Transformer

입력: 이미지 패치(토큰화) + 텍스트 프롬프트 통합 시퀀스
출력: 텍스트 토큰(분류 레이블, 설명, 명령어 등)

LLM 구조
- 모든 레이어가 디코더(Self-& Cross-Attention)로 구성
- 이미지 토큰 ↔ 텍스트 토큰을 동등하게 처리

3. 실험 결과

물체 인식, 이미지 설명, 시각 명령어 생성 등 다양한 Vision-Centric 태스크에서, 기존 SOTA 시각 모델과 유사한 정확도를 달성하며 언어 인터페이스를 제공했다.

1.17 ChatGPT Asks, BLIP-2 Answers

1. 학습 목표

언어 모델(ChatGPT)이 시각 입력을 직접 처리할 수 없던 한계를, BLIP-2를 호출해 “이미지 질문 → 텍스트 답변”을 매끄럽게 연결한다.

2. 방법론
1. Pipeline 구성

ChatGPT 프롬프트에 이미지 URL 및 질문 포함
BLIP-2 API 호출로 이미지→답변 생성
ChatGPT가 BLIP-2 응답을 받아 대화형으로 사용자에게 전달

동기화
- ChatGPT 대화 상태 유지, 필요한 시점에 BLIP-2로 전달

3. 실험 결과

이미지 기반 질문응답에서, ChatGPT 단독 대비 정확도 30%p↑, 대화 맥락 유지·전달 속도도 실시간 수준으로 개선됨을 보였다.

1.18 Universal Image Restoration (CLIP-FineTuned)

1. 학습 목표

CLIP 백본을 활용해, 텍스트 지시(“노이즈 제거”, “슈퍼 해상도”)에 따라 범용 이미지 복원 작업을 수행한다.

2. 방법론
1. CLIP 인코딩

손상된 이미지와 복원 지시 텍스트를 CLIP으로 임베딩

복원 네트워크
- Vision Transformer 기반 디코더가 CLIP 특징과 지시 정보를 받아 복원된 이미지를 생성
지도 학습
- 깨끗한 원본과 복원 샘플 간 픽셀·지각 손실 혼합

3. 실험 결과

노이즈 제거·모션 블러·해상도 향상 등 5개 복원 과제에서, 기존 task-specific 모델 대비 PSNR 1–2 dB 향상 및 텍스처 보존 우수성을 확인했다.

1.19 InstructPix2Pix

1. 학습 목표

“이미지 + 텍스트 명령(instruction)” 입력만으로, 특정 스타일 변환·수정 작업을 자동 실행하는 멀티모달 이미지 편집 모델을 구현한다.

2. 방법론
1. Diffusion 기반 편집

U-Net 백본에 CLIP 임베딩을 조건으로 투입

Instruction Tuning
- 다양한 편집 명령(“밝기 높여”, “배경 파란색으로”)과 원본→타깃 이미지 쌍으로 fine-tune
Condition Augmentation
- 텍스트 지시 다양화 및 캡션 확장으로 견고성 확보

3. 실험 결과

InstructPix2Pix는 20개 편집 과제 모두에서, “무엇을 어떻게 편집할지” 명확히 반영된 결과를 생성했으며, 기존 텍스트→이미지 편집 모델 대비 사용자 선호도 80%↑를 기록했다.

상솜공방

상어 인형을 좋아하는 사람

이전 포스트

VLM 모델 예시

비전 언어 모델

1. VLM 모델 예시

1.1 BEiT

1.2 FLAVA

1.3 MaskVLM

1.4 CoCa (Contrastive Captioners)

1.5 Chameleon

1.6 Frozen

1.7 BLIP

1.8 BLIP-2

1.9 MiniGPT-4

1.10 LLaVA (Large Language and Vision Assistant)

1.11 ViperGPT

1.12 HuggingGPT

1.13 MM-CoT (Multimodal Chain-of-Thought)

1.14 MM-ReAct (Multimodal Reasoning + Action)

1.15 Visual Prompt Tuning (VPT)

1.16 VisionLLM

1.17 ChatGPT Asks, BLIP-2 Answers

1.18 Universal Image Restoration (CLIP-FineTuned)

1.19 InstructPix2Pix

ViT 기반 VLM

0개의 댓글