VLM 모델 예시

상솜공방·2025년 4월 25일

비전 언어 모델

목록 보기
9/9

1. VLM 모델 예시

1.1 BEiT

1. 학습 목표

  • 이미지 패치의 “시각 토큰”을 예측하도록 마스킹-복원 학습을 수행해 ViT에 고수준 시각 표현력을 부여한다.

2. 방법론
1. 시각 코드북 구축: Discrete VAE/VQ-GAN으로 약 8 192개 규모의 벡터 ‘코드북’을 사전학습.
2. Masked Image Modeling: 전체 패치의 40 %를 [MASK]로 가린 뒤, 각 위치의 정답 코드북 인덱스를 Cross-Entropy로 예측.
3. ViT 프리트레인: 패치→선형 투영→Transformer 인코더 구조에 MIM 헤드를 붙여 학습.
4. 다운스트림 파인튜닝: 분류·탐지 등 과제에서 사전학습된 ViT를 활용.

3. 실험 결과

  • ImageNet-1k 분류에서, 동일 규모의 supervised ResNet-101을 능가하는 Top-1 약 83 % 수준 성능을 달성했다.

1.2 FLAVA

1. 학습 목표

  • Vision, Language, Multimodal 과제를 하나의 파운데이션 모델로 모두 소화하도록 학습한다.

2. 방법론
1. 세 인코더 분리

  • Image Encoder (ViT-B/16, MIM 프리트레인)
  • Text Encoder (Transformer, MLM 프리트레인)
  • Multimodal Encoder (별도 ViT 블록, Late-Fusion 크로스어텐션)
  1. 네 가지 손실
    • Unimodal: MIM, MLM
    • Multimodal: Global Contrastive (CLIP), Masked Multimodal Modeling, Image-Text Matching
  2. 라운드-로빈 학습
    • 이미지·텍스트·멀티모달 데이터 풀을 순환 샘플링하며 각 손실 최적화
  3. 2단계 파이프라인
    • Stage 1: Unimodal 프리트레인 → Stage 2: Multimodal 통합학습

3. 실험 결과

  • 30여 개 평가 벤치마크(분류·검색·캡션·VQA)에서 CLIP/ALIGN 급 성능을 보였으며, 하나의 체크포인트로 멀티태스크를 수행할 수 있음을 입증했다.

1.3 MaskVLM

1. 학습 목표

  • 한쪽 모달만 마스킹하고 다른 모달로 복원하는 Cross-Modal Masking으로 세밀한 객체·속성 이해를 강화한다.

2. 방법론
1. ViT + Cross-Attention 백본 구성
2. 세 가지 손실

  • Image-Text Contrast (CLIP식)
  • CM-MLM (텍스트 마스킹→이미지 정보로 복원)
  • CM-MIM (이미지 마스킹→텍스트 정보로 복원)
  1. 랜덤 마스킹 비율
    • 텍스트 15 %, 이미지 40 % 정도로 교차 학습
  2. 정보 흐름 강화
    • 마스킹된 모달이 타 모달 힌트를 적극적으로 사용하도록 유도

3. 실험 결과

  • MS-COCO·Flickr30k 검색(R@1)·캡션에서 CLIP-L/14 대비 1–3 %p 성능 향상을 보고했다.

1.4 CoCa (Contrastive Captioners)

1. 학습 목표

  • 이미지와 텍스트를 정렬(contrastive) 한 뒤, 이를 기반으로 자가회귀 캡션 생성을 수행해 통합적 이해·생산 역량을 강화한다.

2. 방법론
1. Unimodal Encoder–Decoder

  • 이미지 인코더 → 이미지 임베딩
  • 텍스트 디코더 → 텍스트 임베딩
  1. Contrastive Loss
    • InfoNCE로 이미지↔텍스트 임베딩 정렬
  2. Multimodal Decoder
    • Cross-Attention 레이어로 unimodal 표현 융합
  3. Captioning Loss
    • 생성된 캡션과 정답 캡션 간 Cross-Entropy 최적화

3. 실험 결과

  • COCO 캡션 평가에서 BLEU-4, CIDEr 등 주요 지표가 기존 대비 상당폭 향상되었으며, retrieval과 자가회귀 생성에서 모두 강인한 성능을 보였다.

1.5 Chameleon

1. 학습 목표

  • 이미지 토큰과 텍스트 토큰을 초기 결합(early-fusion)해, 교차 모달 생성을 한 모델에서 완전 자가회귀 방식으로 처리한다.

2. 방법론
1. 토큰화

  • 텍스트: BPE
  • 이미지: VQGAN 기반 시각 토큰
  1. Autoregressive Transformer
    • 두 모달 토큰을 단일 시퀀스로 연결해 다음 토큰 예측만으로 학습
  2. 교차 생성
    • 텍스트 생성 중 이미지 삽입, 이미지 생성 중 텍스트 삽입 등 멀티모달 출력 지원

3. 실험 결과

  • 대화형 콘텐츠·인터랙티브 그래픽 제작 시, 텍스트·이미지 혼합 출력의 자연스러움·정밀도에서 우수함을 시연했다.

1.6 Frozen

1. 학습 목표

  • 동결된 거대 LLM을 그대로 유지하면서, 소수의 prefix/adaptor 레이어만 학습해 “이미지 → 대화·질의응답” 기능을 경량화한다.

2. 방법론
1. 비전 모듈

  • ResNet/ViT 특징을 몇 개의 “prefix 토큰”으로 압축
  • 또는 작은 어댑터 레이어로 LLM 입력에 삽입
  1. LLM 완전 동결
    • LLM 파라미터는 고정, 비전 모듈과 연결층만 학습
  2. 자가회귀 언어 모델링(LM) 손실
    • 이미지 조건부 텍스트 생성 Cross-Entropy 최적화

3. 실험 결과

  • 적은 학습 파라미터(수백만 개)로도 멀티모달 챗봇·QA에서 기존 대형 VLM에 필적하는 정확도·응답 품질을 달성했다.

1.7 BLIP

1. 학습 목표

  • 이미지와 텍스트 쌍으로 고품질 캡션 생성노이즈 필터링을 동시에 수행해, 멀티모달 데이터의 품질과 모델 성능을 개선한다.

2. 방법론
1. 모듈 구조

  • Unimodal Encoders: 이미지용 ViT/ResNet, 텍스트용 Transformer
  • Image-Grounded Text Encoder: 이미지 임베딩을 텍스트 인코더에 결합
  • Image-Grounded Text Decoder: 최종 캡션 생성용 자가회귀 디코더
  1. 세 가지 손실 결합
    • ITC (Image-Text Contrastive): 이미지↔텍스트 임베딩을 InfoNCE로 정렬
    • ITM (Image-Text Matching): 매칭/비매칭 쌍 이진 분류
    • LM (Language Modeling): 이미지 조건부 캡션 자가회귀 생성
  2. CapFilt (Captioning + Filtering)
    • 모델이 생성한 합성 캡션으로 원시 웹 캡션의 노이즈를 필터링
    • 필터링된 대규모 데이터로 재학습해 품질 및 견고성 강화

3. 실험 결과

  • CapFilt 적용 시, TR(검색), IR(캡션), BLEU-4 지표가 모두 향상
  • 데이터 규모(14M→129M) 및 백본 크기(ViT-B/16→ViT-L/16)에 따라 성능 선형 확장 확인

1.8 BLIP-2

1. 학습 목표

  • Frozen LLM + Frozen Vision Encoder 환경에서, 경량 Q-Former 만 학습해 효율적으로 멀티모달 생성·이해 능력을 제공한다.

2. 방법론
1. Stage 1: Representation Learning

  • Q-Former: 소수의 learnable query 토큰이, Frozen 비전 인코더 출력에서 텍스트 친화적 특징을 추출
  1. Stage 2: Generative Learning
    • Q-Former 출력과 Frozen LLM(GPT-style)을 연결
    • 이미지→텍스트 자가회귀 LM 손실로 미세 조정
  2. 모듈 동결
    • 비전 인코더(NF-ResNet/ViT)와 LLM 파라미터는 고정하여 계산 효율과 망각 감소

3. 실험 결과

  • Zero-shot 멀티모달 챗봇 구현에 성공, VQA 및 이미지 캡션에서 SOTA급 성능
  • 두 스테이지만으로 학습 비용·메모리 사용량 크게 절감

1.9 MiniGPT-4

1. 학습 목표

  • 소수의 파라미터(선형 투영층)만 학습해, “이미지 + 자연어 지시 → GPT-4 급 멀티모달 대화” 기능을 오픈소스 LLM/VLM으로 재현한다.

2. 방법론
1. 비전→언어 브릿지

  • ViT + BLIP-2 Q-Former 출력 → Vicuna(LLM)에 Prefix로 삽입
  1. 두 단계 훈련
    • (1) 500K 이미지-텍스트 쌍으로 Prefix Projection만 학습
    • (2) GPT-4가 생성한 5K 고품질 시각 대화 데이터로 Instruction Tuning

3. 실험 결과

  • Multimodal 챗봇으로서, 오리지널 GPT-4 대비 유사한 수준의 응답 품질과 지시 이해력 달성
  • 학습 파라미터 0.1 % 미만으로도 강력한 멀티모달 대화 가능

1.10 LLaVA (Large Language and Vision Assistant)

1. 학습 목표

  • “이미지 기반 지시문(Instruction) → 자연어 답변” 형식의 Visual Instruction Tuning으로, 멀티모달 대화·QA 능력을 극대화한다.

2. 방법론
1. Feature Alignment

  • CLIP ViT-L 특징 → Projection Layer → LLaMA/Vicuna 입력으로 매핑 (Stage 1)
  1. Instruction Tuning
    • GPT-4로 생성한 158K 이미지-질문-답변 데이터로, LLM + projection 레이어를 End-to-End Fine-tuning (Stage 2)
  2. 데이터 파이프라인
    • COCO 이미지·바운딩박스·5개 캡션 → GPT-4 Prompt로 대화 예시 자동 생성 → 모델 훈련

3. 실험 결과

  • VQA, 이미지 대화, 텍스트 생성 등 다양한 멀티모달 과제에서 우수한 지시 수행 능력 입증
  • GPT-4 기반 도구 대비 학습 비용·지연(latency) 크게 저감

1.11 ViperGPT

1. 학습 목표

  • 복잡한 시각 질의를 “코드 생성 → 실행” 형태로 분해 처리해, 명시적이고 해석 가능한 멀티스텝 추론을 가능하게 한다.

2. 방법론
1. Program Generator

  • GPT-3 Codex 기반 LLM이, 사용자 질문을 받아 Python 함수 호출 코드를 자동 생성
  1. Execution Engine
    • Python Interpreter 및 Vision Expert APIs(GLIP, MiDaS, BLIP-2, X-VLM 등)를 호출해 시각 연산 수행
  2. Result Integration
    • 코드 실행 결과(객체 좌표·깊이 정보 등)를 취합해 최종 텍스트·이미지 출력

3. 실험 결과

  • Complex reasoning 과제(객체 개수 세기, 지형 분석, 수학적 계산 등)에서 기존 엔드투엔드 모델 대비 오류율 ↓, 해석 가능성 ↑
  • 추가 훈련 없이 다양한 비전 모듈 조합으로 확장성·유연성 확보

1.12 HuggingGPT

1. 학습 목표

  • ChatGPT 인터페이스를 오케스트레이터로 활용해, Hugging Face 모델 허브의 다양한 도메인별 전문가 모델들을 결합·제어함으로써, “모든 AI 태스크”를 단일 대화형 에이전트로 해결한다.

2. 방법론
1. Task Planning

  • ChatGPT가 사용자 질의 해석 후, 처리에 필요한 하위 모델(Segmentation, OCR, TTS 등) 시퀀스 생성
  1. Model Invocation
    • 각 하위 모델의 API를 순차·병렬 호출해 중간 결과 획득
  2. Response Synthesis
    • 모델별 출력을 통합해 최종 답변 생성 및 사용자 전달

3. 실험 결과

  • 다양한 컴퓨터 비전·언어 과제(객체 검출·분할, 문서 OCR, 음성합성 등)에서 전용 모델 대비 경쟁력 있는 정확도 달성
  • ChatGPT 기반 플로우로 유지보수·업데이트가 용이하며, 추가 학습 없이도 새로운 모델 자동 조합 가능

1.13 MM-CoT (Multimodal Chain-of-Thought)

1. 학습 목표

  • 시각·문맥 정보를 결합한 단계별 추론(rationale) 을 도입해, 복잡한 멀티모달 질문에 대한 정확한 답변 생성 능력을 향상한다.

2. 방법론
1. 두 단계 분리 학습

  • Stage 1 (Rationale Generation)
    • 입력: 질문 텍스트 + 이미지
    • 출력: 중간 추론(이유 설명) 텍스트
  • Stage 2 (Answer Inference)
    • 입력: 질문 + 생성된 추론 + 이미지
    • 출력: 최종 답변
  1. 모델 구조
    • 언어 인코더: T5 계열(FLAN-T5, UnifiedQA 등)
    • 비전 추출기: ViT, CLIP, DETR, ResNet-50 중 선택, 동결(frozen) 후 learnable projection 추가
    • 퓨전 레이어: 단일-헤드 어텐션 및 게이트 기반 융합으로 텍스트 토큰과 이미지 패치 결합
    • 디코더: Transformer 기반으로 목표 텍스트 생성
  2. 독립적 학습
    • 두 단계 모델은 동일 아키텍처지만 별도 데이터·손실로 독립 학습

3. 실험 결과

  • VQA, 시각 지리 문제, 수학적 논리 문제 등 Complex Reasoning 벤치마크에서, 비슷 규모 CoT-LM 대비 정확도 5–10%p 향상을 보였으며, hallucination(터무니없는 답변) 감소 효과를 확인했다.

1.14 MM-ReAct (Multimodal Reasoning + Action)

1. 학습 목표

  • 사고(Reasoning) + 행동(Action) 프레임워크를 멀티모달로 확장해, 시각 전문가 API를 호출하는 멀티스텝 추론을 구현한다.

2. 방법론
1. Prompting ChatGPT

  • 프롬프트에 시각 전문가 사용법(in-context examples) 포함
  1. Thought & Action 루프
    • Thought: 내부 추론 문장 생성
    • Action: GLIP, MiDaS, BLIP-2 등의 vision API 호출 명령 생성
    • Observation: API 결과(텍스트 표준화) → 대화 히스토리에 합류
  2. 반복
    • 필요한 만큼 Thought↔Action↔Observation을 반복, 최종 Answer 도출

3. 실험 결과

  • 복잡한 시각 질의(객체 위치 식별, 논리 퍼즐)에서 End-to-End 모델 대비 정확도 15%p↑, 중간 과정 식별 가능성(해석성)도 크게 개선됨을 확인했다.

1.15 Visual Prompt Tuning (VPT)

1. 학습 목표

  • 대형 ViT 백본을 동결한 채, 입력 이미지 패치에 소수의 learnable prompt 토큰을 추가해 다양한 시각 과제를 효율적으로 적응(finetune)한다.

2. 방법론
1. Prompt 레이어

  • 이미지 패치를 투영하기 전, learnable vector(프롬프트)를 패치 시퀀스 앞에 삽입
  1. 동결된 백본
    • ViT 전체 파라미터는 고정, prompt 토큰만 학습
  2. 과제별 파인튜닝
    • 분류, 검출, 분할 등 downstream 손실로 prompt 토큰을 최적화

3. 실험 결과

  • ImageNet-1k 분류에서 전체 ViT 파인튜닝 대비 성능 하락 1%p 미만, 파라미터 0.1%만 업데이트하여 효율성을 입증했다.

1.16 VisionLLM

1. 학습 목표

  • LLM을 디코더로 활용해, “이미지 중심” 시각 과제를 언어 생성 프레임워크로 처리할 수 있게 한다.

2. 방법론
1. 단일 Transformer

  • 입력: 이미지 패치(토큰화) + 텍스트 프롬프트 통합 시퀀스
  • 출력: 텍스트 토큰(분류 레이블, 설명, 명령어 등)
  1. LLM 구조
    • 모든 레이어가 디코더(Self-& Cross-Attention)로 구성
    • 이미지 토큰 ↔ 텍스트 토큰을 동등하게 처리

3. 실험 결과

  • 물체 인식, 이미지 설명, 시각 명령어 생성 등 다양한 Vision-Centric 태스크에서, 기존 SOTA 시각 모델과 유사한 정확도를 달성하며 언어 인터페이스를 제공했다.

1.17 ChatGPT Asks, BLIP-2 Answers

1. 학습 목표

  • 언어 모델(ChatGPT)이 시각 입력을 직접 처리할 수 없던 한계를, BLIP-2를 호출해 “이미지 질문 → 텍스트 답변”을 매끄럽게 연결한다.

2. 방법론
1. Pipeline 구성

  • ChatGPT 프롬프트에 이미지 URL 및 질문 포함
  • BLIP-2 API 호출로 이미지→답변 생성
  • ChatGPT가 BLIP-2 응답을 받아 대화형으로 사용자에게 전달
  1. 동기화
    • ChatGPT 대화 상태 유지, 필요한 시점에 BLIP-2로 전달

3. 실험 결과

  • 이미지 기반 질문응답에서, ChatGPT 단독 대비 정확도 30%p↑, 대화 맥락 유지·전달 속도도 실시간 수준으로 개선됨을 보였다.

1.18 Universal Image Restoration (CLIP-FineTuned)

1. 학습 목표

  • CLIP 백본을 활용해, 텍스트 지시(“노이즈 제거”, “슈퍼 해상도”)에 따라 범용 이미지 복원 작업을 수행한다.

2. 방법론
1. CLIP 인코딩

  • 손상된 이미지와 복원 지시 텍스트를 CLIP으로 임베딩
  1. 복원 네트워크
    • Vision Transformer 기반 디코더가 CLIP 특징과 지시 정보를 받아 복원된 이미지를 생성
  2. 지도 학습
    • 깨끗한 원본과 복원 샘플 간 픽셀·지각 손실 혼합

3. 실험 결과

  • 노이즈 제거·모션 블러·해상도 향상 등 5개 복원 과제에서, 기존 task-specific 모델 대비 PSNR 1–2 dB 향상 및 텍스처 보존 우수성을 확인했다.

1.19 InstructPix2Pix

1. 학습 목표

  • “이미지 + 텍스트 명령(instruction)” 입력만으로, 특정 스타일 변환·수정 작업을 자동 실행하는 멀티모달 이미지 편집 모델을 구현한다.

2. 방법론
1. Diffusion 기반 편집

  • U-Net 백본에 CLIP 임베딩을 조건으로 투입
  1. Instruction Tuning
    • 다양한 편집 명령(“밝기 높여”, “배경 파란색으로”)과 원본→타깃 이미지 쌍으로 fine-tune
  2. Condition Augmentation
    • 텍스트 지시 다양화 및 캡션 확장으로 견고성 확보

3. 실험 결과

  • InstructPix2Pix는 20개 편집 과제 모두에서, “무엇을 어떻게 편집할지” 명확히 반영된 결과를 생성했으며, 기존 텍스트→이미지 편집 모델 대비 사용자 선호도 80%↑를 기록했다.
profile
상어 인형을 좋아하는 사람

0개의 댓글