📌 vLLM vs VLM 구조 비교 정리
1. vLLM (Very Large Language Model inference engine)
- 정의: 대규모 언어 모델(LLM)과 멀티모달 모델의 추론 속도와 메모리 효율을 극대화한 오픈소스 추론 엔진.
- 목적: 학습된 모델을 더 빠르고 효율적으로 서비스 환경에서 추론 가능하게 함.
- 주요 특징
- PagedAttention
- GPU 메모리를 효율적으로 관리하여 대규모 context 처리 가능.
- Parallel & Batch Processing
- 다수의 요청을 병렬 처리하여 처리량(Throughput) 극대화.
- 모델 불러오기/추론 최적화
- FP16, BF16, INT8 등 다양한 정밀도 지원.
- 구조 개념
[요청 입력] → [토크나이저] → [PagedAttention + 병렬처리] → [LLM 추론] → [출력 생성]
2. VLM (Vision-Language Model)
- 정의: 이미지(비전)와 텍스트(언어)를 동시에 입력으로 받아 처리하는 멀티모달 모델.
- 목적: 이미지와 텍스트를 함께 이해하고, 설명·분류·질의응답 등의 작업 수행.
- 구조 구성요소
- 비전 인코더 (Vision Encoder)
- 이미지 → 시각 특성 벡터로 변환 (예: CLIP, ViT 기반)
- 텍스트 인코더 (Text Encoder)
- 멀티모달 결합 모듈
- 이미지·텍스트 특성을 결합 (Cross-Attention, Projection Layer 등)
- 디코더 / 생성기
- 구조 개념
[이미지] → [비전 인코더] ┐
├→ [멀티모달 융합] → [LLM 디코더] → [출력]
[텍스트] → [텍스트 인코더] ┘
3. ✅ 간단 비교
| 구분 | vLLM | VLM |
|---|
| 목적 | 대규모 모델 추론 최적화 | 시각·언어 동시 이해 |
| 역할 | 추론 엔진 | 모델 아키텍처 |
| 입력 | 주로 텍스트 (멀티모달도 가능) | 이미지 + 텍스트 |
| 핵심 기술 | PagedAttention, 배치처리, 메모리 효율 | Vision Encoder + Language Model 융합 |