55일차 vLLM, VLM 이해하기

차지예·2025년 8월 10일

VLM vLLM 개발자 생성형 ai

생성AI

목록 보기

49/56

📌 vLLM vs VLM 구조 비교 정리

1. vLLM (Very Large Language Model inference engine)

정의: 대규모 언어 모델(LLM)과 멀티모달 모델의 추론 속도와 메모리 효율을 극대화한 오픈소스 추론 엔진.
목적: 학습된 모델을 더 빠르고 효율적으로 서비스 환경에서 추론 가능하게 함.
주요 특징
1. PagedAttention
  - GPU 메모리를 효율적으로 관리하여 대규모 context 처리 가능.
2. Parallel & Batch Processing
  - 다수의 요청을 병렬 처리하여 처리량(Throughput) 극대화.
3. 모델 불러오기/추론 최적화
  - FP16, BF16, INT8 등 다양한 정밀도 지원.
구조 개념

[요청 입력] → [토크나이저] → [PagedAttention + 병렬처리] → [LLM 추론] → [출력 생성]

2. VLM (Vision-Language Model)

정의: 이미지(비전)와 텍스트(언어)를 동시에 입력으로 받아 처리하는 멀티모달 모델.
목적: 이미지와 텍스트를 함께 이해하고, 설명·분류·질의응답 등의 작업 수행.
구조 구성요소
1. 비전 인코더 (Vision Encoder)
  - 이미지 → 시각 특성 벡터로 변환 (예: CLIP, ViT 기반)
2. 텍스트 인코더 (Text Encoder)
  - 텍스트 → 토큰 임베딩 변환 (LLM 구조)
3. 멀티모달 결합 모듈
  - 이미지·텍스트 특성을 결합 (Cross-Attention, Projection Layer 등)
4. 디코더 / 생성기
  - 결합된 정보로 최종 출력 생성.
구조 개념

[이미지] → [비전 인코더] ┐
                          ├→ [멀티모달 융합] → [LLM 디코더] → [출력]
[텍스트] → [텍스트 인코더] ┘

3. ✅ 간단 비교

구분	vLLM	VLM
목적	대규모 모델 추론 최적화	시각·언어 동시 이해
역할	추론 엔진	모델 아키텍처
입력	주로 텍스트 (멀티모달도 가능)	이미지 + 텍스트
핵심 기술	PagedAttention, 배치처리, 메모리 효율	Vision Encoder + Language Model 융합

이전 포스트

54일차 자연어처리8 RAG 파인튜닝

다음 포스트

56일차 토픽모델링(Topic Modeling)

0개의 댓글