55일차 vLLM, VLM 이해하기

차지예·2025년 8월 10일

생성AI

목록 보기
49/56
post-thumbnail

📌 vLLM vs VLM 구조 비교 정리

1. vLLM (Very Large Language Model inference engine)

  • 정의: 대규모 언어 모델(LLM)과 멀티모달 모델의 추론 속도와 메모리 효율을 극대화한 오픈소스 추론 엔진.
  • 목적: 학습된 모델을 더 빠르고 효율적으로 서비스 환경에서 추론 가능하게 함.
  • 주요 특징
    1. PagedAttention
      • GPU 메모리를 효율적으로 관리하여 대규모 context 처리 가능.
    2. Parallel & Batch Processing
      • 다수의 요청을 병렬 처리하여 처리량(Throughput) 극대화.
    3. 모델 불러오기/추론 최적화
      • FP16, BF16, INT8 등 다양한 정밀도 지원.
  • 구조 개념
[요청 입력] → [토크나이저] → [PagedAttention + 병렬처리] → [LLM 추론] → [출력 생성]

2. VLM (Vision-Language Model)

  • 정의: 이미지(비전)텍스트(언어)를 동시에 입력으로 받아 처리하는 멀티모달 모델.
  • 목적: 이미지와 텍스트를 함께 이해하고, 설명·분류·질의응답 등의 작업 수행.
  • 구조 구성요소
    1. 비전 인코더 (Vision Encoder)
      • 이미지 → 시각 특성 벡터로 변환 (예: CLIP, ViT 기반)
    2. 텍스트 인코더 (Text Encoder)
      • 텍스트 → 토큰 임베딩 변환 (LLM 구조)
    3. 멀티모달 결합 모듈
      • 이미지·텍스트 특성을 결합 (Cross-Attention, Projection Layer 등)
    4. 디코더 / 생성기
      • 결합된 정보로 최종 출력 생성.
  • 구조 개념
[이미지] → [비전 인코더] ┐
                          ├→ [멀티모달 융합] → [LLM 디코더] → [출력]
[텍스트] → [텍스트 인코더] ┘

3. ✅ 간단 비교

구분vLLMVLM
목적대규모 모델 추론 최적화시각·언어 동시 이해
역할추론 엔진모델 아키텍처
입력주로 텍스트 (멀티모달도 가능)이미지 + 텍스트
핵심 기술PagedAttention, 배치처리, 메모리 효율Vision Encoder + Language Model 융합

0개의 댓글