vLLM이란?

Soogyung Gwon·2026년 6월 13일

RAGAS evaluation rag vLLM

구름을잡아라

목록 보기

75/76

vLLM은 대규모 언어 모델(LLM)을 빠르고 효율적으로 실행하기 위한 고성능 추론(Inference) 엔진이다.

많은 사람들이 vLLM을 하나의 모델로 오해하지만, 실제로는 모델이 아니라 모델을 실행하는 런타임(Runtime)에 가깝다.

예를 들어 다음과 같은 모델을 실행할 수 있다.

Llama
Qwen
Gemma
Mistral
Phi

구조는 다음과 같다.

사용자 질문
      ↓
    vLLM
      ↓
 Llama / Qwen / Gemma
      ↓
    응답 생성

vLLM은 왜 빠를까?

기존 Hugging Face Transformers 방식은 대량의 요청을 처리할 때 GPU 메모리 사용이 비효율적일 수 있다.

반면 vLLM은 다음과 같은 기술을 사용한다.

PagedAttention
Continuous Batching
KV Cache 최적화

덕분에

더 많은 동시 요청 처리
더 빠른 응답 생성
GPU 메모리 효율 향상

이 가능하다.

vLLM은 Hugging Face 기반인가?

실무적으로는 그렇다고 볼 수 있다.

예를 들어 다음 코드를 살펴보자.

from vllm import LLM

llm = LLM(
    model="Qwen/Qwen3-8B"
)

여기서 Qwen/Qwen3-8B는 Hugging Face Hub에 등록된 모델이다.

vLLM은 내부적으로 다음과 같은 과정을 수행한다.

Hugging Face Hub
 ↓
config.json 다운로드
 ↓
tokenizer 다운로드
 ↓
모델 가중치 다운로드
 ↓
GPU 로드

즉 vLLM은 Hugging Face 생태계의 모델을 매우 쉽게 사용할 수 있도록 설계되어 있다.

vLLM은 Transformers와 같은 것인가?

아니다.

vLLM은 단순히 Transformers를 감싼 래퍼(wrapper)가 아니다.

Transformers
 ↓
모델 구조 읽기

vLLM
 ↓
추론 최적화
 ↓
GPU 실행

즉 모델 정보는 Hugging Face 형식을 활용하지만, 실제 추론 엔진은 vLLM이 자체적으로 구현한다.

RAG 평가에서 vLLM을 사용하는 이유

RAG 시스템을 평가할 때는 수백~수만 개의 질문에 대해 답변을 생성해야 한다.

예를 들어

10,000개 질문
 ↓
답변 생성
 ↓
평가

과 같은 작업이 필요하다.

이때 OpenAI API를 사용하면

비용 증가
속도 저하
Rate Limit

문제가 발생할 수 있다.

그래서 로컬에서 오픈소스 모델을 실행하는 경우가 많다.

RAGAS
 ↓
vLLM
 ↓
Qwen

이러한 구성이 대표적이다.

vLLM은 대량 추론에 최적화되어 있기 때문에 RAG 평가 환경에서 자주 사용된다.

RAGAS란?

RAGAS(Retrieval-Augmented Generation Assessment)는 RAG 시스템을 평가하기 위한 프레임워크이다.

RAGAS는 다음과 같은 지표를 제공한다.

Faithfulness
Answer Relevancy
Context Precision
Context Recall

예를 들어

질문
검색 문서
답변

이 주어졌을 때,

답변이 문서에 근거하는가?
검색 문서가 질문과 관련 있는가?
답변이 질문에 적절한가?

등을 평가한다.

RAGAS는 어떻게 평가할까?

RAGAS는 주로 Judge LLM을 활용한다.

예를 들어

Question
Context
Answer

를 입력으로 받은 뒤,

답변이 문서에 근거하는가?

를 LLM에게 판단하게 한다.

즉 RAGAS는 단순 문자열 비교가 아니라 LLM을 이용한 평가를 수행한다.

LLM으로 평가하면 모두 RAGAS인가?

아니다.

예를 들어

GPT에게
"이 답변을 10점 만점으로 평가해줘"

라고 요청하는 것은 단순한 LLM-as-a-Judge 방식이다.

반면 RAGAS는

Faithfulness
Answer Relevancy
Context Precision
Context Recall

등의 표준화된 RAG 평가 지표를 제공하는 프레임워크이다.

즉,

LLM을 이용한 평가
⊃
RAGAS

관계라고 이해하면 된다.

모든 RAGAS는 LLM을 사용할 수 있지만, 모든 LLM 평가가 RAGAS인 것은 아니다.

정리

vLLM은 LLM 자체가 아니라 고성능 추론 엔진이다.
Hugging Face 모델을 빠르게 실행할 수 있도록 설계되었다.
PagedAttention과 Continuous Batching을 통해 높은 처리량을 제공한다.
RAG 평가에서는 대량의 답변 생성을 위해 vLLM이 자주 사용된다.
RAGAS는 RAG 전용 평가 프레임워크이다.
RAGAS는 Faithfulness, Answer Relevancy, Context Precision, Context Recall 등의 지표를 제공한다.
모든 LLM 기반 평가가 RAGAS는 아니며, RAGAS는 LLM-as-a-Judge를 체계화한 RAG 평가 프레임워크라고 볼 수 있다.

Soogyung Gwon

오랜시간 망설였던 코딩을 다시 해보려고 노력하고 있는 사람

vLLM이란?

구름을잡아라

vLLM은 왜 빠를까?

vLLM은 Hugging Face 기반인가?

vLLM은 Transformers와 같은 것인가?

RAG 평가에서 vLLM을 사용하는 이유

RAGAS란?

RAGAS는 어떻게 평가할까?

LLM으로 평가하면 모두 RAGAS인가?

정리

vLLM에서 float16(BF16)이 효율적인 이유와 데이터 타입 종류

LangGraph에서의 Agent

0개의 댓글