vLLM과 Ollama 비교

Jae·2026년 3월 1일

대표 AI 추론 엔진 및 서빙 프레임워크인 vLLM/ Ollama에 대해 정리해보았습니다.

vLLM

다수의 사용자에게 서비스를 제공하기 위해 처리량 극대화를 목표로 계산을 효율적이고 신속하게 대규모로 수행할 수 있는 오픈소스 코드 라이브러리

추론 과정

추론 서버

서비스에 대한 사용자 대기열 관리 및 외부 네트워크 트래픽 처리
시스템의 데이터 송신을 담당하는 통신 프로토콜을 처리
불필요한 대기를 하지 않도록 설계됨.

추론 엔진

그래픽 처리 장치(GPU) 사용을 최적화 하여 생성 속도를 높힌다. -> PagedAttention 알고리즘 활용
대기 시간을 적극적으로 단축

특징

추론 서버와 추론 엔진은 사용자가 요청하는 시점과 응답하는 시간인 대기 시간 을 줄이는 일을 담당.
높은 트래픽 처리가 가능하며, 대규모 시나리오에 적합하도록 설계됨.

Ollama

사용자 로컬에서 개인적으로 실행할 수 있게 해 주는 오픈소스 툴.
단순한 기능의 간략한 설정으로 직관적이고 초보자가 사용하기 적합
숙련된 개발자는 Ollama를 사용하여 다양한 LLM을 테스트하고 빠른 프로토파입을 수행에 활용하기도 함.
추론 엔진을 가지고 있으며 대기 시간을 줄이는데 활용.

참고

https://www.redhat.com/ko/topics/ai/vllm-vs-ollama

이전 포스트

LLM 서빙하기

다음 포스트

해커들이 비밀번호를 훔치는 방법

0개의 댓글