대표 AI 추론 엔진 및 서빙 프레임워크인 vLLM/ Ollama에 대해 정리해보았습니다.
vLLM
- 다수의 사용자에게 서비스를 제공하기 위해 처리량 극대화를 목표로 계산을 효율적이고 신속하게 대규모로 수행할 수 있는 오픈소스 코드 라이브러리
추론 과정
추론 서버
- 서비스에 대한 사용자 대기열 관리 및 외부 네트워크 트래픽 처리
- 시스템의 데이터 송신을 담당하는 통신 프로토콜을 처리
- 불필요한 대기를 하지 않도록 설계됨.
추론 엔진
- 그래픽 처리 장치(GPU) 사용을 최적화 하여 생성 속도를 높힌다. -> PagedAttention 알고리즘 활용
- 대기 시간을 적극적으로 단축
특징
- 추론 서버와 추론 엔진은 사용자가 요청하는 시점과 응답하는 시간인 대기 시간 을 줄이는 일을 담당.
- 높은 트래픽 처리가 가능하며, 대규모 시나리오에 적합하도록 설계됨.
Ollama
- 사용자 로컬에서 개인적으로 실행할 수 있게 해 주는 오픈소스 툴.
- 단순한 기능의 간략한 설정으로 직관적이고 초보자가 사용하기 적합
- 숙련된 개발자는 Ollama를 사용하여 다양한 LLM을 테스트하고 빠른 프로토파입을 수행에 활용하기도 함.
- 추론 엔진을 가지고 있으며 대기 시간을 줄이는데 활용.
참고
https://www.redhat.com/ko/topics/ai/vllm-vs-ollama