https://github.com/NVIDIA/TensorRT-LLM/releases/tag/v1.0.0
그동안 TensorRT-LLM이 0.21.0 릴리즈 버전에서 1.0.0으로 수많은 베타버전 이후 업데이트가 되어서 재 설치를 진행하고자 한다.
주요 업데이트 내용을 살펴보자면
sm121에 대한 지원 추가 -> RTX 5000시리즈 아키텍쳐의 GPU가 재대로 정식지원된다 이렇게 보면 된다.
PyTorch에서 MXFP8xMXFP4에 대한 지원 추가 -> GPT-OSS 계열의 LLM이 TensorRT-LLM
으로도 구동이 가능해지는거라 볼 수 있겠다.
변경 사항 PyTorch를 기본 LLM 백엔드로 승격 -> vLLM
처럼 기본 백앤드 엔진이 pytorch으로 변경되어 더 많은 모델 구동이 편리해졌다.
이것 말고도 여러가지 업데이트가 되었는데 설치부터 다시 진행을 해보고자 한다.
이전 포스트 WSL 우분투에 TensorRT-LLM 설치하기
에서 수행한
과정을 그대로 진행하면 된다
cuda 12.9 여전히 지원안되고 / Pytorch 작성기준 최신버전인 2.8.0 지원안된다...
pip3 uninstall tensorrt_llm
pip3 install tensorrt_llm
이러면 끝난다...
기존 0.21.0 -> 1.0.0 에서 뭔가 큰 라이브러리 업데이트도 된줄 알았지만.. 음..
가장 많이 변경된 부분은
https://nvidia.github.io/TensorRT-LLM/1.0.0/llm-api/reference.html
API 레퍼런스 문서 설명이 많이 바뀌었는데
이것도 다 따지고 보면 LLM
메서드의 내부 인자값이 몇 종 변경된 부분으로 좀 정리가 된다.
현재로써 필자에게 주요한 변경점을 하나 꼽으라면
0.21.0 버전에서는 백앤드 엔진을 조정할 때는 위 인자값을 사용해야 하지만
1.0.0 버전에서는 좀 더 설명이 명확한 attn_backend
로 변경된 것이 주요 변경사항이라 볼 수 있다.
모델 지원은 더 많이 늘었으니 차근차근 씹뜯맛즐 해봐야 겠다.