TensorRT-LLM 1.0.0 업데이트 설치하기

안상훈·7일 전
0

WSL설정

목록 보기
18/19
post-thumbnail

https://github.com/NVIDIA/TensorRT-LLM/releases/tag/v1.0.0

그동안 TensorRT-LLM이 0.21.0 릴리즈 버전에서 1.0.0으로 수많은 베타버전 이후 업데이트가 되어서 재 설치를 진행하고자 한다.

주요 업데이트 내용을 살펴보자면

  1. sm121에 대한 지원 추가 -> RTX 5000시리즈 아키텍쳐의 GPU가 재대로 정식지원된다 이렇게 보면 된다.

  2. PyTorch에서 MXFP8xMXFP4에 대한 지원 추가 -> GPT-OSS 계열의 LLM이 TensorRT-LLM으로도 구동이 가능해지는거라 볼 수 있겠다.

  3. 변경 사항 PyTorch를 기본 LLM 백엔드로 승격 -> vLLM처럼 기본 백앤드 엔진이 pytorch으로 변경되어 더 많은 모델 구동이 편리해졌다.

이것 말고도 여러가지 업데이트가 되었는데 설치부터 다시 진행을 해보고자 한다.

1. 완전 새로설치할 시

이전 포스트 WSL 우분투에 TensorRT-LLM 설치하기
에서 수행한

  1. cuda toolkit 12.8.1설치
  2. Pytorch 2.7.1 설치
  3. tensorrt llm 설치
  4. 자잘한 라이브러리 의존성 오류 수정을 위한 추가 라이브러리 재설치

과정을 그대로 진행하면 된다

cuda 12.9 여전히 지원안되고 / Pytorch 작성기준 최신버전인 2.8.0 지원안된다...

2. 기존 버전이 설치되었을 시

pip3 uninstall tensorrt_llm
pip3 install tensorrt_llm

이러면 끝난다...

기존 0.21.0 -> 1.0.0 에서 뭔가 큰 라이브러리 업데이트도 된줄 알았지만.. 음..

3. 변경부분

가장 많이 변경된 부분은

https://nvidia.github.io/TensorRT-LLM/1.0.0/llm-api/reference.html

API 레퍼런스 문서 설명이 많이 바뀌었는데
이것도 다 따지고 보면 LLM 메서드의 내부 인자값이 몇 종 변경된 부분으로 좀 정리가 된다.

현재로써 필자에게 주요한 변경점을 하나 꼽으라면

0.21.0 버전에서는 백앤드 엔진을 조정할 때는 위 인자값을 사용해야 하지만

1.0.0 버전에서는 좀 더 설명이 명확한 attn_backend로 변경된 것이 주요 변경사항이라 볼 수 있다.

모델 지원은 더 많이 늘었으니 차근차근 씹뜯맛즐 해봐야 겠다.

profile
자율차 공부중

0개의 댓글