triton-inference-server는 GPU 또는 CPU 기반 인프라의 프레임워크에서 훈련된 AI 모델을 배포, 실행 및 확장할 수 있도록 지원함으로써 AI 추론을 간소화하고 표준화한다.
model_repository
├── model
│ ├── 1
│ │ └── model.graphdef
│ └── config.pbtxt
config.pbtxt
name: "simple"
platform: "tensorflow_graphdef"
max_batch_size: 8
input [
{
name: "INPUT0"
data_type: TYPE_INT32
dims: [ 16 ]
},
{
name: "INPUT1"
data_type: TYPE_INT32
dims: [ 16 ]
}
]
output [
{
name: "OUTPUT0"
data_type: TYPE_INT32
dims: [ 16 ]
},
{
name: "OUTPUT1"
data_type: TYPE_INT32
dims: [ 16 ]
}
]
model_repository
├── model
│ ├── 1
│ │ ├── weights
│ │ └── model.py
│ └── config.pbtxt
triton docker image를 통해 docker container 구동
tritonserver 실행
--load-model로 지정된 모델만 로드된다.--load-model=*를 설정해야 하고 이 때 --load-model을 추가하면 오류가 발생한다.tritonserver --model-repository=/model --model-control-mode=explicit \
--load-model=simple --log-verbose=0 --log-info=1 --log-warning=1 --log-error=1