Triton Inference Server

🌍 海外 🚅 推理部署云端推理服务

NVIDIA开源的企业级多框架推理服务器，支持TensorRT、ONNX Runtime、PyTorch、TensorFlow等多种后端同时部署。提供动态批处理、模型并发、模型流水线和GPU多实例等生产特性。是云原生AI推理基础设施的核心组件，支持Kubernetes部署。

发布/成立	2018	美国
官网	https://developer.nvidia.com/triton-inference-server