T
TensorRT
NVIDIA TensorRT
简介
NVIDIA推出的高性能深度学习推理优化器和运行时,支持INT8/FP8/FP4量化、层融合、内核自动调优等优化。可将模型推理延迟降低数倍,吞吐量提升数倍。提供C++和Python API,与Triton Inference Server深度集成,是NVIDIA GPU推理的首选方案。
| 发布/成立 | 2017 | 美国 |
| 官网 | https://developer.nvidia.com/tensorrt |
人工智能产业链与技术栈全景图 v0.2.0 · 2026-05-14
NVIDIA推出的高性能深度学习推理优化器和运行时,支持INT8/FP8/FP4量化、层融合、内核自动调优等优化。可将模型推理延迟降低数倍,吞吐量提升数倍。提供C++和Python API,与Triton Inference Server深度集成,是NVIDIA GPU推理的首选方案。
| 发布/成立 | 2017 | 美国 |
| 官网 | https://developer.nvidia.com/tensorrt |