🚅 推理部署
Inference & Deployment
将训练好的模型部署到生产环境。ONNX Runtime提供跨平台推理,TensorRT是NVIDIA生态的推理优化器,OpenVINO针对Intel硬件优化。云端的Triton Inference Server和自托管的Ollama覆盖了不同部署场景。
平台/工具(7项)
硬件专用优化
通用推理引擎
🌍 海外
Apache TVM
Apache开源的深度学习编译器栈,将模型编译为针对特定硬件的优化机器码。通过自动调优(AutoTVM/AutoScheduler)生成高效算子实现,支持CPU、GPU、NPU、FPGA等多样化后端。...
MLC-LLM
卡内基梅隆大学MLC团队开源,基于Apache TVM编译技术将大模型部署到手机、浏览器和笔记本。支持iOS/Android原生应用和WebGPU浏览器推理,无需服务器。让大模型在iPhone、安卓手...
ONNX Runtime
微软开源的高性能跨平台推理引擎,支持ONNX标准模型格式。覆盖CPU、GPU(CUDA/TensorRT/ROCm/Metal)、NPU等多种硬件后端。内置量化、图优化等加速功能。是PyTorch和O...