🧠 AI知识库

人工智能产业链与技术栈全景图 v0.2.0 · 2026-05-14

🚅 推理部署

Inference & Deployment

将训练好的模型部署到生产环境。ONNX Runtime提供跨平台推理，TensorRT是NVIDIA生态的推理优化器，OpenVINO针对Intel硬件优化。云端的Triton Inference Server和自托管的Ollama覆盖了不同部署场景。

平台/工具（7项）

硬件专用优化

🌍 海外

Intel开源的深度学习推理优化工具包，专门针对Intel CPU、集成GPU和NPU进行优化。支持INT8量化和层融合，在Intel平台上有显著的推理加速效果。提供模型优化器一键转换主流框架模型，支...

NVIDIA推出的高性能深度学习推理优化器和运行时，支持INT8/FP8/FP4量化、层融合、内核自动调优等优化。可将模型推理延迟降低数倍，吞吐量提升数倍。提供C++和Python API，与Trit...

通用推理引擎

🌍 海外

Apache开源的深度学习编译器栈，将模型编译为针对特定硬件的优化机器码。通过自动调优（AutoTVM/AutoScheduler）生成高效算子实现，支持CPU、GPU、NPU、FPGA等多样化后端。...

卡内基梅隆大学MLC团队开源，基于Apache TVM编译技术将大模型部署到手机、浏览器和笔记本。支持iOS/Android原生应用和WebGPU浏览器推理，无需服务器。让大模型在iPhone、安卓手...

微软开源的高性能跨平台推理引擎，支持ONNX标准模型格式。覆盖CPU、GPU（CUDA/TensorRT/ROCm/Metal）、NPU等多种硬件后端。内置量化、图优化等加速功能。是PyTorch和O...

云端推理服务

🌍 海外

TensorFlow Serving

Google开源的高性能模型服务系统，专为TensorFlow模型生产部署设计。支持模型热更新、版本管理、动态批处理和gRPC/REST双协议接口。与Kubernetes生态无缝集成，是工业界Tens...

Triton Inference Server

NVIDIA开源的企业级多框架推理服务器，支持TensorRT、ONNX Runtime、PyTorch、TensorFlow等多种后端同时部署。提供动态批处理、模型并发、模型流水线和GPU多实例等生...