🧠 AI知识库

人工智能产业链与技术栈全景图 v0.2.0 · 2026-05-14

⚙️ AI技术栈全景

💎 芯片 → 🖥️ 节点 → 🌐 集群 → 🔌 平台 → 🧱 框架 → 📦 模型库 → 🚅 推理 → 🛠️ 工具

💎 AI芯片 (AI Chips)

AI计算的物理底座。NVIDIA GPU (H100/B200) 是训练芯片的事实标准,Google TPU是专用ASIC的代表,AMD MI300在追赶。国产替代方面,华为昇腾910、寒武纪思元、海光深算等正在快速缩小差距。芯片的架构制程...

GPU · TPU/NPU · ASIC/FPGA · 存算一体

🖥️ 算力节点 (Compute Nodes)

搭载AI芯片的服务器是训练和推理的执行单元。NVIDIA DGX/HGX是高端训练的标准配置,8卡GPU服务器是数据中心主流。液冷散热、PCIe 5.0互联、HBM高带宽内存等持续提升节点算力密度。各大云厂商也推出自研AI服务器(如阿里灵骏...

训练服务器 · 推理服务器 · 边缘计算节点 · 液冷散热

🌐 集群与互联 (Clusters & Interconnect)

单机算力有限,万卡集群才是大模型训练的真实战场。NVLink是GPU间高速互联,InfiniBand/RoCE是节点间网络,NVIDIA Spectrum交换机支撑超大规模。Meta的24k GPU集群、xAI的Colossus都是这一层的...

GPU互联 (NVLink) · 集群网络 (InfiniBand/RoCE) · 超算集群 · 分布式训练框架

🔌 算力平台 (Compute Platforms)

硬件之上的编程平台,连接芯片和框架。CUDA是NVIDIA的护城河,ROCm让AMD GPU也能跑AI,CANN是华为昇腾的国产工具链。Intel的oneAPI试图统一XPU编程。选了哪个芯片,基本就绑定了对应的算力平台生态。...

GPU编程 (CUDA/ROCm) · NPU工具链 (CANN) · 跨平台 (oneAPI/OpenCL)

🧱 深度学习框架 (DL Frameworks)

构建和训练神经网络的核心工具。PyTorch在学术界和工业界占据主导地位,TensorFlow在端侧部署仍有优势,PaddlePaddle和MindSpore是国产框架代表。框架选择直接影响开发效率、模型性能和部署路径。...

主流框架 · 国产框架 · JIT编译器

📦 模型库与引擎 (Model Libraries & Engines)

预训练模型库和推理引擎加速了从开发到部署的流程。HuggingFace Transformers是最大的模型库,vLLM是高性能推理引擎的代表,llama.cpp让大模型能在消费级硬件上运行。这一层降低了AI使用门槛。...

模型库 · 推理引擎 · 量化工具

🚅 推理部署 (Inference & Deployment)

将训练好的模型部署到生产环境。ONNX Runtime提供跨平台推理,TensorRT是NVIDIA生态的推理优化器,OpenVINO针对Intel硬件优化。云端的Triton Inference Server和自托管的Ollama覆盖了不...

通用推理引擎 · 硬件专用优化 · 云端推理服务

🛠️ 开发工具链 (Developer Tools)

支撑AI应用开发的工具生态。LangChain和LlamaIndex是LLM应用开发的事实标准框架,Dify和Coze提供了低代码AI应用搭建能力。MLOps工具(W&B、MLflow)管理实验和模型生命周期。...

LLM应用框架 · 低代码/无代码 · MLOps · 数据标注工具