AI技术栈 - AI知识库

⚙️ AI技术栈全景

💎 芯片 → 🖥️ 节点 → 🌐 集群 → 🔌 平台 → 🧱 框架 → 📦 模型库 → 🚅 推理 → 🛠️ 工具

AI计算的物理底座。NVIDIA GPU (H100/B200) 是训练芯片的事实标准，Google TPU是专用ASIC的代表，AMD MI300在追赶。国产替代方面，华为昇腾910、寒武纪思元、海光深算等正在快速缩小差距。芯片的架构制程...

GPU · TPU/NPU · ASIC/FPGA · 存算一体

搭载AI芯片的服务器是训练和推理的执行单元。NVIDIA DGX/HGX是高端训练的标准配置，8卡GPU服务器是数据中心主流。液冷散热、PCIe 5.0互联、HBM高带宽内存等持续提升节点算力密度。各大云厂商也推出自研AI服务器（如阿里灵骏...

训练服务器 · 推理服务器 · 边缘计算节点 · 液冷散热

单机算力有限，万卡集群才是大模型训练的真实战场。NVLink是GPU间高速互联，InfiniBand/RoCE是节点间网络，NVIDIA Spectrum交换机支撑超大规模。Meta的24k GPU集群、xAI的Colossus都是这一层的...

GPU互联 (NVLink) · 集群网络 (InfiniBand/RoCE) · 超算集群 · 分布式训练框架

硬件之上的编程平台，连接芯片和框架。CUDA是NVIDIA的护城河，ROCm让AMD GPU也能跑AI，CANN是华为昇腾的国产工具链。Intel的oneAPI试图统一XPU编程。选了哪个芯片，基本就绑定了对应的算力平台生态。...

GPU编程 (CUDA/ROCm) · NPU工具链 (CANN) · 跨平台 (oneAPI/OpenCL)

构建和训练神经网络的核心工具。PyTorch在学术界和工业界占据主导地位，TensorFlow在端侧部署仍有优势，PaddlePaddle和MindSpore是国产框架代表。框架选择直接影响开发效率、模型性能和部署路径。...

主流框架 · 国产框架 · JIT编译器

预训练模型库和推理引擎加速了从开发到部署的流程。HuggingFace Transformers是最大的模型库，vLLM是高性能推理引擎的代表，llama.cpp让大模型能在消费级硬件上运行。这一层降低了AI使用门槛。...

模型库 · 推理引擎 · 量化工具

将训练好的模型部署到生产环境。ONNX Runtime提供跨平台推理，TensorRT是NVIDIA生态的推理优化器，OpenVINO针对Intel硬件优化。云端的Triton Inference Server和自托管的Ollama覆盖了不...

通用推理引擎 · 硬件专用优化 · 云端推理服务

支撑AI应用开发的工具生态。LangChain和LlamaIndex是LLM应用开发的事实标准框架，Dify和Coze提供了低代码AI应用搭建能力。MLOps工具（W&B、MLflow）管理实验和模型生命周期。...

LLM应用框架 · 低代码/无代码 · MLOps · 数据标注工具