华为昇腾

昇

Ascend — 国产AI芯片旗舰 · 全栈自研

🇨🇳 中国 ⚡ 算力层 AI芯片达芬奇架构量产中

简介

华为昇腾（Ascend）是基于自研达芬奇（Da Vinci）架构的AI处理器系列，覆盖"端-边-云"全场景，是中国唯一构建了从芯片→硬件→框架→应用全栈AI生态的国产算力平台。自2018年发布以来，昇腾已迭代至910C（2024年量产），以~800 TFLOPS（FP16）算力在推理任务中达到NVIDIA H100约60–80%的性能。据IDC数据，2025年华为昇腾出货81.2万张，占中国AI芯片市场约20%份额（国产第一），AI芯片营收约75亿美元。在美国出口管制持续收紧的背景下，昇腾已成为中国AI基础设施自主化的核心支柱。

厂商	华为技术有限公司 / 海思半导体（HiSilicon）
首次发布	2018年10月（华为全联接大会）
技术架构	自研达芬奇（Da Vinci）架构；3D Cube矩阵计算单元
制程工艺	7nm（910B/C，SMIC代工）；早期910由台积电代工
硬件产品	Atlas系列：加速卡（300I/300T）、服务器（800）、集群（900）
软件栈	CANN（异构计算）、MindSpore（昇思框架）、MindX（应用使能全家桶）
整机伙伴	14家认证伙伴：华鲲振宇（24%出货）、超聚变（21%）等
开发者	330万+昇腾开发者；MindSpore 1100万+下载；2024年国产AI框架份额30%
2025年出货	81.2万张（IDC），营收约75亿美元
官网	hiascend.com

🖥️ 芯片代际参数

型号	发布时间	制程	架构	FP16算力	INT8算力	内存/带宽	功耗	定位
310	2018	12nm	Da Vinci, 2×AI Core	8 TFLOPS	16 TOPS	LPDDR4X	8W	边缘推理
910	2019	7nm (TSMC)	32×Da Vinci Max	256 TFLOPS	512 TOPS	32GB HBM2 / 1.2TB/s	310W	云端训练
910B	2023	7nm (SMIC)	25×New Da Vinci	~376 TFLOPS	—	HBM2E	~310W	训推一体
910C	2024	7nm (SMIC N+2)	双910B Die合封 530亿晶体管	~800 TFLOPS	—	HBM2E / ~3.2TB/s	—	主力训推
950PR	2026Q1	N+2/N+3	SIMD+SIMT双模型 FP4/FP8首秀	~1 PFLOPS (FP8)	—	128GB 自研HiBL 1.0	—	推理优化
950DT	2026Q4	N+2/N+3	SIMD+SIMT双模型	~1 PFLOPS (FP8)	—	144GB 自研HiZQ 2.0 / 4TB/s	—	训练+推理
960	~2027 (路线图)	N+3	能效比提升30%+ 动态稀疏计算	算力翻倍	—	288GB HBM	—	超大模型
970	~2028 (路线图)	先进制程	旗舰架构	8 PFLOPS (FP4)	—	288GB HBM / 4TB/s互联	—	万亿参数

💡 910C工程策略

910C通过先进封装将两颗910B裸片整合为单芯片，在先进制程受限下实现算力倍增。但双Die间通过有机基板+独立硅中介层互联，带宽可能仅为NVIDIA NVLink的1/10~1/20，软件层需显式管理数据局部性。

🔧 生态与软件栈

CANN 异构计算架构

CANN（Compute Architecture for Neural Networks）是昇腾AI处理器的异构计算架构，最新版本已支持1500+算子，提供Ascend C自定义算子编程语言，实现算子开发效率数倍提升。CANN已实现全面开源开放，并支持Triton中间表示层接入，降低开发者迁移成本。典型融合算子开发周期从2个月缩短至1.5人周。支持PyTorch、TensorFlow、MindSpore等主流框架无缝适配。

MindSpore 昇思AI框架

开源版本累计1100万次下载，3.7万+核心贡献者。2024年中国AI框架新增市场中份额达30%。万亿参数MoE模型训练性能提升20%。支持自动并行、图算融合、二阶优化等特性。

🧩 MindX 应用使能家族 — 全场景AI软件栈

MindX是华为面向AI全场景打造的應用使能软件家族，覆盖"云-边-端-集群-工具链"全维度，对标NVIDIA全套软件生态：

🧠 MindIE 推理引擎

对标 TensorRT-LLM / vLLM / Triton Inference Server

企业级推理加速引擎，包含四大组件：MindIE LLM（大语言模型推理加速，支持动态批处理、PagedAttention、量化推理）、MindIE SD（Stable Diffusion类文生图推理加速）、MindIE Motor（模型自动调优与编译优化）、MindIE Turbo（高性能推理运行时，支持多模型并发）。支持FP4/FP8/INT8/INT4量化，单卡推理吞吐较原生提升3-5倍。

⚡ MindSpeed 训练加速库

对标 Megatron-LM / DeepSpeed

大模型分布式训练加速套件，包含：MindSpeed LLM（千亿/万亿参数LLM训练加速，支持TP/PP/DP/EP混合并行）、MindSpeed MM（多模态大模型训练加速）、MindSpeed RL（强化学习训练加速）、MindSpeed Core（核心算子库与通信优化）。支持ZeRO优化器、序列并行、FlashAttention深度融合，千亿模型训练效率提升30%+。

☸️ MindX DL 深度学习平台

对标 Kubeflow / Slurm

面向数据中心的深度学习容器化平台，提供资源调度、训练作业管理、镜像管理、分布式训练编排等能力。基于Kubernetes架构，支持昇腾设备管理（Ascend Device Plugin）、弹性训练、故障自愈，已在多个智算中心落地。

📡 MindX Edge 智能边缘

对标 NVIDIA Jetson

边侧AI推理平台，基于昇腾310/610芯片，提供Edge AI全栈软件能力，包括模型压缩、量化部署、边缘推理框架。覆盖工业质检、智慧交通、智能安防等场景，支持云边协同、离线推理。

🔌 MindSDK 应用SDK

对标 NVIDIA cuDNN / TensorRT SDK

面向行业ISV的应用开发套件，封装昇腾AI硬件的推理、训练、编解码等能力，提供高性能C++/Python API，支持快速集成到现有业务系统。覆盖视觉（CV）、自然语言（NLP）、多模态等场景。

🌐 MindCluster 集群使能

对标 NVIDIA DGX SuperPOD / Base Command

超大规模AI集群管理套件，面向千卡/万卡级别集群提供统一管理、监控告警、故障定位、弹性扩缩容等能力。支持CloudMatrix 384超节点架构，实现集群线性扩展效率≥95%。

🛠️ MindStudio 全流程工具链

对标 NVIDIA NSight Systems / Nsight Compute

一站式AI开发集成环境，覆盖算子开发（Ascend C IDE）、模型迁移（PyTorch/TF → ONNX → Ascend）、精度调优、性能Profiling、AI编译调试等全流程。提供Profiling可视化、算子性能分析、通信效率分析等深度调优能力。

🤖 CCAE 集群自智引擎

对标 NVIDIA Base Command / Run:ai

Cloud Cluster Autonomous Engine，面向智算中心的集群自治引擎，支持资源智能调度、故障预测与自愈、节能调优、运维大脑等能力。基于AI for System理念，实现集群运维效率提升50%+。

☁️ ModelArts 云上AI平台

对标 Amazon SageMaker / Vertex AI

华为云全托管AI开发与部署平台，提供数据标注、模型训练、自动搜索（AutoML）、模型评估、云端推理部署等一站式服务。数据预处理速度提升5倍以上，支持多种计算资源规格组合。

开源基础软件

openEuler（欧拉）：2024年中国新增服务器OS市场份额突破50%。openGauss（高斯）：线下集中式关系型数据库新增市场份额30.2%。与"鲲鹏"ARM CPU形成协同。

🔑 生态战略

"硬件开放、软件开源、使能伙伴、发展人才"。计划未来3年每年投入10亿元，赋能百万原生人才、孵化千个原生项目。

⚔️ MindX家族 vs 行业主流对标

华为 MindX 组件	功能定位	对标行业产品	差异化优势
MindIE (推理引擎)	大模型推理加速、模型编译优化、多模型运行时	TensorRT-LLM / vLLM / Triton Server	端到端全流程优化，从算子→图→运行时统一调度；原生支持昇腾硬件特性
MindSpeed (训练加速库)	分布式训练加速、混合并行策略、通信优化	Megatron-LM / DeepSpeed	昇腾硬件深度适配的TP/PP/DP/EP混合并行；千亿模型训练效率提升30%+
MindX DL (深度学习平台)	K8s容器化AI训练平台、资源调度	Kubeflow / Slurm	原生集成昇腾设备管理，开箱即用；支持弹性训练与故障自愈
MindX Edge (智能边缘)	边侧推理、模型压缩、云边协同	NVIDIA Jetson	端-边-云统一MindX架构，部署迁移成本低；国产自主可控
MindSDK (应用SDK)	行业ISV开发套件、CV/NLP/多模态API	cuDNN / TensorRT SDK	高层封装更高，面向行业场景预置AI能力
MindCluster (集群使能)	超大规模集群管理、CloudMatrix超节点	DGX SuperPOD / Base Command	万卡级线性扩展效率≥95%；超节点架构支持更大模型并行
MindStudio (工具链)	IDE、Profiling、模型迁移、算子开发	NSight Systems / Nsight Compute	一站式集成，覆盖从模型迁移到性能调优全流程
CCAE (集群自智引擎)	AI集群自治、智能调度、故障预测	Base Command / Run:ai	AI for System闭环，运维效率提升50%+
ModelArts (云上AI平台)	全托管ML平台、AutoML、云端推理	Amazon SageMaker / Vertex AI	与华为云生态深度集成；端边云协同部署

📊 市场定位

领域	典型场景	代表性客户
智算中心	城市AI算力基础设施	合肥、沈阳、长春等地AI计算中心；福建平潭1000P集群
运营商	AI服务器集采	中国移动、中国电信、中国联通
政企	政务AI、信创替代	各级政府部门
金融	智能风控、分布式核心	国有五大行等
互联网	大模型训练推理	字节跳动、阿里、腾讯、百度
自动驾驶	车载AI推理	华为ADS 2.0（昇腾610车载芯片）

📊 中国AI芯片市场份额（2025 IDC）

NVIDIA 220万张（55%）· 华为昇腾 81.2万张（20%）· 平头哥 26万+张（6.6%）· 昆仑芯 & 寒武纪各~11.6万张（2.9%）· 海光信息 ~8.4万张 · 其他国产合计约5%

⚔️ 制裁与自主化

美国出口管制关键节点

2019.5：华为列入实体清单
2020.9：台积电停止代工，昇腾910生产中断
2023-2024：转向SMIC 7nm（良率~20%）；910B/C量产
2024.12：美国禁运先进HBM，华为加速自研HiBL/HiZQ
2025.6：美商务部估算华为年产量约20万张

🔧 制造自主化

SMIC代工：7nm N+1/N+2工艺，2025年底产能目标5万wpm。Die合封：910C双Die方案绕过单Die良率瓶颈。自研HBM：950系列首次搭载自研HBM。据传华为通过壳公司从台积电获取约300万颗7nm Die库存，结合三星HBM2E库存，短期内仍有可观产能。

🏆 竞品对比

维度	华为昇腾 910C	NVIDIA H100	NVIDIA B200
FP16算力	~800 TFLOPS	989 TFLOPS	~2.25 PFLOPS
FP8算力	~1.6 PFLOPS	1.98 PFLOPS	~4.5 PFLOPS
INT8算力	—	3.96 POPS	~9 POPS
内存/带宽	HBM2E / ~3.2 TB/s	80GB HBM3 / 3.35 TB/s	192GB HBM3e / 8 TB/s
制程	SMIC 7nm N+2	TSMC 4nm	TSMC 4nm
晶体管数	~530亿 (双Die合封)	800亿	2080亿
互联	HCCS（带宽受限）	NVLink 4.0 (900 GB/s)	NVLink 5.0 (1.8 TB/s)
软件生态	CANN + MindSpore + MindX	CUDA（全球成熟生态）	CUDA（全球成熟生态）
vs H100性能比	60-80%（推理） 40-60%（训练）	基准	~2.3× H100（训练） ~3-4× H100（推理）
典型TCO	约H100的50-60% （以FP16等效算力计）	基准	约H100的1.8-2.2×
供货状态	量产中（产能受限）	量产中	2025年Q2量产

💡 对比分析

vs B200：B200基于Blackwell架构，采用2080亿晶体管（两个Die合封），在FP8/FP16算力上分别是910C的约2.8×和2.8×，内存带宽是2.5×。但B200供货受出口管制限制—中国客户无法直接购买。昇腾910C在受限制程下实现B200约35-40%的算力密度，且TCO成本较B200（等效算力约H100的1.8-2.2×）有显著优势。
vs H100：910C在推理任务中可达H100的60-80%性能，训练任务差距略大（40-60%），但价格优势显著（约H100的50-60%）。随着MindIE/MindSpeed等软件栈成熟，实际应用差距正在缩小。

📅 发展历程

2018.10：华为全联接大会发布AI战略及昇腾910/310芯片
2019.8：昇腾910正式商用，Atlas硬件矩阵发布
2020.3：MindSpore开源；2020.9台积电断供
2021-2022：转向SMIC 7nm工艺，完成制造转移
2023：910B量产，首个完全SMIC代工的数据中心级AI芯片
2024：910C量产；CloudMatrix 384超节点发布；CANN 8.0全面开源
2025：年出货81.2万张，AI芯片营收~75亿美元；950系列路线图披露
2026：950PR量产；MindX全家桶全面对标NVIDIA软件生态发布

~800 TFLOPS

910C FP16算力

81.2万张

2025年出货量 (IDC)

~75亿美元

2025年AI芯片营收

330万+

昇腾开发者

30%

昇思框架市场份额

~20%

SMIC 7nm良率