华为昇腾
Ascend — 国产AI芯片旗舰 · 全栈自研
简介
华为昇腾(Ascend)是基于自研达芬奇(Da Vinci)架构的AI处理器系列,覆盖"端-边-云"全场景,是中国唯一构建了从芯片→硬件→框架→应用全栈AI生态的国产算力平台。自2018年发布以来,昇腾已迭代至910C(2024年量产),以~800 TFLOPS(FP16)算力在推理任务中达到NVIDIA H100约60–80%的性能。据IDC数据,2025年华为昇腾出货81.2万张,占中国AI芯片市场约20%份额(国产第一),AI芯片营收约75亿美元。在美国出口管制持续收紧的背景下,昇腾已成为中国AI基础设施自主化的核心支柱。
| 厂商 | 华为技术有限公司 / 海思半导体(HiSilicon) |
| 首次发布 | 2018年10月(华为全联接大会) |
| 技术架构 | 自研达芬奇(Da Vinci)架构;3D Cube矩阵计算单元 |
| 制程工艺 | 7nm(910B/C,SMIC代工);早期910由台积电代工 |
| 硬件产品 | Atlas系列:加速卡(300I/300T)、服务器(800)、集群(900) |
| 软件栈 | CANN(异构计算)、MindSpore(昇思框架)、MindIE(推理引擎) |
| 整机伙伴 | 14家认证伙伴:华鲲振宇(24%出货)、超聚变(21%)等 |
| 开发者 | 330万+昇腾开发者;MindSpore 1100万+下载;2024年国产AI框架份额30% |
| 2025年出货 | 81.2万张(IDC),营收约75亿美元 |
| 官网 | hiascend.com |
🖥️ 芯片代际参数
| 型号 | 发布时间 | 制程 | 架构 | FP16算力 | INT8算力 | 内存/带宽 | 功耗 | 定位 |
|---|---|---|---|---|---|---|---|---|
| 310 | 2018 | 12nm | Da Vinci, 2×AI Core | 8 TFLOPS | 16 TOPS | LPDDR4X | 8W | 边缘推理 |
| 910 | 2019 | 7nm (TSMC) | 32×Da Vinci Max | 256 TFLOPS | 512 TOPS | 32GB HBM2 / 1.2TB/s | 310W | 云端训练 |
| 910B | 2023 | 7nm (SMIC) | 25×New Da Vinci | ~376 TFLOPS | — | HBM2E | ~310W | 训推一体 |
| 910C | 2024 | 7nm (SMIC N+2) | 双910B Die合封 530亿晶体管 | ~800 TFLOPS | — | HBM2E / ~3.2TB/s | — | 主力训推 |
| 950PR | 2026Q1 | N+2/N+3 | SIMD+SIMT双模型 FP4/FP8首秀 | ~1 PFLOPS (FP8) | — | 128GB 自研HiBL 1.0 | — | 推理优化 |
| 950DT | 2026Q4 | N+2/N+3 | SIMD+SIMT双模型 | ~1 PFLOPS (FP8) | — | 144GB 自研HiZQ 2.0 / 4TB/s | — | 训练+推理 |
| 960 | ~2027 (路线图) | N+3 | 能效比提升30%+ 动态稀疏计算 | 算力翻倍 | — | 288GB HBM | — | 超大模型 |
| 970 | ~2028 (路线图) | 先进制程 | 旗舰架构 | 8 PFLOPS (FP4) | — | 288GB HBM / 4TB/s互联 | — | 万亿参数 |
💡 910C工程策略
910C通过先进封装将两颗910B裸片整合为单芯片,在先进制程受限下实现算力倍增。但双Die间通过有机基板+独立硅中介层互联,带宽可能仅为NVIDIA NVLink的1/10~1/20,软件层需显式管理数据局部性。
🔧 生态与软件栈
CANN 异构计算架构
CANN 8.0新增200+深度优化算子、80+融合算子,典型融合算子开发周期从2个月缩短至1.5人周。支持PyTorch、TensorFlow等主流框架适配。
MindSpore 昇思AI框架
开源版本累计1100万次下载,3.7万+核心贡献者。2024年中国AI框架新增市场中份额达30%。万亿参数MoE模型训练性能提升20%。
开源基础软件
openEuler(欧拉):2024年中国新增服务器OS市场份额突破50%。openGauss(高斯):线下集中式关系型数据库新增市场份额30.2%。与"鲲鹏"ARM CPU形成协同。
🔑 生态战略
"硬件开放、软件开源、使能伙伴、发展人才"。计划未来3年每年投入10亿元,赋能百万原生人才、孵化千个原生项目。
📊 市场定位
| 领域 | 典型场景 | 代表性客户 |
|---|---|---|
| 智算中心 | 城市AI算力基础设施 | 合肥、沈阳、长春等地AI计算中心;福建平潭1000P集群 |
| 运营商 | AI服务器集采 | 中国移动、中国电信、中国联通 |
| 政企 | 政务AI、信创替代 | 各级政府部门 |
| 金融 | 智能风控、分布式核心 | 国有五大行等 |
| 互联网 | 大模型训练推理 | 字节跳动、阿里、腾讯、百度 |
| 自动驾驶 | 车载AI推理 | 华为ADS 2.0(昇腾610车载芯片) |
📊 中国AI芯片市场份额(2025 IDC)
NVIDIA 220万张(55%)· 华为昇腾 81.2万张(20%)· 平头哥 26万+张(6.6%)· 昆仑芯 & 寒武纪 各~11.6万张(2.9%)· 海光信息 ~8.4万张 · 其他国产合计约5%
⚔️ 制裁与自主化
美国出口管制关键节点
- 2019.5:华为列入实体清单
- 2020.9:台积电停止代工,昇腾910生产中断
- 2023-2024:转向SMIC 7nm(良率~20%);910B/C量产
- 2024.12:美国禁运先进HBM,华为加速自研HiBL/HiZQ
- 2025.6:美商务部估算华为年产量约20万张
🔧 制造自主化
SMIC代工:7nm N+1/N+2工艺,2025年底产能目标5万wpm。Die合封:910C双Die方案绕过单Die良率瓶颈。自研HBM:950系列首次搭载自研HBM。据传华为通过壳公司从台积电获取约300万颗7nm Die库存,结合三星HBM2E库存,短期内仍有可观产能。
🏆 竞品对比
| 维度 | 华为昇腾 910C | NVIDIA H100 | NVIDIA B200 |
|---|---|---|---|
| FP16算力 | ~800 TFLOPS | 989 TFLOPS | ~2.25 PFLOPS |
| 内存带宽 | ~3.2 TB/s | 3.35 TB/s | 8 TB/s |
| 制程 | SMIC 7nm N+2 | TSMC 4nm | TSMC 4nm |
| 互联 | HCCS(带宽受限) | NVLink 4.0 (900 GB/s) | NVLink 5.0 (1.8 TB/s) |
| 软件生态 | CANN+MindSpore | CUDA(全球成熟生态) | CUDA(全球成熟生态) |
| vs H100性能 | 60-80% | 基准 | ~2.3× H100 |
📅 发展历程
- 2018.10:华为全联接大会发布AI战略及昇腾910/310芯片
- 2019.8:昇腾910正式商用,Atlas硬件矩阵发布
- 2020.3:MindSpore开源;2020.9台积电断供
- 2021-2022:转向SMIC 7nm工艺,完成制造转移
- 2023:910B量产,首个完全SMIC代工的数据中心级AI芯片
- 2024:910C量产;CloudMatrix 384超节点发布;CANN 8.0
- 2025:年出货81.2万张,AI芯片营收~75亿美元;950系列路线图披露