🧠 AI知识库

人工智能产业链与技术栈全景图 v0.2.0 · 2026-05-14

DeepSeek 深度求索

全球开源大模型颠覆者 · 中国AI的"斯普特尼克时刻"

🇨🇳 中国🧠 模型层大模型全面开源MoE架构

简介

DeepSeek(深度求索)是中国最具全球影响力的AI创业公司,由幻方量化创始人梁文锋创立。其旗舰模型DeepSeek-V3(671B MoE,37B激活参数)以约550万美元的训练成本达到GPT-4o级别性能,DeepSeek-R1更是全球首个开源推理模型达到o1级别能力,引爆2025年初全球AI界"斯普特尼克时刻"。DeepSeek以极致性价比+全面开源策略彻底打破了"大模型=烧钱"的行业认知,APP上线20天DAU突破2000万,迫使美国AI巨头重新评估开源战略。据传DeepSeek正计划融资18-20亿美元,估值或达数百亿。

厂商深度求索 (DeepSeek)
创始人梁文锋(幻方量化创始人,量化投资背景)
成立时间2023年
总部中国杭州
技术路线MoE + MLA + 强化学习推理;全面开源
旗舰模型DeepSeek-V3(671B MoE)· DeepSeek-R1(推理模型)
训练成本V3仅约$550万(H800 GPU·小时),远低于GPT-4的$1亿+
开源协议MIT License(完全开放商用)
融资进展传正计划融资18-20亿美元(2025年)
官网deepseek.com

🧬 模型矩阵

模型时间参数关键突破
DeepSeek-V22024.5236B MoE (21B激活)MLA注意力机制;128K上下文;成本极低
DeepSeek-Coder-V22024.6236B MoE代码开源模型全球领先
DeepSeek-V32024.12671B MoE (37B激活)$550万训练成本;GPT-4o级别性能;FP8训练
DeepSeek-R12025.1671B MoE (37B激活)全球首个开源o1级别推理模型;纯RL训练推理链
DeepSeek-R1-Distill2025.11.5B–70B蒸馏小模型,可在消费级GPU运行推理能力
DeepSeek-V42025.Q2?下一代旗舰,预计性能大幅提升

🔬 核心技术突破

MLA (Multi-head Latent Attention)

DeepSeek自研的MLA注意力机制,将KV缓存压缩至传统方法的5-10%,大幅降低推理显存占用和成本。这是DeepSeek能实现极致性价比的核心技术。

MoE + 负载均衡

V3采用671B MoE架构,每次推理仅激活37B参数。通过创新的辅助损失函数实现专家负载均衡,解决了传统MoE训练不稳定的难题。

纯RL推理训练

R1的突破在于:不使用大量人工标注的推理链数据,而是通过强化学习让模型自行涌现推理能力(包括自我反思、验证、回溯等行为),再蒸馏到小模型。这一技术路线震惊了全球AI界。

FP8混合精度训练

V3是首个大规模使用FP8训练的模型,在保持训练稳定性的同时大幅降低成本。

📈 行业影响

🌍 全球冲击波

DeepSeek的崛起被西方媒体称为AI界的"斯普特尼克时刻"
• R1性能媲美OpenAI o1,但完全开源、成本仅为零头
• 美股AI概念股单日蒸发万亿市值(NVIDIA跌17%)
• 迫使Meta成立专门"战情室"研究DeepSeek技术
• 证明中国在算法创新层面可与美国一较高下
• 让全球开发者意识到:大模型不必依赖NVIDIA顶级GPU

商业策略

  • API定价:仅为GPT-4的1/20-1/50,价格战激进
  • 开源策略:MIT协议完全开源,允许商用和二次开发
  • 算力来源:依托幻方量化的GPU储备(万卡级H800集群)及"萤火"系列智算平台
  • 团队文化:小而精,不追求商业化变现,专注技术突破

💰 资本运作

据2025年报道,DeepSeek正计划进行首轮外部融资,金额约18-20亿美元。此前公司完全依靠幻方量化的自有资金运营。融资传闻中提及两家科技巨头可能参与投资。若融资完成,估值可能达数百亿美元级别,跻身中国AI独角兽第一梯队。

⚔️ 竞品对比

维度DeepSeekOpenAI阿里通义智谱AI
架构MoE (671B/37B激活)Dense/MoEDense+MoEDense/MoE
训练成本$550万$1亿+数千万$数千万$
开源MIT全面开源闭源Apache 2.0开源
API价格行业最低行业最高中等中低
资金来源量化自营+传融资风投+微软阿里集团风投+政企
671B
V3总参数量(MoE)
37B
每次推理激活参数
$550万
V3训练成本
MIT
开源协议(商用自由)