DeepSeek - AI知识库

深

DeepSeek 深度求索

全球开源大模型颠覆者 · 中国AI的"斯普特尼克时刻"

🇨🇳 中国🧠 模型层大模型全面开源MoE架构

简介

DeepSeek（深度求索）是中国最具全球影响力的AI创业公司，由幻方量化创始人梁文锋创立。其旗舰模型DeepSeek-V3（671B MoE，37B激活参数）以约550万美元的训练成本达到GPT-4o级别性能，DeepSeek-R1更是全球首个开源推理模型达到o1级别能力，引爆2025年初全球AI界"斯普特尼克时刻"。DeepSeek以极致性价比+全面开源策略彻底打破了"大模型=烧钱"的行业认知，APP上线20天DAU突破2000万，迫使美国AI巨头重新评估开源战略。据传DeepSeek正计划融资18-20亿美元，估值或达数百亿。

厂商	深度求索 (DeepSeek)
创始人	梁文锋（幻方量化创始人，量化投资背景）
成立时间	2023年
总部	中国杭州
技术路线	MoE + MLA + 强化学习推理；全面开源
旗舰模型	DeepSeek-V3（671B MoE）· DeepSeek-R1（推理模型）
训练成本	V3仅约$550万（H800 GPU·小时），远低于GPT-4的$1亿+
开源协议	MIT License（完全开放商用）
融资进展	传正计划融资18-20亿美元（2025年）
官网	deepseek.com

🧬 模型矩阵

模型	时间	参数	关键突破
DeepSeek-V2	2024.5	236B MoE (21B激活)	MLA注意力机制；128K上下文；成本极低
DeepSeek-Coder-V2	2024.6	236B MoE	代码开源模型全球领先
DeepSeek-V3	2024.12	671B MoE (37B激活)	$550万训练成本；GPT-4o级别性能；FP8训练
DeepSeek-R1	2025.1	671B MoE (37B激活)	全球首个开源o1级别推理模型；纯RL训练推理链
DeepSeek-R1-Distill	2025.1	1.5B–70B	蒸馏小模型，可在消费级GPU运行推理能力
DeepSeek-V4	2025.Q2?	—	下一代旗舰，预计性能大幅提升

🔬 核心技术突破

MLA (Multi-head Latent Attention)

DeepSeek自研的MLA注意力机制，将KV缓存压缩至传统方法的5-10%，大幅降低推理显存占用和成本。这是DeepSeek能实现极致性价比的核心技术。

MoE + 负载均衡

V3采用671B MoE架构，每次推理仅激活37B参数。通过创新的辅助损失函数实现专家负载均衡，解决了传统MoE训练不稳定的难题。

纯RL推理训练

R1的突破在于：不使用大量人工标注的推理链数据，而是通过强化学习让模型自行涌现推理能力（包括自我反思、验证、回溯等行为），再蒸馏到小模型。这一技术路线震惊了全球AI界。

FP8混合精度训练

V3是首个大规模使用FP8训练的模型，在保持训练稳定性的同时大幅降低成本。

📈 行业影响

🌍 全球冲击波

DeepSeek的崛起被西方媒体称为AI界的"斯普特尼克时刻"：
• R1性能媲美OpenAI o1，但完全开源、成本仅为零头
• 美股AI概念股单日蒸发万亿市值（NVIDIA跌17%）
• 迫使Meta成立专门"战情室"研究DeepSeek技术
• 证明中国在算法创新层面可与美国一较高下
• 让全球开发者意识到：大模型不必依赖NVIDIA顶级GPU

商业策略

API定价：仅为GPT-4的1/20-1/50，价格战激进
开源策略：MIT协议完全开源，允许商用和二次开发
算力来源：依托幻方量化的GPU储备（万卡级H800集群）及"萤火"系列智算平台
团队文化：小而精，不追求商业化变现，专注技术突破

💰 资本运作

据2025年报道，DeepSeek正计划进行首轮外部融资，金额约18-20亿美元。此前公司完全依靠幻方量化的自有资金运营。融资传闻中提及两家科技巨头可能参与投资。若融资完成，估值可能达数百亿美元级别，跻身中国AI独角兽第一梯队。

⚔️ 竞品对比

维度	DeepSeek	OpenAI	阿里通义	智谱AI
架构	MoE (671B/37B激活)	Dense/MoE	Dense+MoE	Dense/MoE
训练成本	$550万	$1亿+	数千万$	数千万$
开源	MIT全面开源	闭源	Apache 2.0	开源
API价格	行业最低	行业最高	中等	中低
资金来源	量化自营+传融资	风投+微软	阿里集团	风投+政企

671B

V3总参数量(MoE)

37B

每次推理激活参数

$550万

V3训练成本

MIT

开源协议（商用自由）

📚 研究资料

📄 Deepseek R1 and Open-Source Reasoning Models

📄 DeepSeek计划融资18亿美元，两家科技巨头投资 - 21财经

📄 DeepSeek R1: open source reasoning model | LM Studio Blog

📄 DeepSeek，大消息！正计划融资20亿元？ - 证券时报