实验记录

模型发布、架构实验与基准测试结果

════════════════════════════════════════════════════════════════════════

C:\TRUTHSEEK\EXPERIMENTS> query --logs

模型发布:8个主要版本

架构创新:MoE、MLA、FP8

最高参数量:671B(37B激活)

────────────────────────────────────────────────────────────────────────

// 实验注册表.DAT

日期模型关键成果规模
2023-11-29DeepSeek-67B (LLM)67B稠密模型,首个重要发布。在2T token上训练。在通用基准测试中与Llama 2 70B具有竞争力。67B参数
2024-01-11DeepSeekMoE-16BMoE架构,2B激活参数匹配16.4B稠密模型。所有未来MoE工作的基础。16B总量
2024-02-05DeepSeekMath-7B数学专用7B模型,在120B数学token上训练。MATH基准51.7%,接近Gemini Ultra性能。7B参数
2024-05-07DeepSeek-V2236B MoE模型,配备Multi-Head Latent Attention (MLA)。21B激活参数。KV缓存减少93.3%。API定价$0.14/M输入token。236B总量
2024-06-17DeepSeek-Coder-V2代码专用236B MoE,支持338种语言。在HumanEval上匹配GPT-4 Turbo。LiveCodeBench顶级表现。236B总量
2024-12-26DeepSeek-V3671B MoE,37B激活。在14.8T token上进行FP8训练。训练成本约$5.58M,使用2,048块H800 GPU。在各项基准测试中匹配GPT-4o。671B总量
2025-01-20DeepSeek-R1-Zero纯强化学习推理模型——无监督微调。观察到涌现式思维链和自我验证行为。671B基础
2025-01-20DeepSeek-R1通过多阶段强化学习训练的完整推理模型。AIME 2024上79.8%,MATH-500上97.3%。在数学和编码上匹配OpenAI o1。671B基础
────────────────────────────────────────────────────────────────────────

// 研究轨迹.TXT

深度求索的研究轨迹展示了一种系统性的前沿AI方法:从具有竞争力的 稠密模型起步,在架构上创新(MoE、MLA),实现极致的成本效率 (FP8训练、无辅助损失均衡),然后通过强化学习推进推理能力。

每个模型都直接构建在上一代架构创新之上。V2的Multi-Head Latent Attention 成为V3的推理骨干。V3的基础模型成为R1涌现推理的根基。这些创新的 复合效应解释了为何一个相对较小的团队能够取得前沿级别的成果。

────────────────────────────────────────────────────────────────────────

// 关键里程碑.DAT

DeepSeek-67B:首个具有竞争力的开放模型

证明了一家中国AI实验室能够从零训练出前沿级别的稠密模型

DeepSeekMoE:专家专业化突破

证明了细粒度MoE路由能够以极少的算力达到稠密模型的质量

DeepSeek-V2:MLA架构创新

Multi-Head Latent Attention将推理成本降低93%,使大规模部署在经济上可行

DeepSeek-V3:成本效率里程碑

671B模型训练成本约$5.58M——大约是同等前沿模型的1/10,重塑了行业经济格局

DeepSeek-R1:通过强化学习涌现推理

纯强化学习在没有任何监督样本的情况下产生了思维链推理,这是该领域的首创

────────────────────────────────────────────────────────────────────────

// 效率论题.TXT

深度求索的核心论题是:算法效率而非原始算力才是前沿AI的主要瓶颈。 以约$5.58M的成本在2,048块H800 GPU上训练V3——大约比同等模型便宜 10倍——这不是一次性的技巧,而是系统性的研究优势。如果这种效率差距 持续累积,它将重塑AI开发的整个经济格局。

════════════════════════════════════════════════════════════════════════

C:\TRUTHSEEK\EXPERIMENTS>