实验记录
模型发布、架构实验与基准测试结果
C:\TRUTHSEEK\EXPERIMENTS> query --logs
模型发布:8个主要版本
架构创新:MoE、MLA、FP8
最高参数量:671B(37B激活)
// 实验注册表.DAT
| 日期 | 模型 | 关键成果 | 规模 |
|---|---|---|---|
| 2023-11-29 | DeepSeek-67B (LLM) | 67B稠密模型,首个重要发布。在2T token上训练。在通用基准测试中与Llama 2 70B具有竞争力。 | 67B参数 |
| 2024-01-11 | DeepSeekMoE-16B | MoE架构,2B激活参数匹配16.4B稠密模型。所有未来MoE工作的基础。 | 16B总量 |
| 2024-02-05 | DeepSeekMath-7B | 数学专用7B模型,在120B数学token上训练。MATH基准51.7%,接近Gemini Ultra性能。 | 7B参数 |
| 2024-05-07 | DeepSeek-V2 | 236B MoE模型,配备Multi-Head Latent Attention (MLA)。21B激活参数。KV缓存减少93.3%。API定价$0.14/M输入token。 | 236B总量 |
| 2024-06-17 | DeepSeek-Coder-V2 | 代码专用236B MoE,支持338种语言。在HumanEval上匹配GPT-4 Turbo。LiveCodeBench顶级表现。 | 236B总量 |
| 2024-12-26 | DeepSeek-V3 | 671B MoE,37B激活。在14.8T token上进行FP8训练。训练成本约$5.58M,使用2,048块H800 GPU。在各项基准测试中匹配GPT-4o。 | 671B总量 |
| 2025-01-20 | DeepSeek-R1-Zero | 纯强化学习推理模型——无监督微调。观察到涌现式思维链和自我验证行为。 | 671B基础 |
| 2025-01-20 | DeepSeek-R1 | 通过多阶段强化学习训练的完整推理模型。AIME 2024上79.8%,MATH-500上97.3%。在数学和编码上匹配OpenAI o1。 | 671B基础 |
// 研究轨迹.TXT
深度求索的研究轨迹展示了一种系统性的前沿AI方法:从具有竞争力的 稠密模型起步,在架构上创新(MoE、MLA),实现极致的成本效率 (FP8训练、无辅助损失均衡),然后通过强化学习推进推理能力。
每个模型都直接构建在上一代架构创新之上。V2的Multi-Head Latent Attention 成为V3的推理骨干。V3的基础模型成为R1涌现推理的根基。这些创新的 复合效应解释了为何一个相对较小的团队能够取得前沿级别的成果。
// 关键里程碑.DAT
DeepSeek-67B:首个具有竞争力的开放模型
证明了一家中国AI实验室能够从零训练出前沿级别的稠密模型
DeepSeekMoE:专家专业化突破
证明了细粒度MoE路由能够以极少的算力达到稠密模型的质量
DeepSeek-V2:MLA架构创新
Multi-Head Latent Attention将推理成本降低93%,使大规模部署在经济上可行
DeepSeek-V3:成本效率里程碑
671B模型训练成本约$5.58M——大约是同等前沿模型的1/10,重塑了行业经济格局
DeepSeek-R1:通过强化学习涌现推理
纯强化学习在没有任何监督样本的情况下产生了思维链推理,这是该领域的首创
// 效率论题.TXT
深度求索的核心论题是:算法效率而非原始算力才是前沿AI的主要瓶颈。 以约$5.58M的成本在2,048块H800 GPU上训练V3——大约比同等模型便宜 10倍——这不是一次性的技巧,而是系统性的研究优势。如果这种效率差距 持续累积,它将重塑AI开发的整个经济格局。
C:\TRUTHSEEK\EXPERIMENTS> █