发现日志
从基础模型到推理突破,再到AGI的探索之路
C:\TRUTHSEEK\DISCOVERIES> summary --all
已完成里程碑: 14个重要版本
进行中: 3个活跃项目
架构创新: MLA, MoE, GRPO, Multi-Token Prediction
使命: 探索AGI的奥秘
"我们不以盈利为首要目标。我们希望以好奇心探索AGI的奥秘, 并相信这将造福全人类。"
— 梁文锋,深度求索AI创始人
// 基础阶段.DAT [2023]
深度求索 | 奠定基础
深度求索发布了首个拥有670亿参数的大型语言模型,基于2万亿token从零开始训练。展示了与开源模型相当的竞争力表现,确立了深度求索在大型语言模型领域的重要地位。
深度求索 / 研究部 | 领域专精
发布了DeepSeek-Coder系列(1.3B至33B),基于2万亿token的代码和自然语言数据训练。在HumanEval和MBPP基准测试中达到最先进水平。验证了项目级代码补全方法的可行性。
深度求索 / 研究部 | 推理突破
使用组相对策略优化(GRPO)的数学问题求解专用模型。在MATH基准测试中达到88.2%的成绩,支持工具集成推理。证明了定向训练能够解锁深层推理能力。
// 架构阶段.DAT [2024]
深度求索 | 架构创新
引入多头潜在注意力机制(MLA),将KV缓存减少93.3%。结合DeepSeekMoE架构,采用细粒度专家分割。总参数236B,每个token仅激活21B。推理成本比同等规模密集模型低42.5倍。
深度求索 | 对话 + 代码合并
将通用对话和编码能力整合到单一统一模型中。改进了写作和指令遵循能力。在多个基准测试中位列开源模型第一。证明了统一架构方法的可行性。
深度求索 | MoE用于代码
将MoE架构应用于代码生成。总参数236B / 激活参数21B。支持338种编程语言。在编码和数学基准测试中超越GPT-4 Turbo,同时保持高效推理。
深度求索 / 研究部 | 定理证明
用于Lean 4形式定理证明的大型语言模型。采用蒙特卡洛树搜索进行证明生成。证明了大型语言模型可以辅助形式数学验证,为可验证的AI推理奠定基础。
// 规模化阶段.DAT [2024-2025]
深度求索 | 规模达成
旗舰级671B参数MoE模型,每个token激活37B。基于14.8万亿token训练,仅使用278.8万H800 GPU小时——效率极为惊人。引入多token预测和无辅助损失的负载均衡。在基准测试中达到或超越GPT-4o和Claude 3.5 Sonnet。
深度求索 | 推理革命
以极低成本比肩OpenAI o1的推理模型。通过大规模强化学习与GRPO进行训练。展示了通过纯强化学习(无监督微调)涌现的思维链推理能力。以MIT许可证完全开源发布。
深度求索 / 研究部 | 涌现推理
完全通过强化学习训练推理能力,无需任何监督微调。证明了大型语言模型可以仅通过RL奖励自发发展出思维链推理能力。这是通往AGI道路上的基础性发现。
深度求索 | 普惠开放
将R1的推理能力蒸馏到更小的模型中(1.5B至70B),基于Qwen和Llama架构。DeepSeek-R1-Distill-Qwen-32B在多个基准测试中超越OpenAI o1-mini。使先进推理能力在消费级硬件上成为可能。
// AGI探索阶段.DAT [2025+]
深度求索 | 增强认知
下一代推理模型,预计将在复杂多步推理、数学证明和代码生成方面突破极限。在R1突破的基础上改进训练方法并扩展能力范围。
深度求索 | 视觉 + 推理
将推理能力扩展到多种模态——视觉、音频和结构化数据。基于Janus多模态框架,构建跨所有输入类型的统一理解与生成能力。
深度求索 | 终极使命
深度求索的使命宣言:以好奇心探索AGI的奥秘。追求推理、规划、自我提升和泛化方面的根本性突破。开源理念旨在造福全人类。
// 总时间线.DAT
// 愿景展望.TXT
从第一个基础模型到推理突破,这一历程不到两年——这在AI研究史上是前所未有的速度。 每个里程碑都建立在前一个的基础之上:高效的MoE架构使低成本训练成为可能, 进而实现规模化,规模化催生涌现推理,推理则打开了通往通用人工智能的大门。
关键洞察在于:推理能力可以从纯强化学习中涌现。DeepSeek-R1-Zero证明了 思维链、自我验证和延伸推理能力在施加正确的训练信号时会自发产生。 这从根本上改变了通往AGI的路径。
AGI探索之路仍在继续
C:\TRUTHSEEK\DISCOVERIES> █