知识库
训练数据、模型架构、算力基础设施与服务系统
C:\TRUTHSEEK\KNOWLEDGE> analyze --layout
训练数据: 14.8万亿token已策展
模型参数: 总参数671B,每token激活37B
计算成本: V3全量训练$5.576M
服务容量: 全球数百万并发用户
// 基础设施概述.TXT
深度求索的知识基础设施覆盖了从原始数据采集到模型训练、对齐和全球服务的完整流水线。 系统在每个阶段都追求最大效率——以同类系统的极低成本 产出前沿质量的模型。
核心洞察在于架构层面:通过将MoE稀疏性与MLA压缩相结合, 深度求索以仅为训练和推理算力一小部分的成本, 达到了大10-20倍的密集模型的质量。这一效率优势 在整个技术栈中层层叠加。
// 系统数据库.DAT
数据工程部
14.8万亿token | 多阶段策展
大规模网络爬取语料库经过去重、质量过滤和领域再均衡处理。覆盖自然语言、代码(338种语言)、数学、科学论文和多语言内容。通过YaRN位置编码将上下文扩展至128K token。
架构研究部
671B MoE | 每token激活37B
DeepSeek-V3旗舰架构:61层Transformer,隐藏维度7,168,通过MLA实现128个注意力头。DeepSeekMoE每层含256个路由专家 + 1个共享专家。无辅助损失负载均衡和多token预测目标。
基础设施工程部
2,048块NVIDIA H800 GPU | 训练成本560万美元
自定义分布式训练框架,DualPipe并行策略实现接近零的流水线气泡比率。FP8混合精度训练在生产级规模上首创。跨节点MoE路由的全对全专家通信优化。
平台工程部
全球API + chat.deepseek.com
预填充-解码分离式服务架构。通过MLA压缩优化KV缓存。MTP头实现投机解码带来1.8倍吞吐量。FP8/INT4量化部署。以平价API定价支持数百万并发用户。
推理研究部
R1 + GRPO强化学习
DeepSeek-R1推理系统通过大规模RL和组相对策略优化训练。思维链推理在无监督微调的情况下自发涌现。蒸馏为6种更小的模型规格(1.5B-70B)以实现广泛可及性。
对齐研究部
全面基准测试套件 + 安全对齐
在AIME 2024、MATH-500、Codeforces、GPQA Diamond、MMLU、HumanEval、LiveCodeBench和自定义推理套件上的内部评估。Constitutional AI对齐、RLHF流水线和红队测试,确保负责任的开源发布。
// 训练流水线.TXT
训练流水线遵循三阶段流程:在14.8万亿token上进行预训练以构建广泛的 世界知识和语言能力,在策展的指令数据上进行监督微调以将模型塑造为 有用的助手,通过GRPO进行人类反馈强化学习(RLHF)以将行为 与人类偏好对齐。
对于R1等推理模型,还会应用额外的纯强化学习阶段。 DeepSeek-R1-Zero证明了当模型仅因最终答案正确性获得奖励时, 扩展的思维链推理会自发涌现—— 无需监督推理样本。这一发现从根本上改变了 构建推理系统的方法。
// 规模化路线图.TXT
V1(2023):最高67B参数的基础模型。从零训练具有竞争力的LLM的概念验证。建立核心团队和基础设施。
V2(2024):MLA + MoE创新。总参数236B,激活21B。推理成本降低42.5倍。 代码和数学领域专用模型达到最先进水平。 V3(2024末):以FP8训练扩展至671B。R1通过纯RL实现推理突破。 开源发布推动全球AI研究。AGI追求仍在继续。
C:\TRUTHSEEK\KNOWLEDGE> █