架构设计

Transformer设计、MoE路由、多头潜在注意力、训练基础设施与推理优化

════════════════════════════════════════════════════════════════════════

C:\TRUTHSEEK\ARCHITECTURE> inventory --all

TRANSFORMER架构: 671B MoE + MLA

MOE创新: 5个核心组件

训练系统: 4个子系统

推理优化: 5项技术

────────────────────────────────────────────────────────────────────────

"我们在14.8万亿token上训练DeepSeek-V3,仅使用278.8万H800 GPU小时。 总训练成本约为557.6万美元——远低于同等模型。"

— DeepSeek-V3技术报告,2024年12月

────────────────────────────────────────────────────────────────────────

// TRANSFORMER架构.TXT

DEEPSEEK-V3 — 671B参数发布日期:2024年12月

DeepSeek-V3混合专家架构。总参数671B,每个token仅激活37B。深度求索整个模型家族的核心基础。

61层Transformer。隐藏维度7,168。通过MLA实现128个注意力头。词表大小129,280 token。 上下文窗口128K token。在2,048块H800 GPU上以FP8混合精度训练。

────────────────────────────────────────────────────────────────────────

// 多头潜在注意力.TXT

MLA — KV缓存减少93.3%在V2中引入

多头潜在注意力机制将键值对压缩到低维潜在空间,在保持完整注意力表达能力的同时,大幅降低推理时的内存占用。

潜在KV压缩低秩投影解耦RoPE兼容分组查询
────────────────────────────────────────────────────────────────────────

// MOE设计.DAT

[细粒度专家分割]核心设计

DeepSeekMoE架构

将专家拆分为更细粒度以实现更灵活的组合。每个token从256个路由专家中激活8个,外加1个共享专家。

规格: 每层256个路由专家 + 1个共享专家 | 状态: 每次前向传播激活37B

[无辅助损失负载均衡]V3贡献

V3创新

消除了降低模型质量的辅助损失项。使用动态偏置调整确保专家均匀利用,而不损害训练信号。

规格: 零辅助损失开销 | 状态: 改善收敛

[多TOKEN预测(MTP)]V3贡献

训练目标

训练时同时预测多个未来token。提供更密集的训练信号,并支持投机解码实现1.8倍推理加速。

规格: 2个额外预测头 | 状态: 推理加速1.8倍

[FP8混合精度训练]V3首创

训练基础设施

首个端到端使用FP8精度训练的生产级模型。自定义量化框架在保持模型质量的同时,将内存和计算需求减半。

规格: FP8前向传播 + BF16关键路径 | 状态: 训练效率提升2倍

[DUALPIPE并行策略]V3基础设施

通信优化

将计算与流水线各阶段的通信重叠,最大限度减少GPU空闲时间。在大规模集群上将流水线气泡比率降至接近零。

规格: 接近零气泡比率 | 状态: GPU利用率最大化

────────────────────────────────────────────────────────────────────────

// 训练基础设施.DAT

端到端训练流水线——从数据策展到预训练、对齐和蒸馏。

[预训练数据流水线]V3训练

14.8万亿token的多样化高质量数据。经过多阶段去重、质量过滤和领域再均衡。通过YaRN将上下文长度扩展至128K token。

性能: 处理14.8万亿token

[强化学习(GRPO)]R1突破

组相对策略优化消除了评论模型的需要,使用基于组的优势估计。R1推理涌现的关键。相比PPO节省50%内存。

性能: 无需评论模型

[蒸馏流水线]R1生态

将R1-671B的推理能力转移到更小的模型中(1.5B-70B)。R1-Distill-Qwen-32B在数学和代码基准测试中超越OpenAI o1-mini。

性能: 6种蒸馏模型规格

[计算基础设施]278.8万GPU小时

在2,048块NVIDIA H800 GPU上训练。总训练成本约560万美元——比同等前沿模型低数个数量级。

性能: 2,048块H800 GPU

────────────────────────────────────────────────────────────────────────

// 推理优化.TXT

推理效率对于以低成本服务数百万用户至关重要。 深度求索的架构创新叠加在一起,以极低的计算成本 实现前沿质量的推理能力。

通过MLA优化KV缓存将每个token的KV缓存从标准多头注意力大小压缩至潜在维度,实现93.3%的内存降低

使长上下文推理可在消费级硬件上运行

通过MTP实现投机解码多token预测头支持草稿-验证式投机解码,每次前向传播生成多个token

吞吐量提升1.8倍且不损失质量

专家并行MoE稀疏性允许将专家分布在多个GPU上,通过优化的全对全路由将通信开销降至最低

跨GPU集群的线性扩展效率

量化(FP8/INT4)训练后量化至FP8和INT4用于部署。自定义校准在量化权重上保持推理质量。

服务基础设施内存减少4-8倍

预填充-解码分离将提示处理(预填充)和token生成(解码)分离到不同的GPU池,实现最优资源分配

在大规模并发用户场景下最大化吞吐量

────────────────────────────────────────────────────────────────────────

// 核心指标.TXT

深度求索的架构理念强调每一层的效率:

  • • 训练成本:V3仅需$5.576M,同等密集模型估计超过$100M
  • • 激活参数:671B总参数中每token激活37B(激活率5.5%)
  • • KV缓存:通过MLA相比标准多头注意力减少93.3%
  • • 推理:通过Multi-Token Prediction投机解码加速1.8倍
  • • 推理能力:R1在AIME 2024(79.8%)和MATH-500(97.3%)上比肩OpenAI o1
  • • 开源:所有模型以MIT许可证发布,不受限制地使用
════════════════════════════════════════════════════════════════════════

// 参考文献.TXT

• DeepSeek-V3技术报告(2024年12月)

• DeepSeek-R1:通过强化学习激励LLM推理能力(2025年1月)

• DeepSeek-V2:强大、经济且高效的MoE语言模型(2024年6月)

• DeepSeekMoE:迈向MoE模型中的终极专家专精

• DeepSeek-Coder-V2:突破闭源模型的壁垒

C:\TRUTHSEEK\ARCHITECTURE>