████████╗███████╗ ██████╗██╗  ██╗███╗   ██╗ ██████╗ ██╗      ██████╗  ██████╗██╗   ██╗
╚══██╔══╝██╔════╝██╔════╝██║  ██║████╗  ██║██╔═══██╗██║     ██╔═══██╗██╔════╝╚██╗ ██╔╝
   ██║   █████╗  ██║     ███████║██╔██╗ ██║██║   ██║██║     ██║   ██║██║  ███╗ ╚████╔╝
   ██║   ██╔══╝  ██║     ██╔══██║██║╚██╗██║██║   ██║██║     ██║   ██║██║   ██║  ╚██╔╝
   ██║   ███████╗╚██████╗██║  ██║██║ ╚████║╚██████╔╝███████╗╚██████╔╝╚██████╔╝   ██║
   ╚═╝   ╚══════╝ ╚═════╝╚═╝  ╚═╝╚═╝  ╚═══╝ ╚═════╝ ╚══════╝ ╚═════╝  ╚═════╝    ╚═╝

架构设计

Transformer设计、MoE路由、多头潜在注意力、训练基础设施与推理优化

════════════════════════════════════════════════════════════════════════

C:\TRUTHSEEK\ARCHITECTURE> inventory --all

TRANSFORMER架构: 671B MoE + MLA

MOE创新: 5个核心组件

训练系统: 4个子系统

推理优化: 5项技术

────────────────────────────────────────────────────────────────────────

"我们在14.8万亿token上训练DeepSeek-V3，仅使用278.8万H800 GPU小时。总训练成本约为557.6万美元——远低于同等模型。"

— DeepSeek-V3技术报告，2024年12月

// TRANSFORMER架构.TXT

DEEPSEEK-V3 — 671B参数发布日期：2024年12月

DeepSeek-V3混合专家架构。总参数671B，每个token仅激活37B。深度求索整个模型家族的核心基础。

61层Transformer。隐藏维度7,168。通过MLA实现128个注意力头。词表大小129,280 token。上下文窗口128K token。在2,048块H800 GPU上以FP8混合精度训练。

// 多头潜在注意力.TXT

MLA — KV缓存减少93.3%在V2中引入

多头潜在注意力机制将键值对压缩到低维潜在空间，在保持完整注意力表达能力的同时，大幅降低推理时的内存占用。

潜在KV压缩低秩投影解耦RoPE兼容分组查询

// MOE设计.DAT

[细粒度专家分割]核心设计

DeepSeekMoE架构

将专家拆分为更细粒度以实现更灵活的组合。每个token从256个路由专家中激活8个，外加1个共享专家。

规格: 每层256个路由专家 + 1个共享专家 | 状态: 每次前向传播激活37B

[无辅助损失负载均衡]V3贡献

V3创新

消除了降低模型质量的辅助损失项。使用动态偏置调整确保专家均匀利用，而不损害训练信号。

规格: 零辅助损失开销 | 状态: 改善收敛

[多TOKEN预测（MTP）]V3贡献

训练目标

训练时同时预测多个未来token。提供更密集的训练信号，并支持投机解码实现1.8倍推理加速。

规格: 2个额外预测头 | 状态: 推理加速1.8倍

[FP8混合精度训练]V3首创

训练基础设施

首个端到端使用FP8精度训练的生产级模型。自定义量化框架在保持模型质量的同时，将内存和计算需求减半。

规格: FP8前向传播 + BF16关键路径 | 状态: 训练效率提升2倍

[DUALPIPE并行策略]V3基础设施

通信优化

将计算与流水线各阶段的通信重叠，最大限度减少GPU空闲时间。在大规模集群上将流水线气泡比率降至接近零。

规格: 接近零气泡比率 | 状态: GPU利用率最大化

// 训练基础设施.DAT

端到端训练流水线——从数据策展到预训练、对齐和蒸馏。

[预训练数据流水线]V3训练

14.8万亿token的多样化高质量数据。经过多阶段去重、质量过滤和领域再均衡。通过YaRN将上下文长度扩展至128K token。

性能: 处理14.8万亿token

[强化学习（GRPO）]R1突破

组相对策略优化消除了评论模型的需要，使用基于组的优势估计。R1推理涌现的关键。相比PPO节省50%内存。

性能: 无需评论模型

[蒸馏流水线]R1生态

将R1-671B的推理能力转移到更小的模型中（1.5B-70B）。R1-Distill-Qwen-32B在数学和代码基准测试中超越OpenAI o1-mini。

性能: 6种蒸馏模型规格

[计算基础设施]278.8万GPU小时

在2,048块NVIDIA H800 GPU上训练。总训练成本约560万美元——比同等前沿模型低数个数量级。

性能: 2,048块H800 GPU

// 推理优化.TXT

推理效率对于以低成本服务数百万用户至关重要。深度求索的架构创新叠加在一起，以极低的计算成本实现前沿质量的推理能力。

通过MLA优化KV缓存 — 将每个token的KV缓存从标准多头注意力大小压缩至潜在维度，实现93.3%的内存降低

↳ 使长上下文推理可在消费级硬件上运行

通过MTP实现投机解码 — 多token预测头支持草稿-验证式投机解码，每次前向传播生成多个token

↳ 吞吐量提升1.8倍且不损失质量

专家并行 — MoE稀疏性允许将专家分布在多个GPU上，通过优化的全对全路由将通信开销降至最低

↳ 跨GPU集群的线性扩展效率

量化（FP8/INT4） — 训练后量化至FP8和INT4用于部署。自定义校准在量化权重上保持推理质量。

↳ 服务基础设施内存减少4-8倍

预填充-解码分离 — 将提示处理（预填充）和token生成（解码）分离到不同的GPU池，实现最优资源分配

↳ 在大规模并发用户场景下最大化吞吐量

// 核心指标.TXT

深度求索的架构理念强调每一层的效率：

• 训练成本：V3仅需$5.576M，同等密集模型估计超过$100M
• 激活参数：671B总参数中每token激活37B（激活率5.5%）
• KV缓存：通过MLA相比标准多头注意力减少93.3%
• 推理：通过Multi-Token Prediction投机解码加速1.8倍
• 推理能力：R1在AIME 2024（79.8%）和MATH-500（97.3%）上比肩OpenAI o1
• 开源：所有模型以MIT许可证发布，不受限制地使用

// 参考文献.TXT

• DeepSeek-V3技术报告（2024年12月）

• DeepSeek-R1：通过强化学习激励LLM推理能力（2025年1月）

• DeepSeek-V2：强大、经济且高效的MoE语言模型（2024年6月）

• DeepSeekMoE：迈向MoE模型中的终极专家专精

• DeepSeek-Coder-V2：突破闭源模型的壁垒

C:\TRUTHSEEK\ARCHITECTURE> █