研究档案

技术报告、训练数据集、基准测试结果与架构论文

════════════════════════════════════════════════════════════════════════

C:\TRUTHSEEK\ARCHIVES> dir /research /all

技术报告:4份文档

架构论文:4份文档

基准测试结果:4份文档

档案总规模:20份机密文档

────────────────────────────────────────────────────────────────────────

// 选择分类

────────────────────────────────────────────────────────────────────────

// 文档索引 [20 个文件]

DeepSeek-V3 技术报告2024-12-26

MoE模型,总参数671B,每token激活37B。在14.8T token上以FP8混合精度训练。

来源:深度求索[技术报告]
DeepSeek-R1:通过强化学习激发LLM推理能力2025-01-20

通过强化学习实现涌现式思维链推理。R1在数学和编程基准测试中匹配OpenAI o1。

来源:深度求索[技术报告]
DeepSeek-Coder-V2:突破闭源模型的壁垒2024-06-17

236B MoE模型,支持338种编程语言。在代码生成任务上达到GPT-4 Turbo级别性能。

来源:深度求索[技术报告]
DeepSeekMath:突破数学推理的极限2024-02-05

7B参数模型,在120B数学相关token上训练。以1/100的规模在MATH基准测试上接近Gemini Ultra性能。

来源:深度求索[技术报告]
Common Crawl过滤语料库 - 网络规模预训练2024-Q1

多阶段过滤的网络语料库,构成深度求索预训练的骨干。已应用去重、质量过滤和毒性移除。

来源:Common Crawl / 深度求索[训练数据集]
The Stack v2 - 开源代码数据集2024-03-12

67.5TB宽松许可的源代码,涵盖619种编程语言。DeepSeek-Coder系列的主要代码训练数据。

来源:BigCode / Hugging Face[训练数据集]
OpenWebMath - 数学网络文本语料库2023-10-15

从Common Crawl过滤的14.7B高质量数学文本token。用于DeepSeekMath预训练流水线。

来源:Together AI[训练数据集]
RLHF偏好数据集 - 人类反馈收集2024-Q3

由人类标注员收集的多轮对话偏好对。用于奖励模型训练和对话模型的RLHF对齐。

来源:深度求索(内部)[训练数据集]
MMLU性能分析 - V3对比前沿模型2025-01-15

DeepSeek-V3在MMLU上达到88.5%,与GPT-4o和Claude 3.5 Sonnet具有竞争力。包含详细的分类分解和错误分析。

来源:深度求索 / 独立评测[基准测试结果]
HumanEval与MBPP - 代码生成基准测试2024-12-30

DeepSeek-V3在HumanEval上得分82.6%,在MBPP上pass@1得分83.1%。DeepSeek-Coder-V2在多语言代码翻译任务中领先。

来源:深度求索[基准测试结果]
AIME 2024与MATH-500 - 数学推理2025-01-22

DeepSeek-R1在AIME 2024上达到79.8%,在MATH-500上达到97.3%,匹配OpenAI o1-preview。思维链轨迹平均3,200 token。

来源:深度求索[基准测试结果]
LiveCodeBench与Codeforces评级分析2025-02-01

DeepSeek-R1在Codeforces上达到2,029 Elo,位列竞技程序员前4%。包含解题策略的详细分析。

来源:深度求索 / 社区[基准测试结果]
Multi-Head Latent Attention (MLA) - 高效KV缓存2024-05-07

新型注意力机制,通过低秩联合投影压缩键值缓存。与标准MHA相比KV缓存减少93.3%,质量损失极小。

来源:深度求索[架构论文]
DeepSeekMoE:迈向极致专家专业化2024-01-11

细粒度专家分割与共享专家隔离。2B激活参数匹配16.4B稠密模型性能。V2/V3架构的基础。

来源:深度求索[架构论文]
大规模FP8混合精度训练2024-12-26

首次成功对671B参数模型进行FP8训练且无质量损失。与BF16相比训练计算成本降低约40%。

来源:深度求索[架构论文]
MoE无辅助损失负载均衡2024-12-26

新型负载均衡策略,消除MoE训练中的辅助损失项。在671B规模下防止专家崩溃,同时保持训练稳定性。

来源:深度求索[架构论文]
RLHF与基于规则的奖励对齐对比2025-01-20

RLHF与基于规则的奖励信号在推理模型对齐中的比较研究。R1-Zero在无人类偏好数据的情况下展现出涌现式自我验证行为。

来源:深度求索[安全研究]
开放权重模型风险评估框架2024-11-15

评估开放权重发布双重用途风险的框架。涵盖能力阈值、滥用向量和社区治理机制。

来源:深度求索 / MATS[安全研究]
多语言偏见审计 - DeepSeek-V3 Chat2025-01-30

跨12种语言的跨语言偏见评估。识别按人口统计群体划分的情感、刻板印象和事实准确性方面的系统性差异。

来源:深度求索 / 外部审计[安全研究]
推理模型中的思维链忠实度2025-02-10

分析R1推理轨迹是否忠实地反映内部计算。发现15-20%的轨迹包含与实际决策过程不一致的事后合理化。

来源:深度求索 / 学术界[安全研究]
────────────────────────────────────────────────────────────────────────

// 档案说明.TXT

本档案馆收录了深度求索AI研究计划的关键研究文档。文档涵盖模型发布 的技术报告、训练方法论论文、基准评估、架构创新以及安全研究成果。

所有文档均来源于深度求索的公开出版物、arXiv预印本和同行评审研究。 部分基准测试结果可能为初步结果,有待独立复现验证。

────────────────────────────────────────────────────────────────────────

// 关键指标.TXT

关键研究参数:

  • • DeepSeek-V3总参数:671B(每token激活37B)
  • • 训练数据量:14.8万亿token
  • • 训练成本(V3):约$5.58M,使用2,048块NVIDIA H800 GPU
  • • R1 AIME 2024准确率:79.8%(匹配OpenAI o1-preview)
  • • MLA KV缓存减少:与标准多头注意力相比减少93.3%
  • • 开放权重模型下载量:Hugging Face上超过1,000万次
════════════════════════════════════════════════════════════════════════

真理档案馆 - AI研究计划文档

C:\TRUTHSEEK\ARCHIVES>