研究档案
技术报告、训练数据集、基准测试结果与架构论文
C:\TRUTHSEEK\ARCHIVES> dir /research /all
技术报告:4份文档
架构论文:4份文档
基准测试结果:4份文档
档案总规模:20份机密文档
// 选择分类
// 文档索引 [20 个文件]
MoE模型,总参数671B,每token激活37B。在14.8T token上以FP8混合精度训练。
通过强化学习实现涌现式思维链推理。R1在数学和编程基准测试中匹配OpenAI o1。
236B MoE模型,支持338种编程语言。在代码生成任务上达到GPT-4 Turbo级别性能。
7B参数模型,在120B数学相关token上训练。以1/100的规模在MATH基准测试上接近Gemini Ultra性能。
多阶段过滤的网络语料库,构成深度求索预训练的骨干。已应用去重、质量过滤和毒性移除。
67.5TB宽松许可的源代码,涵盖619种编程语言。DeepSeek-Coder系列的主要代码训练数据。
从Common Crawl过滤的14.7B高质量数学文本token。用于DeepSeekMath预训练流水线。
由人类标注员收集的多轮对话偏好对。用于奖励模型训练和对话模型的RLHF对齐。
DeepSeek-V3在MMLU上达到88.5%,与GPT-4o和Claude 3.5 Sonnet具有竞争力。包含详细的分类分解和错误分析。
DeepSeek-V3在HumanEval上得分82.6%,在MBPP上pass@1得分83.1%。DeepSeek-Coder-V2在多语言代码翻译任务中领先。
DeepSeek-R1在AIME 2024上达到79.8%,在MATH-500上达到97.3%,匹配OpenAI o1-preview。思维链轨迹平均3,200 token。
DeepSeek-R1在Codeforces上达到2,029 Elo,位列竞技程序员前4%。包含解题策略的详细分析。
新型注意力机制,通过低秩联合投影压缩键值缓存。与标准MHA相比KV缓存减少93.3%,质量损失极小。
细粒度专家分割与共享专家隔离。2B激活参数匹配16.4B稠密模型性能。V2/V3架构的基础。
首次成功对671B参数模型进行FP8训练且无质量损失。与BF16相比训练计算成本降低约40%。
新型负载均衡策略,消除MoE训练中的辅助损失项。在671B规模下防止专家崩溃,同时保持训练稳定性。
RLHF与基于规则的奖励信号在推理模型对齐中的比较研究。R1-Zero在无人类偏好数据的情况下展现出涌现式自我验证行为。
评估开放权重发布双重用途风险的框架。涵盖能力阈值、滥用向量和社区治理机制。
跨12种语言的跨语言偏见评估。识别按人口统计群体划分的情感、刻板印象和事实准确性方面的系统性差异。
分析R1推理轨迹是否忠实地反映内部计算。发现15-20%的轨迹包含与实际决策过程不一致的事后合理化。
// 档案说明.TXT
本档案馆收录了深度求索AI研究计划的关键研究文档。文档涵盖模型发布 的技术报告、训练方法论论文、基准评估、架构创新以及安全研究成果。
所有文档均来源于深度求索的公开出版物、arXiv预印本和同行评审研究。 部分基准测试结果可能为初步结果,有待独立复现验证。
// 关键指标.TXT
关键研究参数:
- • DeepSeek-V3总参数:671B(每token激活37B)
- • 训练数据量:14.8万亿token
- • 训练成本(V3):约$5.58M,使用2,048块NVIDIA H800 GPU
- • R1 AIME 2024准确率:79.8%(匹配OpenAI o1-preview)
- • MLA KV缓存减少:与标准多头注意力相比减少93.3%
- • 开放权重模型下载量:Hugging Face上超过1,000万次
真理档案馆 - AI研究计划文档
C:\TRUTHSEEK\ARCHIVES> █