DeepSeek-R1-0528 发布:推理与理解能力显著增强,性能逼近顶尖模型
昨天(2025.5.28)DeepSeek 在官方交流群中直接发布消息,宣布 R1 模型已完成小版本试升级,并将模型权重开源到 HugggingFace,直到今晚才正式发布新闻稿,并更新模型卡相关内容。 本次模型更新内容 当前版本是 DeepSeek-R1-0528。在最新的更新中,相比上个版本主要更新有: 1️⃣ 通过利用增加的计算资源并在后训练阶段引入算法优化机制,显著提升了模型的推理和理解能力。这款模型在数学、编程和通用逻辑等多种基准测试中展现了卓越的性能。它的整体表现已经接近顶尖模型,例如 O3 和 Gemini 2.5 Pro。 2️⃣ 与之前的版本相比,升级后的模型在处理复杂推理任务时有了显著进步。比如在 AIME 2025 测试中,模型的准确率从之前版本的 70% 提升到了当前版本的 87.5%。这一提升得益于模型在推理过程中“思考”得更深入了:在 AIME 测试集上,之前的模型平均每个问题花费 12K tokens 进行思考,而新版本平均每个问题会花费 23K tokens。 2️⃣ 降低了生成“幻觉”(即不真实信息)的概率 3️⃣ 增强了对函数调用的支持 4️⃣ 优化了“写代码”(vibe coding)的体验。 5️⃣ 它的整体性能现在接近 O3 和 Gemini 2.5 Pro 等领先模型。 6️⃣ 再次基于 Qwen 模型蒸馏出了更强模型,将 DeepSeek-R1-0528 生成的思维链(chain-of-thought)提取出来,用于进一步训练 Qwen3 8B Base 模型,从而得到了 DeepSeek-R1-0528-Qwen3-8B。这款模型在 AIME 2024 上取得了开源模型的最佳性能(SOTA),比 Qwen3 8B 高出 10.0%,并达到了 Qwen3-235B-thinking 的水平。DeepSeek-R1-0528-Qwen3-8B 的模型架构与 Qwen3-8B 相同,但它使用了与 DeepSeek-R1-0528 相同的分词器配置。这款模型可以按照运行 Qwen3-8B 的方法在本地运行。...