R1 | FisherAI

DeepSeek-R1-0528 发布：推理与理解能力显著增强，性能逼近顶尖模型

昨天（2025.5.28）DeepSeek 在官方交流群中直接发布消息，宣布 R1 模型已完成小版本试升级，并将模型权重开源到 HugggingFace，直到今晚才正式发布新闻稿，并更新模型卡相关内容。本次模型更新内容当前版本是 DeepSeek-R1-0528。在最新的更新中，相比上个版本主要更新有： 1️⃣ 通过利用增加的计算资源并在后训练阶段引入算法优化机制，显著提升了模型的推理和理解能力。这款模型在数学、编程和通用逻辑等多种基准测试中展现了卓越的性能。它的整体表现已经接近顶尖模型，例如 O3 和 Gemini 2.5 Pro。 2️⃣ 与之前的版本相比，升级后的模型在处理复杂推理任务时有了显著进步。比如在 AIME 2025 测试中，模型的准确率从之前版本的 70% 提升到了当前版本的 87.5%。这一提升得益于模型在推理过程中“思考”得更深入了：在 AIME 测试集上，之前的模型平均每个问题花费 12K tokens 进行思考，而新版本平均每个问题会花费 23K tokens。 2️⃣ 降低了生成“幻觉”（即不真实信息）的概率 3️⃣ 增强了对函数调用的支持 4️⃣ 优化了“写代码”（vibe coding）的体验。 5️⃣ 它的整体性能现在接近 O3 和 Gemini 2.5 Pro 等领先模型。 6️⃣ 再次基于 Qwen 模型蒸馏出了更强模型，将 DeepSeek-R1-0528 生成的思维链（chain-of-thought）提取出来，用于进一步训练 Qwen3 8B Base 模型，从而得到了 DeepSeek-R1-0528-Qwen3-8B。这款模型在 AIME 2024 上取得了开源模型的最佳性能（SOTA），比 Qwen3 8B 高出 10.0%，并达到了 Qwen3-235B-thinking 的水平。DeepSeek-R1-0528-Qwen3-8B 的模型架构与 Qwen3-8B 相同，但它使用了与 DeepSeek-R1-0528 相同的分词器配置。这款模型可以按照运行 Qwen3-8B 的方法在本地运行。...

用 Unsloth 在本地训练你自己的 R1 推理模型 • Unsloth

本文介绍了 Unsloth 的一项新功能，该功能使用户能够在本地训练自己的 R1 推理模型。这项创新利用 Group Relative Policy Optimization (GRPO) 算法，显著降低了训练推理模型所需的 VRAM，使得在消费级 GPU 上，如仅需 7GB VRAM 的情况下，复现 DeepSeek R1-Zero 的 “顿悟时刻” 成为可能。Unsloth 旨在让更多开发者能够便捷地将标准模型转化为具备完整推理能力的模型，并应用于定制化奖励模型和自动生成推理过程等多种场景。此外，Unsloth 还集成了 vLLM，进一步提升了吞吐量并降低了 VRAM 消耗，为用户提供更高效的微调和推理体验。 GRPO 算法引入 Unsloth： Unsloth 基于 DeepSeek R1 的研究，在自身平台中引入了 GRPO 算法，使用户能够训练模型自主学习分配更多思考时间，无需人工反馈。 VRAM 效率提升： Unsloth 优化了 GRPO 流程，使其 VRAM 占用比 Hugging Face + FA2 减少 80%，仅需 7GB VRAM 即可在 Qwen2.5 (1.5B) 模型上复现 R1-Zero 的 “顿悟时刻”。广泛的模型兼容性： Unsloth 支持将参数量高达 150 亿的模型（如 Llama 3.1 (8B), Phi-4 (14B), Mistral (7B), Qwen2....

DeepSeek-R1 的训练过程是怎样的？• Epoch AI

本文由 Epoch AI 官方发布，主要探讨了 DeepSeek 最新发布的开源推理模型 DeepSeek-R1 的训练过程、架构、性能和定价，并对围绕其训练成本的争议进行了分析。文章的核心观点包括： DeepSeek-R1 的成功很大程度上归功于其高质量的基座模型 DeepSeek v3，后者是 R1 成功的关键技术基础。 DeepSeek 公布的 DeepSeek v3 预训练成本是合理的，并没有低估或虚报。 DeepSeek-R1 通过强化学习 (RL) 从 v3 基座模型进化而来，RL 阶段的估计成本约为 $ 1M 美元。 DeepSeek-R1 在基准测试中表现与 OpenAI 的 o1 模型相当，但价格却显著低于 o1，使其在性价比上更具优势。尽管 DeepSeek 在软件效率方面可能略微落后于顶尖的美国实验室，但其模型以接近边际成本的价格提供服务，对用户来说更具吸引力。关键细节架构： DeepSeek-R1 的架构与 DeepSeek v3 完全相同，采用稀疏混合专家模型 (MoE)，总参数量为 6710 亿，但每个 token 仅激活 370 亿参数。模型使用了多头隐式注意力 (MLA) 机制，以降低 KV 缓存大小，同时保持性能。预训练 (DeepSeek v3)： DeepSeek v3 的预训练使用了混合精度 FP8，在包含 2048 块 H800 GPU 的集群上进行。训练 1 万亿 token 耗时 3....