推理模型的希望 • Epoch AI
本文由 Epoch AI 官方博客发布,主要分析推理模型的影响。 推理模型的核心思想是在运行时让模型进行更长时间的思考,以找到问题的正确解决方案。这可以通过提示模型逐步思考,展示显式的思维链来实现。早期的 LLM 在简单地被要求长时间思考时表现出较差的扩展性,但通过应用强化学习 (RL) 方法,特别是在奖励模型正确答案的情况下,推理模型的推理质量得到了显著提高。这种方法即使不奖励中间推理步骤,也能促使模型学习生成长的推理链,从而提高推理质量。 推理模型的一个重要优势是能够生成高质量的合成训练数据,用于改进未来的推理模型甚至非推理模型。强化学习在推理模型中的成功应用表明,它可以有效地提高 LLM 的性能,并有可能将模型性能提升到超人水平。强化学习最适用于解决方案易于验证的任务,因为这类任务可以提供密集的奖励信号,从而促进高效训练。 未来几年内,在数学问题解决和定理证明领域,推理模型将取得显著进展,到 2027 年底,AI 有 3/5 的概率能够在自主证明任意数学定理方面超越顶尖人类数学家。推理模型最有可能成功应用于满足两个关键标准的任务:(1) LLM 预训练数据包含大量与执行任务相关的信息;(2) 解决方案可以低成本且可编程地验证。这些任务被称为 “纯推理任务”。 然而,许多经济价值高的任务可能不属于 “纯推理任务” 的范畴。对于视频编辑等任务,由于缺乏高质量的、与任务执行方式直接相关的数据,以及评估质量的反馈成本高昂,AI 在自动化这些任务方面将面临挑战。因此,尽管 AI 在逻辑推理等领域将取得巨大进步,但在自动化需要经验反馈和难以验证的任务方面,仍将面临重大挑战。 虽然推理模型提高了外部部署 AI 的效用,也增强了内部使用推理计算的效用(用于生成合成训练数据),但这两种效应可能会大致相互抵消,不会导致计算资源在内部开发和外部部署之间分配的根本性转变。基于以往类似创新的经验,推理模型对商业模式的影响将是平衡的,不会颠覆现有模式。 总而言之,推理模型将在未来几年的人工智能发展中发挥重要作用,特别是在自动化 “纯推理任务” 方面。然而,推理模型应被视为人工智能长期发展趋势的一部分,持续扩展 AI 可以执行的任务范围。要充分释放 AI 在自动化所有有价值的经济任务方面的潜力,还需要在多模态、自主性、长期记忆和机器人技术等领域取得更多突破。未来,多智能体协作等新的推理扩展方式可能会成为新的发展方向。 原文:推理模型的希望 过去一年中,也许最重要的 AI 进展是推理模型 (Reasoning Models) 的兴起——通过强化学习训练的大语言模型 (LLM),用于解决复杂问题,例如 OpenAI 的 o1,DeepSeek-R1 和 Claude 3.7 Sonnet。这些模型已经展示了卓越的成功,显著增强了 AI 在数学问题解决、科学推理和编码方面的人工智能水平 (AI capabilities)。 在本文中,我旨在提出一个清晰的概念框架,以理解推理模型 (Reasoning Models) 可能对世界产生的影响。我的核心论点是,推理模型 (Reasoning Models) 的主要结果将是创造出在“纯推理任务”上具有狭义超人能力的 AI ——具有正确答案且可以低成本验证的抽象任务。例如,我猜测在未来三年内,可能会开发出能够胜过顶尖人类数学家证明任意数学定理的 AI。与此同时,我预测具有经济价值的 AI 性能将会滞后,可靠的 AI 智能体 (AI Agent) 的出现将明显晚于高质量的推理模型 (Reasoning Models)。...