本文由 Epoch AI 官方博客发布,主要分析推理模型的影响。
推理模型的核心思想是在运行时让模型进行更长时间的思考,以找到问题的正确解决方案。这可以通过提示模型逐步思考,展示显式的思维链来实现。早期的 LLM 在简单地被要求长时间思考时表现出较差的扩展性,但通过应用强化学习 (RL) 方法,特别是在奖励模型正确答案的情况下,推理模型的推理质量得到了显著提高。这种方法即使不奖励中间推理步骤,也能促使模型学习生成长的推理链,从而提高推理质量。
推理模型的一个重要优势是能够生成高质量的合成训练数据,用于改进未来的推理模型甚至非推理模型。强化学习在推理模型中的成功应用表明,它可以有效地提高 LLM 的性能,并有可能将模型性能提升到超人水平。强化学习最适用于解决方案易于验证的任务,因为这类任务可以提供密集的奖励信号,从而促进高效训练。
未来几年内,在数学问题解决和定理证明领域,推理模型将取得显著进展,到 2027 年底,AI 有 3/5 的概率能够在自主证明任意数学定理方面超越顶尖人类数学家。推理模型最有可能成功应用于满足两个关键标准的任务:(1) LLM 预训练数据包含大量与执行任务相关的信息;(2) 解决方案可以低成本且可编程地验证。这些任务被称为 “纯推理任务”。
然而,许多经济价值高的任务可能不属于 “纯推理任务” 的范畴。对于视频编辑等任务,由于缺乏高质量的、与任务执行方式直接相关的数据,以及评估质量的反馈成本高昂,AI 在自动化这些任务方面将面临挑战。因此,尽管 AI 在逻辑推理等领域将取得巨大进步,但在自动化需要经验反馈和难以验证的任务方面,仍将面临重大挑战。
虽然推理模型提高了外部部署 AI 的效用,也增强了内部使用推理计算的效用(用于生成合成训练数据),但这两种效应可能会大致相互抵消,不会导致计算资源在内部开发和外部部署之间分配的根本性转变。基于以往类似创新的经验,推理模型对商业模式的影响将是平衡的,不会颠覆现有模式。
总而言之,推理模型将在未来几年的人工智能发展中发挥重要作用,特别是在自动化 “纯推理任务” 方面。然而,推理模型应被视为人工智能长期发展趋势的一部分,持续扩展 AI 可以执行的任务范围。要充分释放 AI 在自动化所有有价值的经济任务方面的潜力,还需要在多模态、自主性、长期记忆和机器人技术等领域取得更多突破。未来,多智能体协作等新的推理扩展方式可能会成为新的发展方向。
原文:推理模型的希望
过去一年中,也许最重要的 AI 进展是推理模型 (Reasoning Models) 的兴起——通过强化学习训练的大语言模型 (LLM),用于解决复杂问题,例如 OpenAI 的 o1,DeepSeek-R1 和 Claude 3.7 Sonnet。这些模型已经展示了卓越的成功,显著增强了 AI 在数学问题解决、科学推理和编码方面的人工智能水平 (AI capabilities)。
在本文中,我旨在提出一个清晰的概念框架,以理解推理模型 (Reasoning Models) 可能对世界产生的影响。我的核心论点是,推理模型 (Reasoning Models) 的主要结果将是创造出在“纯推理任务”上具有狭义超人能力的 AI ——具有正确答案且可以低成本验证的抽象任务。例如,我猜测在未来三年内,可能会开发出能够胜过顶尖人类数学家证明任意数学定理的 AI。与此同时,我预测具有经济价值的 AI 性能将会滞后,可靠的 AI 智能体 (AI Agent) 的出现将明显晚于高质量的推理模型 (Reasoning Models)。
我还探讨了关于推理模型 (Reasoning Models) 的下游影响的一些更广泛的推测。例如,一种理论认为,推理模型 (Reasoning Models) 预示着预训练扩展的结束,转而关注在外部大规模扩展推理以服务于最终用户——这种方法可能会通过降低模型开发中的规模经济,从根本上重塑前沿 AI 实验室 (AI Lab) 的商业模式。另一种相互竞争的观点认为,因为我们可以递归地在先前推理模型 (Reasoning Models) 的推理轨迹上训练推理模型 (Reasoning Models),所以 AI 实验室 (AI Lab) 可能会竞相通过将大部分计算预算用于内部推理以生成推理轨迹,而不是部署大量计算来服务用户,从而利用这种反馈循环。
但是,我与这两种观点都有很大的不同。虽然我认为每种观点都有一定的道理,但我目前预计推理模型 (Reasoning Models) 不会从根本上扰乱计算扩展的潜在趋势,也不会瓦解前沿 AI 实验室 (AI Lab) 的现有商业模式。我认为,推理模型 (Reasoning Models) 应该被解释为与之前的创新是一致的,这些创新通常不会大规模地改变用于模型开发的内部计算与用于服务用户的外部计算之间的平衡。
推理模型简要入门
为了理解推理模型 (Reasoning Models) 背后的技术细节,我建议阅读 DeepSeek 出色的透明论文,其中概述了他们如何训练其 R1 模型。以下是推理模型 (Reasoning Models) 背后主要思想的简要总结,从较高层面进行阐述。
在训练 大语言模型 (LLM) 时,有两个重要的阶段。第一阶段是预训练,涉及在大量且多样化的精选数据集上训练模型,为其提供广泛的知识库。第二阶段涉及后训练,例如基于人类反馈的强化学习 (RLHF),旨在使模型对最终用户有用。在这两种情况下,扩展法则表明,训练期间模型计算投入越多,通常获得的性能就越高。
传统上,当人们讨论扩展 AI 计算以获得更高的性能时,他们倾向于关注这两个训练阶段,尤其是预训练。但是,推理模型 (Reasoning Models) 背后的主要思想是,我们可以考虑另一种扩展计算以提高模型性能的途径。具体来说,在运行时,我们可以让模型思考更长的时间,以找到解决问题的正确方法。在最简单的情况下,这可能涉及提示模型逐步思考,显示代表其推理过程的显式思维链。
不幸的是,经过适度后训练增强的 大语言模型 (LLM) ——例如最初的 GPT-4——在简单地要求思考更长时间时,会表现出较差的扩展行为。虽然可以通过更好的提示来提高其推理能力,但对于更长的思维链,仅提示工程就表现出推理质量的急剧下降。为了提高模型推理的质量,AI 实验室 (AI Lab) 最近在对各种推理任务的模型输出应用强化学习时,开始看到巨大的成功。
其基本思想是,我们可以应用策略梯度方法来提高模型性能。这包括在训练的 RL 阶段,对模型在问题上获得正确答案进行奖励。至少在 R1 的情况下,这纯粹发生在 *基于结果的框架中* ,也就是说,模型仅因获得正确答案而获得奖励,而不是模型是否应用了正确的中间推理步骤,或者其推理轨迹是否“走在正确的轨道上”。值得注意的是,尽管这种方法很简单,但它已导致涌现行为,其中模型已学会生成长的推理链,这些推理链可以预测地提高具有更大推理深度的推理质量。
此外,推理模型 (Reasoning Models) 提供了一种创建高质量合成训练数据的强大方法,因为一旦确定推理模型 (Reasoning Models) 已输出特定问题的正确答案,其推理轨迹就提供了一个关于如何获得正确答案的有效示例。这种合成数据不仅可以用于改进未来的推理模型 (Reasoning Models),还可以用于改进非推理模型。例如,Grok-3 的非推理模型表现良好在数学基准 AIME’25 上,表明它接受过推理模型 (Reasoning Models) 输出的训练。
我发现推理模型 (Reasoning Models) 最值得注意的是,尽管到目前为止,在后训练过程的 RL 阶段应用的计算量相对较少,但该方法效果很好。在之前的 Gradient Updates 问题中,Ege Erdil 估计 DeepSeek 在 R1 训练的 RL 阶段总共只花费了约 100 万美元。这与领先的 AI 实验室 (AI Lab) 通常花费数千万美元用于预训练单个基础模型形成对比。由于 DeepSeek 的论文表明,在此阶段,随着训练计算量的增加,推理能力得到了显着提高——符合传统的神经扩展定律——因此我们应该期望,随着 AI 实验室 (AI Lab) 将其 RL 预算扩大几个数量级,很快就会获得更好的结果。这一事实在 Ege 的预测中发挥了作用,即2025 年将看到 AI 进步的加速。
我认为推理模型将能够做什么
从推理模型 (Reasoning Models) 最近的成功中,我们应该认识到,强化学习在提高 大语言模型 (LLM) 的性能方面效果很好。这是一个至关重要的发现,因为与在现有的人工生成数据上预训练模型不同,强化学习更有可能将模型性能提高到超人的水平。
以前,人们已经很清楚强化学习可以有效地训练 AI 来解决简单的模拟环境,例如像围棋这样的抽象策略游戏,或像星际争霸 II 这样的视频游戏。但是,尚不清楚同样的成功是否会扩展到像数学推理这样的复杂语言任务。与成功应用 RL 的更传统任务不同,这些任务似乎需要广泛的世界知识和超出使用记忆的启发式方法的创造力。由于 大语言模型 (LLM) 具有这两个属性,因此研究人员长期以来一直怀疑将 RL 应用于 大语言模型 (LLM) 可能是实现比人类更聪明的推理能力的关键突破。然而,直到去年,尝试使用像 Monte Carlo Tree Search 这样的技术来增强 大语言模型 (LLM) 的推理能力只取得了适度的成功。直到最近,AI 实验室 (AI Lab) 才开始证明,纯 RL 方法可以在当前计算水平下促进 AI 推理能力的巨大提高。
从理论上讲,强化学习可以应用于任何可以 *直接* 测量性能并将其转化为调整模型参数的数值信号的问题。但是,在实践中,获得对模型能力的反馈通常是昂贵的。例如,训练模型来控制机械臂需要收集有关机械臂是否成功完成特定任务的数据——例如将盘子放入洗碗机或解决魔方。在这些情况下,尝试执行任务可能需要几分钟,从而导致非常稀疏的奖励信号。奖励信号的稀缺性使得有效训练模型变得困难,因为深度学习从根本上依赖于丰富且信息丰富的反馈。
由于这些实际限制,强化学习 (RL) 对于可以低成本验证解决方案的任务最有效。这些任务允许密集的奖励信号,从而有助于有效的训练。例如,可以使用证明助手自动验证数学证明的正确性。由于 大语言模型 (LLM) 可以大规模并行生成潜在的证明,因此数学证明生成特别适合强化学习 (RL)。
这种推理使我得出结论,在接下来的几年里,当我们积极地扩大强化学习 (RL) 的规模以构建更好的推理模型 (Reasoning Models) 时,我们将在数学问题解决和证明生成方面看到非常令人印象深刻的结果。更具体地说,我个人猜测到 2027 年底,AI 大约有 3/5 的机会能够以超过顶尖人类数学家的水平自主证明任意数学定理。为了使这个预测更准确,我设想 AI 可以采用任意数学陈述,搜索该陈述的证明或反驳,并在 30 天内以比任何人类数学家在同一时间内可以做到的更高的平均准确率来识别正确的证明或反驳。
考虑到顶尖人类数学家的非凡才能,这似乎是一个大胆的主张,但我看到了推理模型 (Reasoning Models) 当前的发展轨迹与 AlphaGo 之前的几年之间的强烈相似之处。在 AlphaGo 战胜李世石之前的几年里,DeepMind 通过大幅增加计算量,在围棋 AI 方面取得了快速进展,这让当时的大多数预测者感到惊讶。同样,我预计未来几年 AI 数学推理性能将出现巨大的飞跃,因为用于以推理为中心的强化学习 (RL) 和运行时推理的计算量也同样迅速增加。
更广泛地说,我预计在不久的将来,推理模型 (Reasoning Models) 将最成功地应用于满足两个关键标准的任务:(1) 大语言模型 (LLM) 预训练数据包含大量与执行任务相关的信息,从而实现有效的迁移学习 (Transfer Learning),并且(2)它们的解决方案可以便宜地和以编程方式验证——例如通过单元测试或由另一个可以可靠地判断质量的 大语言模型 (LLM) 进行评估。我将把这些称为纯推理任务,因为它们主要涉及执行结构化推理,而无需难以获得的经验反馈。
此类任务的示例包括标准编程挑战,例如 LeetCode 上的那些挑战,以及可能不太明确的任务,其中高质量的输出很容易识别。例如,在分析哲学中,Paul Grice 在其 1975 年的论文Logic and Conversation 中的论点被广泛认为是强有力的,尽管它不是严格正式的或可验证正确的。这表明推理模型 (Reasoning Models) 可能适用于质量显而易见的推理任务,即使不能总是严格定义形式上的正确性。在此基础上,我认为推理模型 (Reasoning Models) 可以极大地提高法律写作、理论导向的科学研究和金融建模的质量。
我怀疑 AI 实验室 (AI Lab) 在短期内会遇到什么困难
但是,尽管推理模型 (Reasoning Models) 很快将被应用于许多有希望的应用程序,但我仍然认为大多数具有经济价值的任务可能不属于纯推理任务的范围。在大多数工作中,高绩效所需的完整技能集既不存在于 大语言模型 (LLM) 预训练数据中,也无法以实际可提取的方式存在,也不是可以廉价验证其正确性的行为类型。这对于物理任务来说最为明显,这可以帮助解释为什么通用机器人技术的进步似乎落后于知识工作自动化。但是,类似的挑战也适用于纯数字任务。
以视频编辑为例。虽然有关如何操作视频编辑器的说明很容易在网上找到,但确保每个关键帧都符合人类质量标准的细致专业知识可以说是以任何可读格式都不存在的。此外,这种技能对于 AI 来说很难通过反复试验来学习,因为评估特定编辑决策的质量需要昂贵且不频繁的反馈。由于这些限制,我预计在开发能够可靠地处理专业视频编辑工作的自主 AI 工作人员方面的进展将大大落后于可以执行高度复杂的数学推理的 AI 系统。
更一般地说,我怀疑大多数具有经济价值的任务都将遵循类似的模式:由于难以收集与如何执行任务直接相关的高质量数据,因此我们在很长一段时间内都会在自动化这些任务方面遇到重大困难。
因此,即使我目前预计我们很快就会拥有在许多方面超越顶尖人类数学家的 AI 数学家,但与此同时,我预计 AI 实验室 (AI Lab) 将继续面临重大挑战,即开发能够完全替代人类知识工作者在整个经济中的自主计算机控制工作者。同样,我预计推理模型 (Reasoning Models) 无法在未来几年内端到端地自动化整个 AI 研发过程,因为很大一部分与 AI 研究和开发相关的任务需要经验反馈,并且似乎不是纯推理任务。
这种情况将突出 AI 能力中几乎是自相矛盾的不平衡:一方面,AI 系统将在逻辑推理、结构化论证和计算机编程方面狭义地超越地球上最聪明的人——而另一方面,他们仍然会在看似容易得多的任务上挣扎,比如通过 GUI 可靠地操作企业计算机软件。然而,虽然这种情况可能看起来很奇怪,但它完全符合我们已经在 AI 开发中观察到的模式:模型已经变得非常擅长传统上与智力相关的任务——比如下棋——同时在人类觉得毫不费力的任务上表现得几乎可笑地糟糕,比如使用叉子或理解视频中发生的事情。
请注意,虽然我对这种现象的解释侧重于阻止 AI 有效学习如何执行各种任务的数据瓶颈,但也可以通过 Hans Moravec 的进化论点来解释这种模式,这是之前的 Gradient Update 问题的主题。
推理模型 (Reasoning Models) 会扰乱 AI 实验室 (AI Lab) 的商业模式吗?
除了推理模型 (Reasoning Models) 通过自动化纯推理任务产生的直接影响外,一些人还推测这些模型也将重塑 AI 发展的基本趋势。Toby Ord 例如,认为推理模型 (Reasoning Models) 的兴起对 AI 治理具有重大影响。
他提出的一个具体可能性是,我们可能正接近快速预训练扩展的尾声。他的理由是,预训练方法可能正在接近其极限,导致 AI 实验室 (AI Lab) 优先考虑扩展运行时计算——允许模型在推理过程中思考更长时间——而不是扩展训练计算。Ord 认为,这种转变可能会通过将计算重新分配给外部推理而不是内部开发,从而扰乱 AI 实验室 (AI Lab) 的现有商业模式,从而可能降低规模经济。用他的话说:
大语言模型 (LLM) 商业模式与软件有很多共同之处:巨大的前期开发成本,然后每个额外客户的边际成本相对较低。每个额外用户的边际成本低于每个用户的平均成本会鼓励规模经济,在这种情况下,每家公司都有动力设定低价来获取大量客户,这反过来往往会创建一个只有少数参与者的行业。但是,如果接下来的两个数量级的计算扩展用于部署时的推理,而不是用于预训练,那么这将发生变化,扰乱现有的商业模式,并可能为行业中较小的参与者留下更多空间。
另一方面,Ord 还强调了相反的可能性:虽然推理模型 (Reasoning Models) 增加了外部部署 AI 的效用,但它们也提高了内部使用推理计算的效用,因为推理模型 (Reasoning Models) 的输出可以递归地再投资于训练,从而实现一个反馈循环,其中推理模型 (Reasoning Models) 生成合成数据来训练下一代推理模型 (Reasoning Models),依此类推。为了利用这种反馈效应,AI 实验室 (AI Lab) 可以将大部分计算用于内部。这将包括用于生成推理轨迹的内部推理计算,以及用于从这些轨迹中学习的模型的训练计算。
但是,我目前认为这两种结果都不太可能。虽然我认为这两种观点都有一定的道理——例如,我希望实验室大力投资于生成推理轨迹以改进未来的模型——但我的主张更具体地是关于这种创新是否标志着 AI 实验室 (AI Lab) 在 *内部开发* 和 *外部部署* 之间优先分配计算方式的根本转变。我的观点是,推理模型 (Reasoning Models) 可能不会导致这种平衡发生重大、持久的转变。
我的推理基于这样一个想法,即我们过去已经观察到几种在相关方面与推理模型 (Reasoning Models) 相似的创新,但这些发展并没有显着地重组在外部推理和内部开发之间分配计算资源的最佳策略。在没有强有力的经验证据的情况下,我最好的猜测是,推理模型 (Reasoning Models) 将遵循同样的模式,并且同样不会从根本上扰乱这种平衡。
为了理解这个论点,重要的是首先掌握训练-推理计算权衡,这指的是在不显着改变模型性能的情况下,用推理计算换取训练计算或反之亦然的可能性。例如,扩展法则显示了如何通过在更多数据上训练更小的模型来分配更多计算用于训练,从而实现与在更少数据上训练的更大模型相当的性能。这降低了推理计算成本,因为更小的模型部署起来更便宜。
2023 年,我的同事 Pablo Villalobos 和 David Atkinson 确定了五种方法来实现这种权衡,包括改变扩展策略、Monte Carlo Tree Search 和模型蒸馏。去年,Ege Erdil 指出 尽管实现推理训练权衡的技术有所不同,但跨这些方法的经验数据表明,AI 实验室 (AI Lab) 通常应在内部训练和外部推理之间分配计算,以使这两种支出在数量级上保持大致相当——两者都没有明显地以很大的幅度超过另一个。
对于其他方法,这些权衡与 Toby Ord 指出的推理模型 (Reasoning Models) 大致相似,既允许人们用用于外部部署的计算来换取用于内部开发的计算,反之亦然。在没有太多关于这种权衡如何在推理模型 (Reasoning Models) 中实际发挥作用的信息的情况下,根据先前的经验,似乎有理由期望推理模型 (Reasoning Models) 产生类似平衡的效果,内部计算和外部计算大致相等地平衡。重要的是,这将使 AI 实验室 (AI Lab) 的主要商业模式保持不变,在这种模式下,实验室会产生高昂的前期开发成本,以生产最终可以以低边际成本提供给用户的产品。
也就是说,目前关于推理模型 (Reasoning Models) 应如何具体影响最佳计算分配策略的数据非常有限。如前所述,存在相互竞争的影响:由于运行时思考时间更长,性能更好,推理模型 (Reasoning Models) 可能会推动更多计算用于外部推理,而它们可能会同时激励更多内部推理计算,用于生成合成训练数据。虽然我倾向于猜测这些相互竞争的影响将大致相互抵消——基于将推理模型 (Reasoning Models) 与先前创新进行松散的比较——但这种猜测仍然是推测性的,并且我愿意在获得更多信息时修改此观点。
结论
鉴于推理模型 (Reasoning Models) 具有自动化纯推理任务的潜力,因此它们将在未来几年在 AI 中发挥重要作用。但是,不应夸大它们的重要性。虽然我们可能会很快看到在数学、一般推理和计算机编程方面的显着进步,但推理模型 (Reasoning Models) 最好被理解为更广泛、更长期的趋势的一部分,在这种趋势中,AI 系统逐渐承担起他们以前无法处理的新任务。
多年来,算法创新稳步扩展了 AI 可以执行的任务范围。虽然这些进步使 AI 更加通用,从而实现了更大的任务自动化,但它们本身都没有从根本上扰乱 AI 实验室 (AI Lab) 的现有商业模式,也没有提供自动化所有基本经济任务所需的最终构建块。在我看来,在 AI 能够充分释放其自动化经济中所有有价值的工作的潜力之前,还需要在多模态、自主性、长期记忆和机器人技术方面取得更多突破。
最后一点,我预计未来将会有更多的发展,这将为扩展我们的推理计算开辟有趣的新途径,类似于推理模型 (Reasoning Models) 所释放的机遇。例如,我预测未来的模型将被训练为在多智能体环境中有效执行,其中多个 AI 系统并行协作。这将引入一种扩展推理计算的新途径,类似于人类组织通过增加员工人数来扩大规模的方式。
如果我们想预测推理扩展的下一个重大范式转变,那么仔细思考人类如何通过常规方式扩大他们的认知资源以提高生产力,然后考虑我们最终将如何设计 AI 来利用这些可能性,就像人类所做的那样,这可能是有用的。