本文是 OpenAI 研究员的 Shunyu Yao 在个人博客发表的一篇文章,主要探讨了人工智能 (AI) 领域正经历一个重要的转折点,从专注于开发新训练方法和模型的“上半场”进入到侧重于定义问题和评估实际效用的“下半场”。

  • AI 发展的阶段性转变: AI 领域正从以方法和模型创新为主导的“上半场”过渡到以问题定义和评估为核心的“下半场”。
  • 上半场的特征: 重点是开发新的训练方法(如 Transformer)和模型(如 AlexNet, GPT-3),并通过在基准测试(如 ImageNet, WMT'14)上取得进展来衡量成功。方法创新被认为比任务定义更重要、更具影响力。
  • 下半场的催化剂: 一个包含大规模语言预训练、数据与计算规模、以及推理与行动概念的“配方”已经成熟,特别是强化学习 (RL) 实现了泛化。这个配方使得在各种基准上取得进展变得更加标准化和工业化。
  • 下半场的焦点: 由于现有方法足以解决许多基准问题,未来的重点应转向定义 AI 应该做什么,以及如何衡量其在现实世界中的真实效用 (utility)。这需要根本性地反思和创新评估方法。
  • 思维模式的转变: 从业者需要像产品经理一样思考,质疑现有评估假设(如自主性、独立同分布 i.i.d.),并创建更贴近现实应用场景的新评估范式。

原文:下半场

tldr: 我们正处于人工智能 (AI) 的中场休息。

几十年来,人工智能 (AI) 主要致力于开发新的训练方法和模型。而且这很奏效:从击败国际象棋和围棋的世界冠军,到在 SAT 和律师资格考试中超越大多数人类,再到获得国际数学奥林匹克 (IMO) 和国际信息学奥林匹克 (IOI) 金牌。这些历史书中的里程碑——DeepBlue、AlphaGo、GPT-4 和 o-series——背后是人工智能方法的基础创新:搜索、深度强化学习 (deep RL)、扩展 (scaling) 和推理 (reasoning)。技术一直在不断进步。

那么现在有什么突然不同了呢?

用三个词来说:强化学习 (RL) 终于奏效了。更准确地说:强化学习终于可以泛化了。经过几次重大的弯路和一系列里程碑的积累,我们找到了一个行之有效的配方,可以使用语言和推理来解决各种强化学习任务。即使在一年前,如果你告诉大多数人工智能研究人员,一个单一的配方可以处理软件工程、创意写作、IMO 级别的数学、鼠标和键盘操作以及长篇问答——他们会嘲笑你的异想天开。这些任务中的每一项都极其困难,许多研究人员甚至会将整个博士生涯专注于其中一个狭窄领域。

然而,这一切成为了现实。

那么接下来会发生什么?人工智能的下半场——从现在开始——将把重点从解决问题转向定义问题。在这个新时代,评估变得比训练更重要。我们不再仅仅问“我们能否训练一个模型来解决 X?”,而是问“我们应该训练人工智能做什么,以及如何衡量真正的进步?”。为了在这个下半场取得成功,我们需要及时转变思维模式和技能组合,这些可能更接近产品经理所需的能力。

上半场

为了理解上半场,看看它的赢家。你认为迄今为止最具影响力的人工智能论文是什么?

我试了试斯坦福 224N 的测试题,答案并不令人意外:Transformer、AlexNet、GPT-3 等。这些论文有什么共同之处?它们提出了一些基础性的突破来训练更好的模型。同时,它们通过在一些(显著的)基准测试上展示改进成功发表了论文。

然而,存在一个潜在的共性:这些“赢家”都是训练方法或模型,而不是基准测试或任务。即使可以说是最具影响力的基准测试 ImageNet,其引用次数也少于 AlexNet 的三分之一。方法与基准测试的对比在其他任何地方都更加剧烈——例如,Transformer 的主要基准测试是 WMT’14,其工作坊报告有约 1,300 次引用,而 Transformer 有超过 160,000 次引用。

这说明了上半场的游戏规则:专注于构建新的模型和方法,而评估和基准测试是次要的(尽管对于论文系统运转必不可少)。

为什么?一个主要原因是,在人工智能的上半场,方法比任务更难、更令人兴奋。从零开始创建一个新的算法或模型架构——想想反向传播算法、卷积网络 (AlexNet) 或 GPT-3 中使用的 Transformer 等突破——需要卓越的洞察力和工程能力。相比之下,定义人工智能的任务往往感觉更直接:我们只是将人类已经完成的任务(如翻译、图像识别或国际象棋)转化为基准测试。这不需要太多的洞察力甚至工程技术。

方法也往往比单个任务更通用、适用范围更广,这使得它们特别有价值。例如,Transformer 架构最终推动了计算机视觉 (CV)、自然语言处理 (NLP)、强化学习 (RL) 和许多其他领域的进步——远远超出了它首次证明自己的单个数据集 (WMT’14 翻译)。一个优秀的新方法可以通过简单和通用性来提升在许多不同基准上的表现,因此其影响往往超出单个任务。

这个游戏已经持续了几十年,并激发了改变世界的思想和突破,这些思想和突破通过各种领域不断提高的基准性能得以体现。为什么游戏会改变呢?因为这些思想和突破的积累在创建解决任务的有效配方方面产生了质的差异。

配方

配方是什么?它的成分,不出所料,包括大规模语言预训练、规模(在数据和计算方面),以及推理和行动的思想。这些可能听起来像是你在旧金山每天听到的流行语,但为什么要称它们为配方?

我们可以通过强化学习 (RL) 的视角来理解这一点,强化学习通常被认为是人工智能的“最终游戏”——毕竟,强化学习在理论上保证能赢得游戏,而且从经验来看,很难想象没有强化学习的超人系统(例如 AlphaGo)。

在强化学习中,有三个关键组成部分:算法、环境和先验。很长一段时间以来,强化学习研究人员主要关注算法(例如 REINFORCE、DQN、TD-learning、actor-critic、PPO、TRPO 等)——这是智能体如何学习的智力核心——而将环境和先验视为固定或最少的。例如,Sutton 和 Barto 的经典教科书完全是关于算法的,几乎没有关于环境或先验的内容。

然而,在深度强化学习时代,很明显,环境在实践中非常重要:算法的性能通常与其开发和测试的环境高度相关。如果你忽略环境,你就有可能构建一个只在玩具设置中表现出色的“最优”算法。那么,为什么我们不先弄清楚我们真正想要解决的环境,然后找到最适合它的算法呢?

这正是 OpenAI 最初的计划。它构建了 gym,一个用于各种游戏的标准强化学习环境,然后是 World of Bits 和 Universe 项目,试图将互联网或计算机变成一个游戏。一个好计划,不是吗?一旦我们将所有数字世界变成一个环境,用智能强化学习算法解决它,我们就有了数字通用人工智能 (AGI)。

这是一个好计划,但并未完全奏效。OpenAI 在这条道路上取得了巨大进展,利用强化学习解决了 Dota机械手 等。但它从未接近解决计算机使用或网页导航问题,而且在一个领域工作的强化学习智能体无法迁移到另一个领域。缺少了一些东西。

直到 GPT-2 或 GPT-3 之后,才发现缺失的部分是先验。你需要强大的语言预训练来将通用的常识和语言知识提炼到模型中,然后可以将这些模型进行监督微调 (SFT),使其成为网页 (WebGPT) 或聊天 (ChatGPT) 智能体(并改变世界)。事实证明,强化学习中最重要的部分甚至可能不是强化学习算法或环境,而是先验,而先验可以通过与强化学习完全不相关的方式获得。

语言预训练为聊天创建了良好的先验,但对于控制计算机或玩视频游戏则不那么好。为什么?这些领域与互联网文本的分布相去甚远,并且在这些领域上天真地进行监督微调 (SFT) / 强化学习的泛化能力很差。我在 2019 年就注意到了这个问题,当时 GPT-2 刚刚发布,我对其进行监督微调 / 强化学习以解决基于文本的游戏——CALM 是世界上第一个通过预训练语言模型构建的智能体。但智能体需要数百万步强化学习才能攀爬单个游戏,并且无法迁移到新游戏。虽然这正是强化学习的特点,对于强化学习研究人员来说并不奇怪,但我发现这很奇怪,因为我们人类可以轻松地玩新游戏并且在零样本情况下表现得更好得多。然后我迎来了人生中第一个顿悟时刻——我们之所以能泛化,是因为我们可以选择不仅仅是“去 2 号柜子”或“用 1 号钥匙打开 3 号箱子”或“用剑杀死地牢”,我们还可以选择思考一些事情,比如“地牢很危险,我需要武器来对抗它。没有可见的武器,所以也许我需要在锁着的盒子或箱子里找一个。3 号箱子在 2 号柜子里,让我先去那里打开它”。

思考,或者说推理,是一种奇怪的行动——它不会直接影响外部世界,然而推理空间是开放式的,是组合无限的——你可以思考一个词、一个句子、一整段,或者 10000 个随机的英文单词,但你周围的世界不会立即改变。在经典强化学习理论中,这是一个糟糕的交易,使得决策变得不可能。想象一下你需要从两个箱子中选择一个,其中只有一个箱子有 100 万美元,另一个是空的。你应该能赚到 50 万美元。现在想象一下,我添加了无限个空箱子。你应该什么也赚不到。但是通过将推理添加到任何强化学习环境的行动空间中,我们利用了语言预训练的先验来泛化,并且我们能够为不同的决策提供灵活的测试时计算。这是一件非常神奇的事情,我很抱歉在这里不能完全解释清楚,我可能需要为此再写一篇博客文章。欢迎阅读 ReAct,了解智能体推理的原始故事,并感受我当时的情绪。现在,我的直观解释是:即使你添加了无限个空箱子,你在各种游戏中一生中都见过它们,选择这些箱子能让你更好地在任何给定的游戏中选择装有钱的箱子。我的抽象解释是:语言通过智能体中的推理进行泛化

一旦我们有了正确的强化学习先验(语言预训练)和强化学习环境(将语言推理作为行动添加),事实证明强化学习算法可能是最微不足道的部分。因此我们有了 o-series、R1、深度研究、计算机使用智能体等等。这是一个多么讽刺的转折!很长一段时间以来,强化学习研究人员比起环境更关心算法,没有人关注先验——所有的强化学习实验基本上都是从头开始的。但我们花费了几十年绕道才意识到,也许我们的优先级应该完全颠倒过来。

但就像史蒂夫·乔布斯说的:你不能向前看去连接点滴;你只能向后看去连接点滴。

下半场

这个配方正在彻底改变游戏规则。回顾上半场的游戏规则:

  • 我们开发新颖的训练方法或模型来攀爬基准测试。
  • 我们创建更难的基准测试并继续循环。

这个游戏正在被摧毁,因为:

  • 这个配方基本上已经将基准测试攀爬标准化和工业化,而无需太多新的想法。由于这个配方扩展和泛化得很好,你针对特定任务的新颖方法可能只会将其改进 5%,而下一个 o-series 模型可能在没有明确针对它的情况下将其改进 30%。
  • 即使我们创建更难的基准测试,它们很快(而且越来越快)就会被这个配方解决。我的同事 Jason Wei 做了一个漂亮的图来很好地可视化这个趋势:

那么下半场还剩下什么可以玩呢?如果不再需要新颖的方法,并且更难的基准测试会越来越快地被解决,我们应该做什么?

我认为我们应该从根本上重新思考评估。这不仅仅是创建新的和更难的基准测试,而是从根本上质疑现有的评估设置并创建新的设置,这样我们才能被迫发明超出现有有效配方的新方法。这很难,因为人类有惯性,很少质疑基本假设——你只是想当然地接受它们,而没有意识到它们是假设,而不是定律。

为了解释惯性,假设你基于人类考试发明了 历史上最成功的评估之一。这在 2021 年是一个极其大胆的想法,但三年后已经饱和。你会怎么做?很可能会创建一个 更难的考试。或者假设你解决了 简单的编程任务。你会怎么做?很可能会寻找 更难的编程任务 来解决,直到达到 IOI 金牌水平。

惯性是自然的,但问题在于。人工智能在国际象棋和围棋中击败了世界冠军,在 SAT 和律师资格考试中超越了大多数人类,并在 IOI 和 IMO 中达到了金牌水平。但世界并没有太大变化,至少从经济和 GDP 来看是这样。

我将此称为效用问题,并认为它是人工智能最重要的问题。

也许我们很快就能解决效用问题,也许不能。无论如何,这个问题的根本原因可能出奇地简单:我们的评估设置在许多基本方面与现实世界的设置不同。举两个例子:

  • 评估“应该”自动运行,所以通常智能体接收一个任务输入,自主完成任务,然后获得任务奖励。但在现实中,智能体必须在整个任务过程中与人互动——你不会只给客服发一个超长的消息,等 10 分钟,然后期待一个详细的回复来解决所有问题。通过质疑这种设置,新的基准测试被发明出来,将真实人类(例如 Chatbot Arena)或用户模拟(例如 tau-bench)纳入循环中。
  • 评估“应该”独立同分布 (i.i.d.) 运行。如果你有一个包含 500 个任务的测试集,你会独立运行每个任务,平均任务指标,然后得到一个总体指标。但在现实中,你是按顺序而不是并行解决任务的。一个 Google 软件工程师随着对代码库的熟悉程度越来越高,解决 google3 问题也越来越好,但一个软件工程师智能体在同一个代码库中解决许多问题却没有获得这样的熟悉度。我们显然需要长期记忆方法(而且 这些 方法),但学术界没有合适的基准测试来证明这种需求的合理性,甚至没有足够的勇气去质疑作为机器学习基础的独立同分布假设。

这些假设“一直”如此,在人工智能的上半场,在这些假设下开发基准测试是可以的,因为当智能水平较低时,提高智能通常会提高效用。但现在,这个通用的配方在这些假设下是保证有效的。所以玩下半场新游戏的方式是

  • 我们为现实世界效用开发新颖的评估设置或任务。
  • 我们用这个配方解决它们,或者用新颖的组件增强这个配方。继续循环。

这个游戏很难,因为它不熟悉。但它令人兴奋。上半场的玩家解决电子游戏和考试,下半场的玩家则通过利用智能构建有用的产品来建立数十亿或数万亿美元的公司。虽然上半场充满了增量方法和模型,下半场则在一定程度上过滤它们。通用的配方只会压垮你的增量方法,除非你创造出打破这个配方的新假设。然后你才能进行真正改变游戏规则的研究。

欢迎来到下半场!

致谢

这篇博客文章基于我在斯坦福 224N 和哥伦比亚大学的讲座。我使用 OpenAI deep research 阅读了我的幻灯片并撰写了草稿。