下半场 • Shunyu Yao
本文是 OpenAI 研究员的 Shunyu Yao 在个人博客发表的一篇文章,主要探讨了人工智能 (AI) 领域正经历一个重要的转折点,从专注于开发新训练方法和模型的“上半场”进入到侧重于定义问题和评估实际效用的“下半场”。 AI 发展的阶段性转变: AI 领域正从以方法和模型创新为主导的“上半场”过渡到以问题定义和评估为核心的“下半场”。 上半场的特征: 重点是开发新的训练方法(如 Transformer)和模型(如 AlexNet, GPT-3),并通过在基准测试(如 ImageNet, WMT'14)上取得进展来衡量成功。方法创新被认为比任务定义更重要、更具影响力。 下半场的催化剂: 一个包含大规模语言预训练、数据与计算规模、以及推理与行动概念的“配方”已经成熟,特别是强化学习 (RL) 实现了泛化。这个配方使得在各种基准上取得进展变得更加标准化和工业化。 下半场的焦点: 由于现有方法足以解决许多基准问题,未来的重点应转向定义 AI 应该做什么,以及如何衡量其在现实世界中的真实效用 (utility)。这需要根本性地反思和创新评估方法。 思维模式的转变: 从业者需要像产品经理一样思考,质疑现有评估假设(如自主性、独立同分布 i.i.d.),并创建更贴近现实应用场景的新评估范式。 原文:下半场 tldr: 我们正处于人工智能 (AI) 的中场休息。 几十年来,人工智能 (AI) 主要致力于开发新的训练方法和模型。而且这很奏效:从击败国际象棋和围棋的世界冠军,到在 SAT 和律师资格考试中超越大多数人类,再到获得国际数学奥林匹克 (IMO) 和国际信息学奥林匹克 (IOI) 金牌。这些历史书中的里程碑——DeepBlue、AlphaGo、GPT-4 和 o-series——背后是人工智能方法的基础创新:搜索、深度强化学习 (deep RL)、扩展 (scaling) 和推理 (reasoning)。技术一直在不断进步。 那么现在有什么突然不同了呢? 用三个词来说:强化学习 (RL) 终于奏效了。更准确地说:强化学习终于可以泛化了。经过几次重大的弯路和一系列里程碑的积累,我们找到了一个行之有效的配方,可以使用语言和推理来解决各种强化学习任务。即使在一年前,如果你告诉大多数人工智能研究人员,一个单一的配方可以处理软件工程、创意写作、IMO 级别的数学、鼠标和键盘操作以及长篇问答——他们会嘲笑你的异想天开。这些任务中的每一项都极其困难,许多研究人员甚至会将整个博士生涯专注于其中一个狭窄领域。 然而,这一切成为了现实。 那么接下来会发生什么?人工智能的下半场——从现在开始——将把重点从解决问题转向定义问题。在这个新时代,评估变得比训练更重要。我们不再仅仅问“我们能否训练一个模型来解决 X?”,而是问“我们应该训练人工智能做什么,以及如何衡量真正的进步?”。为了在这个下半场取得成功,我们需要及时转变思维模式和技能组合,这些可能更接近产品经理所需的能力。 上半场 为了理解上半场,看看它的赢家。你认为迄今为止最具影响力的人工智能论文是什么? 我试了试斯坦福 224N 的测试题,答案并不令人意外:Transformer、AlexNet、GPT-3 等。这些论文有什么共同之处?它们提出了一些基础性的突破来训练更好的模型。同时,它们通过在一些(显著的)基准测试上展示改进成功发表了论文。 然而,存在一个潜在的共性:这些“赢家”都是训练方法或模型,而不是基准测试或任务。即使可以说是最具影响力的基准测试 ImageNet,其引用次数也少于 AlexNet 的三分之一。方法与基准测试的对比在其他任何地方都更加剧烈——例如,Transformer 的主要基准测试是 WMT’14,其工作坊报告有约 1,300 次引用,而 Transformer 有超过 160,000 次引用。...