本文的核心观点是，真正的生成式 AI LLM 智能体 (agents) 正在到来，它们与目前常见的基于工作流的系统有着本质的区别。这些新型智能体能够进行规划、记忆，并有效地执行多步骤、长期的任务。与预定义规则和提示的工作流系统不同，真正的 LLM 智能体能够动态地指导自身流程和工具使用，从而克服了传统方法在可扩展性和长期效能方面的局限性，并有望在各个领域带来颠覆性变革。文章强调，要实现真正的 LLM 智能体，需要采用强化学习 (RL) 与推理 (Reasoning) 相结合的方法，并克服数据和计算方面的挑战，以推动这项技术的民主化发展。

LLM 智能体的定义与兴起： 文章指出，OpenAI 在 2025 年 1 月发布的 DeepResearch 以及 Claude Sonnet 3.7 是真正的 LLM 智能体的早期例证。Anthropic 将 LLM 智能体定义为能够动态控制自身流程和工具使用的系统，这与通过预定义代码路径编排 LLM 和工具的工作流系统形成对比。
工作流系统的局限性： 文章批评了当前许多 “智能体” 系统，如 Manus AI，实际上是工作流系统，它们在规划、记忆和长期行动方面存在根本性缺陷，例如无法有效规划搜索策略、难以维持超过 5-10 分钟的任务、以及长期行动中容易累积错误。
“苦涩的教训” (Bitter Lesson)： 文章引用了 Richard Sutton 的 “苦涩的教训”，指出在 AI 智能体中硬编码知识和规则虽然短期内有效，但长期来看会阻碍进步。真正的突破来自于扩展计算规模，并基于搜索和学习的方法。这表明，依赖预定义提示和规则的工作流系统注定会遇到瓶颈。
RL + Reasoning 是制胜之道： 文章强调，真正的 LLM 智能体需要通过强化学习 (RL) 进行训练，并结合推理能力。训练过程涉及生成草稿、评估结果 (通过验证器 verifiers) 以及迭代优化。DeepSeek 的 GRPO 算法和 vllm 技术被认为是实现高效 RL 训练的关键。
数据和计算的挑战与解决方案： 训练 LLM 智能体，特别是对于复杂任务如搜索，需要大量的行动序列数据。由于缺乏公开的 agentic 数据，文章提出了通过模拟 (emulation) 和合成数据生成来解决数据瓶颈的思路。例如，可以创建网络搜索的模拟环境，并利用 Common Crawl 等数据集进行训练。
LLM 智能体的应用前景： 文章展望了 LLM 智能体在搜索之外的应用，例如网络工程 (自动生成设备配置、分析网络拓扑) 和金融领域 (数据标准转换)。这些应用场景都超越了传统工作流系统的能力，需要智能体具备自主规划和动态决策的能力。
技术民主化的必要性： 文章最后指出，目前 LLM 智能体技术主要掌握在少数大型实验室手中，为了促进技术发展和应用普及，需要推动 LLM 智能体训练和部署的民主化，例如开放验证器、 GRPO 训练样本以及复杂的合成管线和模拟器。

原文：真正的 LLM Agents 即将到来

实际的大语言模型 AI 智能体 (LLM Agent) 即将到来。它们将被训练

现在“智能体”这个词随处可见。然而，在大语言模型 (LLM) 驱动的智能体研究领域，一项最重要的研究进展却几乎没有引起人们的注意。

2025 年 1 月，OpenAI 发布了 DeepResearch，它是 O3 的一个专门版本，用于网络和文档搜索。得益于“在这些浏览任务上进行的强化学习训练”，DeepResearch 获得了以下能力：为搜索策略进行规划，交叉引用各种来源，并能基于中间反馈，查询特定领域的小众知识。Claude Sonnet 3.7 似乎也成功地将类似的策略应用于代码编写。结果表明，单单这一个模型，在复杂编程任务的序列上，就超越了以往模型组合的现有编排方式。

简而言之，正如 William Brown 所说，“大语言模型 AI 智能体可以胜任需要多个步骤才能完成的长期任务”。

这项进展引出了一个问题：究竟什么是大语言模型 AI 智能体？去年 12 月，Anthropic 公布了一个新的定义：“AI 智能体是指这样一种系统：它使用大语言模型动态地指导自身的流程和工具使用，从而掌控完成任务的方式。”

与此相对的是，更常见的智能体系统形式被归类为工作流 (workflow)，即“通过预定义的代码路径来编排大语言模型和各种工具”。最近备受关注的 Manus AI 正是符合这一定义。我周末进行的所有测试都揭示了工作流 (workflow) 系统的根本局限性，而这些局限性在 AutoGPT 时代就已经显现出来，并且在搜索方面尤为突出：

它们无法进行规划，并且经常在任务中途陷入僵局。
它们缺乏记忆能力，难以维持超过 5-10 分钟的任务。
它们无法有效地执行长期行动，行动序列经常由于累积误差而失败。

本文以一个对大语言模型 AI 智能体更严格的全新定义作为出发点。我们力求在大型实验室提供的有限信息、新兴的开放研究生态以及一些个人推测的基础上，尽可能地总结我们目前所了解的内容。

简单的大语言模型 AI 智能体带来的惨痛教训

智能体的概念几乎与基础语言模型完全冲突。

在传统的智能体研究中，智能体存在于受约束的环境中。你可以想象一个迷宫，你只能朝某些方向移动，而不能朝其他方向移动。你不能飞行，不能钻入地下，也不能凭空消失。你受到物理规则的约束，并且可以选择性地受到游戏规则的约束。在这种情况下，任何实际的智能体仍然可以拥有一定的自由度，因为解决游戏的方法不止一种。然而，每一个行动都必须以赢得胜利并获得最终奖励为目标。有效的智能体会逐渐记住过去的行动，并形成详细的模式和启发式方法。

这个过程被称为“搜索”。这是一个非常贴切的比喻：智能体在迷宫中的探索性移动，与网络用户在搜索引擎上的点击模式完全类似。关于“搜索”的研究已经有几十年的历史了。值得注意的是，Q-star 算法，这个一度被认为是 OpenAI 新一代 O 模型背后的算法 (目前还不清楚)，实际上是 A-Star 算法的一个分支，而 A-Star 算法是 1968 年就提出的搜索算法。最近一个非常好的例子是 Pufferlib 所做的 Pokemon 训练实验：我们可以看到智能体实际上在搜索最佳路径，经历失败，然后不断来回尝试。

Pokemon RL experiment by PufferLib

而基础语言模型的工作方式几乎与此完全相反：

智能体会记忆它们所处的环境，而基础模型则不会，它们只能对上下文窗口中可用的信息做出反应。
智能体受到有限理性的约束，而基础模型会生成任何可能的文本。虽然这可能会导致实际一致的推理，但并不能保证，并且模型可能会随时因为纯粹的“美学”考量而偏离。
智能体可以制定长期战略。如果构思得当，它们可以提前计划行动或进行回溯。语言模型能够执行单一的推理任务，但很快就会在多跳推理中达到饱和。总的来说，它们受到文本规则的约束，而不是物理或游戏规则的约束。

要协调大语言模型和智能化，一个简单的方法是通过预先准备好的提示和规则来预定义它们的输出。大多数大语言模型驱动的智能体系统都采用了这种方法，但注定会遇到 Richard Sutton 提出的……“惨痛教训”。“惨痛教训”有时会被误认为是预训练语言模型的某种指南。但它实际上主要是关于智能体的，以及将知识纳入和硬编码到模型中的诱惑。如果你看到一堵墙，就避开它，朝另一个方向移动。如果你看到太多的墙，就往回走。这在短期内可能会有所帮助，你会立即看到改进，而且你不需要永远运行一个算法才能看到它们。然而，从长远来看，你注定会找到次优的解决方案，或者陷入意想不到的境地：

我们必须吸取惨痛的教训，那就是，从长远来看，按照我们认为的思考方式来构建模型是行不通的。这个惨痛的教训基于以下历史观察：1) AI 研究人员经常试图将知识构建到他们的智能体中；2) 这总是在短期内有所帮助，并且在个人层面上让研究人员感到满意；3) 但从长远来看，它会停滞，甚至会阻碍进一步的进展；4) 最终，突破性的进展将通过一种相反的方法来实现，即通过搜索和学习来扩展计算。最终的成功是痛苦的，而且常常是不完全被接受的，因为它是在一种更受欢迎的、以人为中心的方法上的胜利。

现在，让我们把这个应用到目前大语言模型在生产中的使用方式。像 Manus 这样的工作流 (workflow) 或你常用的 LLM 封装器目前都在“构建知识”。他们通过一系列预先准备好的提示来引导模型。这可能是在短期内最方便的解决方案——毕竟你不需要重新训练模型。但这不是最理想的解决方案。最终，你所创造的是某种生成式 AI 和基于规则的系统的混合体，这是一组“思考头脑内容 (例如思考空间、物体、多个智能体或对称性) 的简单方法。”

让我们明确地说：如果 Manus AI 无法正确地预订机票，或者建议你如何赤手空拳地与老虎搏斗，那并不是因为它构思得很糟糕，而是因为它受到了“惨痛教训”的教训。提示无法扩展，硬编码的规则也无法扩展。你需要从头开始设计那些可以搜索、可以计划和可以行动的系统。你需要设计真正的大语言模型 AI 智能体。

强化学习 + 推理：制胜的秘诀

这又是一个难题。公开的资料很少。Anthropic、OpenAI、DeepMind 和其他一些实验室掌握着相关信息。到目前为止，我们只能依靠一些官方信息、坊间传闻和一些有限的开放研究尝试。

与传统的智能体类似，大语言模型 AI 智能体也需要通过强化学习进行训练。你可以想象一个迷宫，迷宫里布满了所有可以用来描述事物的潜在词语。最终会有一条出路，或者说“奖励”。检查是否获得奖励的过程被称为验证器 (verifier) ——而这正是 William Brown 新的验证器库的全部目的。目前，验证器最好在正式的结果上进行验证，例如数学方程式或编程序列。然而，正如 Kalomaze 所展示的那样，完全可以通过训练专门的分类器，围绕那些非严格可验证的输出构建验证器。我们在这方面的一个重大改变是：语言模型更擅长评估，而不是创造。因此，即使使用小型的大语言模型作为裁判，你也可以在性能和整体奖励设计方面获得显著的提升。
大语言模型 AI 智能体通过草稿 (drafts) 进行训练，也就是生成并评估完整的文本。这并不是一个简单的选择，因为最初的研究重点是将搜索扩展到整个 Token 序列。计算约束是一个主要因素，以及最近在开发“推理”模型方面取得的突破——或许称之为“起草”模型更为合适。推理模型的典型训练序列包括让模型提出自己的逻辑序列，前提是那些能够产生良好答案的序列才是更正确的序列。这可能会产生一些违反直觉的结果 (最好的例子是 DeepSeek R0 模型偶尔会在英语和中文之间切换语言)。然而，以一种典型的“惨痛教训”的方式，强化学习只关心任何有效的方法，并且会毫不犹豫地采取非正统或计划外的捷径 (如果需要的话)。与迷宫中迷路的传统智能体类似，语言模型必须通过纯粹的推理练习来找到出路。没有预定义的提示，没有方向，只有奖励和获得奖励的方式：这就是解决“惨痛教训”的痛苦方案。
大语言模型的草稿会被预先定义为结构化的数据部分，以便于奖励验证，并在一定程度上简化整个推理过程。这是一种评分标准工程 (rubric engineering)，可以直接作为奖励函数进行管理，或者，正如我认为在大型实验室的训练环境中更常见的那样，通过一些初始的后训练阶段进行管理。
大语言模型 AI 智能体通常需要接受大量草稿的训练，并且需要多步进行。搜索通常就是这种情况：我们不会一次性评估搜索结果，而是评估模型访问资源、获取结果、详细说明、获取另一个资源、详细说明、改变计划和回溯等能力。因此，目前用于训练大语言模型 AI 智能体的首选方法是 DeepSeek 的 GRPO (Generative Reward Policy Optimization)，特别是与 vllm 的文本生成相结合。几周前，我发布了一个基于 William Brown 的工作的病毒式代码本，该代码本设法将 GRPO 放入一个通过 Google Colab 提供的 A100 GPU 中。计算要求的降低是一个主要因素，这将确保未来几年强化学习和智能体设计的普及。

等等…… 你如何扩展它？

以上是基本的构建模块。现在，从这些模块到 OpenAI 的 DeepResearch 以及其他能够处理长序列动作的新兴智能体之间，仍然存在一定的距离。请允许我做一些推测。

开放的强化学习/推理研究主要集中在数学上，因为我们发现我们拥有大量的数学练习题，其中一些练习题被捆绑在 Common Crawl 中，并由 HuggingFace 使用分类器提取出来 (这就是 FineMath)。对于许多领域，特别是搜索领域，我们并没有足够的数据。因为我们需要实际的行动序列：日志、点击和模式。在不久的过去，我曾经从事日志分析工作。那些模型 (仍然在使用马尔可夫链，但是，嘿，这个领域变化太快了……) 仍然经常在 20 世纪 90 年代末从 AOL 泄露的数据上进行训练 (!)。最近，该领域至少增加了一个关键的开放数据集：Wikipedia clickstream，这是一组从一篇 Wikipedia 文章到另一篇文章的匿名路径。现在让我问你一个简单的问题：这个数据集在 HuggingFace 上吗？答案是：不在。事实上，HuggingFace 上几乎没有实际的智能体数据，从某种意义上说，这些数据可以增强规划能力。整个领域仍然假设大语言模型需要通过定制的、基于规则的系统进行编排。我也不确定 OpenAI 或 Anthropic 是否拥有足够数量的此类数据。至少在这个领域，传统的科技公司拥有强大的优势，而且没有简单的替代方案：你无法购买 Google 用户查询的庞大数据集 (除非它在某种程度上在暗网上泄露了)。

有一种方法可以解决这个问题：直接通过模拟 (emulations) 或“仿真”生成数据。传统的强化学习模型并不需要过去的例子。它们可以通过广泛而重复的搜索来推断约束和首要策略。一旦应用到搜索，典型的强化学习方法与游戏强化学习并没有太大的区别：让模型自由探索，并在它找到正确答案时给予奖励。这可能是一个非常漫长的过程。例如，你需要找到 20 世纪 60 年代苏联一篇被遗忘的论文中记载的一个非常具体的化学实验。通过纯粹的蛮力，也许再加上一些语言查询的变化，模型最终可能会偶然发现正确的答案。然后，它可以聚合所有导致这种情况发生的因素，这可能会使将来更有可能找到类似的发现。

让我们做一些计算。在典型的强化学习设计中 (比如 GRPO)，你可以有 16 个并发的草稿——如果在大实验室中训练的模型使用了更高的草稿迭代，我也不会感到惊讶。每个草稿可能会连续浏览至少 100 个不同的页面。这意味着 2,000 个潜在的查询，而这仅仅是……一个步骤。一个复杂的强化学习训练序列可能需要数十万个步骤 (这也是我认为它现在正处于中期训练阶段的原因之一) 以及各种各样的示例，特别是对于像通用搜索能力这样复杂的事情。你所看到的是一个训练序列，它需要数亿个单独的连接——并且可能在这个过程中会给一些首选的学术资源带来拒绝服务攻击。这……并不是最佳的。因此，带宽成为了主要的限制因素，而非实际的计算能力。

游戏强化学习也面临着类似的限制。因此，像 Pufferlib 这样最先进的方法会包装“环境，使其从学习库的角度来看，看起来像 Atari 游戏一样，而不会有任何通用性的损失”。强化学习模型只需要看到它们需要使用的东西。一旦应用于搜索，这可能涉及到利用大型的 Common Crawl 数据转储，并将数据发送得好像它正在通过网络进行处理一样，包括 URL、API 调用和其他典型的 HTTP 项目。与此同时，数据已经存在于本地的数据帧中，并具备快速查询能力。

因此，我预计用于搜索的典型大语言模型强化学习 AI 智能体将通过以下方式进行训练：

创建一个大型的网络搜索模拟环境，其中固定数据集不断地被“翻译”回模型。
使用某种形式的轻量级 SFT (例如 DeepSeek 的 SFT-RL-SFT-RL steps) 对模型进行预热，可能会利用现有的搜索模式。总体的思路是预先格式化推理和输出，并加快实际的强化学习训练速度——这是一种预定义的评分标准工程。
准备具有相关结果的、或多或少复杂的查询作为验证器 (verifiers)。我猜测这会涉及到一些复杂的合成管道，其中包含来自现有资源的反向翻译，或者可能只是来自具有博士学位的标注人员的昂贵标注。
在多步骤的强化学习中进行实际训练。模型会收到一个查询，然后启动搜索，并接收搜索结果，之后它可以浏览页面或重新组织结果，所有这些都在多步骤中完成。从模型的角度来看，这就像它真的在浏览网络一样，但所有的数据交换都在后台由搜索模拟器准备。
也许一旦模型在搜索方面足够出色，就可以重新进行另一轮强化学习和 SFT，但这一次会更侧重于编写最终的总结。我再次猜测这会涉及到一些复杂的合成管道，其中输出会变成输入：原始的长篇报告会被切成小块，然后通过一些推理将它们重新组合在一起。

你无法提示一个智能体

最后，我们得到了一个真正意义上的智能体模型。那么，与标准的工作流或模型编排相比，这在实践中会带来什么变化？仅仅是整体质量的提升吗？还是会带来一种完全不同的范例？

让我们回到 Anthropic 的定义：大语言模型 AI 智能体“动态地指导自身的流程和工具使用，从而掌控完成任务的方式。”我想再次使用我最熟悉的用例之一：搜索。

关于 RAG (Retrieval-Augmented Generation) 的消亡以及使用长上下文窗口直接利用大语言模型来取代它的猜测有很多。但由于多种原因，这种情况并没有发生：长上下文窗口在计算上的成本很高，除了相对简单的查找之外，其准确性并不高，而且输入的可追溯性也很小。真正的智能体搜索大语言模型并不会扼杀 RAG (Retrieval-Augmented Generation)。实际可能发生的情况是在很大程度上实现 RAG 的自动化，并将向量存储、路由和重新排序等所有复杂性都整合在一起。一个典型的搜索过程可能会像下面这样进行：

分析查询，分解查询，并对用户的意图做出一些假设。
如果查询不明确，系统可能会立即提示用户进行反馈 (OpenAI 的 DeepResearch 已经实现了这一点)。
之后，模型可以继续进行通用搜索，或者，如果合适，它可以立即继续搜索更专业的资源。该模型已经记住了标准的 API 方案，因此可以直接调用它们。为了节省推理时间，这些模型最好是依赖于现有的 Web“模拟”版本：API、站点地图和庞大的 Web 数据生态系统。
系统会对搜索序列进行学习和训练。模型可以放弃错误的方向，或者像专业的知识工作者那样，采取其他的搜索路径。我在 OpenAI 的 DeepResearch 中看到的一些最令人印象深刻的结果就证明了这种能力：那些索引不正确的来源可以通过一系列内部推导被正确地定位。
搜索步骤和过程会被记录为内部推理轨迹，从而提供一定程度的可解释性。

简而言之，搜索过程是直接设计的。大语言模型 AI 智能体会采用现有的搜索基础设施，并尽其所能地尝试通过各种方法来优化搜索结果。它不需要立即进行额外的数据准备，也不需要训练用户与生成式 AI 系统进行交互。正如 Tim Berners-Lee 在十多年前强调的那样，“思考[智能体]的一种方式是，程序在每种情况下都完全按照用户专门询问时所希望的那样去做。”

现在，为了更清楚地了解投入生产的真正的大语言模型 AI 智能体，你可以开始将这种方法应用到其他领域。一个真正的网络工程智能体应该能够直接与现有的基础设施进行交互，以便根据需求生成设备配置 (路由器、交换机、防火墙)，分析网络拓扑结构并提出优化建议，或者解析错误日志以识别网络问题的根本原因。一个真正的金融智能体应该能够接受训练，从而无缝且准确地翻译各种竞争的数据标准 (例如，将 ISO 20022 标准翻译为 MT103 标准)。目前，所有这些事情都无法通过一组系统提示来实现。

目前，唯一能够开发真正的大语言模型 AI 智能体的参与者是大型实验室。他们掌握着所有的王牌：技术诀窍、一些数据 (或者至少是制作合成数据的秘诀)，以及将他们的模型转化为产品的整体愿景。我不确定这种技术集中化是否是一件好事，尽管资金的匮乏使得生态系统不愿将实际的模型训练视为一种能够在长期内创造颠覆和价值的来源，这种情况在很大程度上助长了这种技术集中化的趋势。

我通常不喜欢过度炒作。但是，考虑到颠覆和价值捕获的巨大潜力，我确实认为，将真正的大语言模型 AI 智能体的训练和部署民主化正变得越来越重要。因此，我们需要开放验证器、GRPO 训练样本，以及可能很快会开放的复杂的合成管道和模拟器。

2025 年会是智能体之年吗？让我们拭目以待。

原文：真正的 LLM Agents 即将到来#