真正的 LLM Agents 即将到来 • Alexander Doria
本文的核心观点是,真正的 生成式 AI LLM 智能体 (agents) 正在到来,它们与目前常见的基于工作流的系统有着本质的区别。这些新型智能体能够进行规划、记忆,并有效地执行多步骤、长期的任务。与预定义规则和提示的工作流系统不同,真正的 LLM 智能体能够动态地指导自身流程和工具使用,从而克服了传统方法在可扩展性和长期效能方面的局限性,并有望在各个领域带来颠覆性变革。文章强调,要实现真正的 LLM 智能体,需要采用 强化学习 (RL) 与推理 (Reasoning) 相结合的方法,并克服数据和计算方面的挑战,以推动这项技术的民主化发展。 LLM 智能体的定义与兴起: 文章指出,OpenAI 在 2025 年 1 月发布的 DeepResearch 以及 Claude Sonnet 3.7 是真正的 LLM 智能体的早期例证。Anthropic 将 LLM 智能体定义为能够动态控制自身流程和工具使用的系统,这与通过预定义代码路径编排 LLM 和工具的工作流系统形成对比。 工作流系统的局限性: 文章批评了当前许多 “智能体” 系统,如 Manus AI,实际上是工作流系统,它们在规划、记忆和长期行动方面存在根本性缺陷,例如无法有效规划搜索策略、难以维持超过 5-10 分钟的任务、以及长期行动中容易累积错误。 “苦涩的教训” (Bitter Lesson): 文章引用了 Richard Sutton 的 “苦涩的教训”,指出在 AI 智能体中硬编码知识和规则虽然短期内有效,但长期来看会阻碍进步。真正的突破来自于扩展计算规模,并基于搜索和学习的方法。这表明,依赖预定义提示和规则的工作流系统注定会遇到瓶颈。 RL + Reasoning 是制胜之道: 文章强调,真正的 LLM 智能体需要通过 强化学习 (RL) 进行训练,并结合推理能力。训练过程涉及生成草稿、评估结果 (通过验证器 verifiers) 以及迭代优化。DeepSeek 的 GRPO 算法和 vllm 技术被认为是实现高效 RL 训练的关键。 数据和计算的挑战与解决方案: 训练 LLM 智能体,特别是对于复杂任务如搜索,需要大量的行动序列数据。由于缺乏公开的 agentic 数据,文章提出了通过模拟 (emulation) 和合成数据生成来解决数据瓶颈的思路。例如,可以创建网络搜索的模拟环境,并利用 Common Crawl 等数据集进行训练。 LLM 智能体的应用前景: 文章展望了 LLM 智能体在搜索之外的应用,例如网络工程 (自动生成设备配置、分析网络拓扑) 和金融领域 (数据标准转换)。这些应用场景都超越了传统工作流系统的能力,需要智能体具备自主规划和动态决策的能力。 技术民主化的必要性: 文章最后指出,目前 LLM 智能体技术主要掌握在少数大型实验室手中,为了促进技术发展和应用普及,需要推动 LLM 智能体训练和部署的民主化,例如开放验证器、 GRPO 训练样本以及复杂的合成管线和模拟器。 原文:真正的 LLM Agents 即将到来 实际的大语言模型 AI 智能体 (LLM Agent) 即将到来。它们将被训练 现在“智能体”这个词随处可见。然而,在大语言模型 (LLM) 驱动的智能体研究领域,一项最重要的研究进展却几乎没有引起人们的注意。...