文本由 Anthropic 工程师由 Erik Schluntz 和 Barry Zhang 撰写:Building effective agents,文中探讨了构建高效 AI 代理(Agent)的最佳实践。

最成功的 AI 代理系统并非建立在复杂的框架之上,而是采用简单、可组合的模式。开发者应从最简单的方案(如优化单个 LLM 调用)开始,仅在确实需要时才引入更复杂的代理系统。诸如 LangGraph 等框架虽然可以简化初始开发,但也可能引入不必要的抽象层,使调试变得困难。建议开发者直接使用 LLM API,并确保理解所使用框架的底层逻辑。

代理系统的核心在于 LLM 与工具的交互。因此,投入精力设计一个清晰、易于使用的“代理-计算机接口” (ACI) 至关重要,这包括编写详尽的工具文档和进行充分的测试。文章提出了一系列从简单到复杂的构建模式,从基础的“增强型 LLM”到自主代理,开发者可以根据具体需求组合和定制这些模式。

关键细节

代理系统的类型

  • 工作流 (Workflows):通过预定义的代码路径来编排 LLM 和工具,具有较高的可预测性。
  • 代理 (Agents)LLM 能够动态地指导自己的流程和工具使用,更加灵活,适用于无法预知步骤的开放式问题。

核心构建模式

  1. 基础模块:增强型 LLM
    • 这是所有代理系统的基础,即一个集成了检索、工具和记忆等增强功能的 LLM
  2. 工作流:提示链 (Prompt Chaining)
    • 将一个任务分解为一系列连续的步骤,每一步的 LLM 调用处理上一步的输出。适用于可清晰分解为固定子任务的场景。
  3. 工作流:路由 (Routing)
    • 对输入进行分类,并将其引导至专门的下游任务或模型。例如,将简单的客户问题路由到成本更低的 Claude Haiku 4.5 模型。
  4. 工作流:并行化 (Parallelization)
    • LLM 同时处理一个任务的不同部分。具体可分为:
      • 分片 (Sectioning):将任务分解为独立的子任务并行运行。
      • 投票 (Voting):多次运行同一个任务以获得多样化的输出或更可靠的结果。
  5. 工作流:协调器-工作者 (Orchestrator-workers)
    • 由一个中央 LLM(协调器)动态分解任务,并将其分配给多个 LLM(工作者)执行。适用于子任务无法预先确定的复杂场景,如编码。
  6. 工作流:评估器-优化器 (Evaluator-optimizer)
    • 一个 LLM 负责生成响应,另一个 LLM 在循环中提供评估和反馈,以迭代方式改进输出质量。

自主代理 (Autonomous Agents)

  • 适用场景:用于解决难以预测所需步骤的开放式问题。代理能够独立规划和执行,并通过与环境(如工具调用结果)的交互来评估进展。
  • 注意事项:自主代理的成本更高,且存在错误累积的风险。因此,必须在沙盒环境中进行广泛测试,并设置适当的护栏(如最大迭代次数)。

实践应用领域

  • 客户支持:代理可以通过集成工具来查询客户数据、处理退款等,将对话与实际操作相结合。
  • 编码代理:代理可以根据需求描述自主修改多个代码文件,并通过自动化测试来验证解决方案的正确性,例如在 SWE-bench 基准测试中的应用。

原文:构建高效的智能体

发布于 2024年12月19日

我们与各行各业的数十个团队合作构建了 LLM 智能体。一致地,最成功的实现使用的是简单、可组合的模式,而不是复杂的框架。

在过去的一年里,我们与各行各业的数十个团队合作构建了大语言模型(LLM)智能体。一致地,最成功的实现并没有使用复杂的框架或专门的库。相反,它们是用简单、可组合的模式构建的。

在这篇文章中,我们将分享我们从与客户合作以及自己构建智能体的过程中学到的东西,并为开发人员提供构建高效智能体的实用建议。

什么是智能体?

“智能体(Agent)”可以通过多种方式定义。一些客户将智能体定义为完全自主的系统,可以在很长一段时间内独立运行,使用各种工具来完成复杂的任务。其他人则使用该术语来描述遵循预定义工作流的、更具指令性的实现。在 Anthropic,我们将所有这些变体归类为智能体系统(agentic systems),但在**工作流(workflows)智能体(agents)**之间做出了重要的架构区分:

  • 工作流是通通过预定义的代码路径编排 LLM 和工具的系统。
  • 智能体则是 LLM 动态地指导其自身流程和工具使用的系统,它们对如何完成任务保持控制权。

下面,我们将详细探讨这两类智能体系统。在附录 1(“实践中的智能体”)中,我们描述了客户发现使用这类系统特别有价值的两个领域。

何时(以及何时不)使用智能体

在构建 LLM 应用程序时,我们建议寻找尽可能简单的解决方案,只有在需要时才增加复杂性。这可能意味着根本不构建智能体系统。智能体系统通常以延迟和成本为代价来换取更好的任务表现,你应该考虑这种权衡是否合理。

当需要更高的复杂性时,工作流为明确定义的任务提供了可预测性和一致性,而当需要大规模的灵活性和模型驱动的决策时,智能体是更好的选择。然而,对于许多应用程序来说,通过检索和上下文示例来优化单个 LLM 调用通常就足够了。

何时以及如何使用框架

有许多框架使智能体系统更容易实现,包括:

  • LangChain 的 LangGraph
  • Amazon Bedrock 的 AI Agent framework
  • Rivet,一个拖放式 GUI LLM 工作流构建器;以及
  • Vellum,另一个用于构建和测试复杂工作流的 GUI 工具。

这些框架通过简化标准的底层任务(如调用 LLM、定义和解析工具以及链接调用),使上手变得容易。然而,它们通常会创建额外的抽象层,这可能会掩盖底层的提示词和响应,使其难以调试。当一个更简单的设置就足够时,它们也可能让人忍不住去增加复杂性。

我们建议开发人员从直接使用 LLM API 开始:许多模式可以在几行代码中实现。如果你确实使用了框架,请确保你理解底层的代码。对底层机制的错误假设是客户出错的常见原因。

请参阅我们的 cookbook 获取一些示例实现。

构建模块、工作流和智能体

在本节中,我们将探讨我们在生产环境中见过的智能体系统的常见模式。我们将从基础构建模块——增强型 LLM——开始,逐步增加复杂性,从简单的组合工作流到自主智能体。

构建模块:增强型 LLM (The augmented LLM)

智能体系统的基本构建模块是增强了检索、工具和记忆等功能的 LLM。我们目前的模型可以主动使用这些能力——生成自己的搜索查询,选择合适的工具,并决定保留哪些信息。

增强型 LLM

我们建议关注实现的两个关键方面:根据你的特定用例定制这些功能,并确保它们为你的 LLM 提供一个简单、文档齐全的接口。虽然实现这些增强功能的方法有很多,但其中一种方法是通过我们最近发布的 模型上下文协议 (Model Context Protocol),它允许开发人员通过简单的客户端实现与不断增长的第三方工具生态系统集成。

在本文的其余部分,我们将假设每个 LLM 调用都可以访问这些增强功能。

工作流:提示词链 (Prompt chaining)

提示词链将一个任务分解为一系列步骤,其中每个 LLM 调用处理前一个调用的输出。你可以在任何中间步骤添加程序化检查(见下图中的“gate”),以确保流程仍在正轨上。

提示词链工作流

何时使用此工作流: 此工作流非常适合任务可以轻松且清晰地分解为固定子任务的情况。主要目标是通过使每个 LLM 调用成为一个更简单的任务,以此牺牲延迟来换取更高的准确性。

提示词链有用的示例:

  • 生成营销文案,然后将其翻译成不同的语言。
  • 编写文档大纲,检查大纲是否符合特定标准,然后根据大纲编写文档。

工作流:路由 (Routing)

路由对输入进行分类,并将其引导至专门的后续任务。这种工作流允许关注点分离,并构建更专门的提示词。如果没有这种工作流,针对一种输入进行优化可能会损害在其他输入上的表现。

路由工作流

何时使用此工作流: 路由适用于复杂的任务,其中存在明显的类别且最好分开处理,并且分类可以由 LLM 或更传统的分类模型/算法准确处理。

路由有用的示例:

  • 将不同类型的客户服务查询(一般问题、退款请求、技术支持)引导至不同的下游流程、提示词和工具。
  • 将简单/常见的问题路由到更小、更具成本效益的模型(如 Claude Haiku 4.5),将困难/不寻常的问题路由到能力更强的模型(如 Claude Sonnet 4.5),以优化最佳性能。

工作流:并行化 (Parallelization)

LLM 有时可以同时处理一项任务,并以程序化方式聚合其输出。这种工作流,即并行化,主要体现为两种关键变体:

  • 分段 (Sectioning):将任务分解为并行运行的独立子任务。
  • 投票 (Voting):多次运行同一任务以获得多样化的输出。

并行化工作流

何时使用此工作流: 当分解的子任务可以为了速度而并行化,或者为了获得更高置信度的结果需要多个视角或尝试时,并行化是有效的。对于具有多重考量的复杂任务,当每个考量都由单独的 LLM 调用处理时,LLM 通常表现更好,这允许对每个特定方面进行专注的关注。

并行化有用的示例:

  • 分段
    • 实施护栏,其中一个模型实例处理用户查询,而另一个模型实例筛选不当内容或请求。这通常比让同一个 LLM 调用同时处理护栏和核心响应表现更好。
    • 自动化评估(Automating evals)用于评估 LLM 性能,其中每个 LLM 调用评估模型在给定提示词下表现的不同方面。
  • 投票
    • 审查一段代码是否存在漏洞,其中几个不同的提示词会审查并在发现问题时标记代码。
    • 评估一段内容是否不当,通过多个提示词评估不同方面或要求不同的投票阈值,以平衡误报和漏报。

工作流:编排器-工作者 (Orchestrator-workers)

在编排器-工作者工作流中,一个中心 LLM 动态地分解任务,将它们委派给工作者 LLM,并综合它们的结果。

编排器-工作者工作流

何时使用此工作流: 此工作流非常适合那些无法预测所需子任务的复杂任务(例如,在编码中,需要更改的文件数量以及每个文件中更改的性质可能取决于任务)。虽然它在拓扑结构上相似,但与并行化的关键区别在于其灵活性——子任务不是预定义的,而是由编排器根据具体输入决定的。

编排器-工作者有用的示例:

  • 每次都需要对多个文件进行复杂更改的编码产品。
  • 涉及从多个来源收集和分析信息以寻找可能相关信息的搜索任务。

工作流:评估器-优化器 (Evaluator-optimizer)

在评估器-优化器工作流中,一个 LLM 调用生成响应,而另一个在一个循环中提供评估和反馈。

评估器-优化器工作流

何时使用此工作流: 当我们有明确的评估标准,并且迭代改进能提供可衡量的价值时,这种工作流特别有效。适合的两个标志是:首先,当人类清晰地表达反馈时,LLM 的响应可以得到明显的改善;其次,LLM 能够提供这种反馈。这类似于人类作家在制作润色文档时可能经历的迭代写作过程。

评估器-优化器有用的示例:

  • 文学翻译,其中存在翻译者 LLM 最初可能无法捕捉到的细微差别,但评估者 LLM 可以提供有用的批评。
  • 复杂的搜索任务,需要多轮搜索和分析来收集全面的信息,其中评估者决定是否需要进一步搜索。

智能体 (Agents)

随着 LLM 在理解复杂输入、进行推理和规划、可靠地使用工具以及从错误中恢复等关键能力方面的成熟,智能体正在生产环境中涌现。智能体的工作始于来自人类用户的命令或交互式讨论。一旦任务明确,智能体就会独立规划和操作,并可能返回给人类以获取更多信息或判断。在执行过程中,智能体在每一步都从环境中获取“基本事实”(ground truth,如工具调用结果或代码执行)以评估其进度,这一点至关重要。智能体随后可以在检查点或遇到阻碍时暂停以获取人类反馈。任务通常在完成后终止,但也常常包括停止条件(如最大迭代次数)以保持控制。

智能体可以处理复杂的任务,但其实验通常很直截了当。它们通常只是基于环境反馈在循环中使用工具的 LLM。因此,清晰且周到地设计工具集及其文档至关重要。我们在附录 2(“对工具进行提示工程设计”)中扩展了工具开发的最佳实践。

自主智能体

何时使用智能体: 智能体可用于那些难以或不可能预测所需步骤数量、且无法硬编码固定路径的开放式问题。LLM 可能会运行多轮,你必须对其决策能力有一定程度的信任。智能体的自主性使其非常适合在受信任的环境中扩展任务。

智能体的自主性质意味着更高的成本,以及错误复合的潜力。我们建议在沙盒环境中进行广泛的测试,并设置适当的护栏。

智能体有用的示例:

以下示例来自我们自己的实现:

编码智能体的高层流程

组合和定制这些模式

这些构建模块不是规定性的。它们是开发人员可以根据不同用例进行塑造和组合的常见模式。与任何 LLM 功能一样,成功的关键是测量性能并迭代实现。重申一下:你应该_仅_在能明显改善结果时才考虑增加复杂性。

总结

在 LLM 领域的成功并不在于构建最复杂的系统。而在于构建_适合_你需求的系统。从简单的提示词开始,通过全面的评估对其进行优化,只有在更简单的解决方案不足以应对时,才添加多步骤的智能体系统。

在实现智能体时,我们尝试遵循三个核心原则:

  1. 在智能体设计中保持简单性
  2. 通过显式展示智能体的规划步骤来优先考虑透明度
  3. 通过彻底的工具文档和测试,精心制作你的智能体-计算机接口 (ACI)。

框架可以帮助你快速上手,但当你转向生产环境时,不要犹豫减少抽象层并使用基本组件进行构建。通过遵循这些原则,你可以创建不仅强大,而且可靠、可维护且受用户信任的智能体。

致谢

由 Erik Schluntz 和 Barry Zhang 撰写。这项工作借鉴了我们在 Anthropic 构建智能体的经验以及客户分享的宝贵见解,对此我们深表感谢。

附录 1:实践中的智能体

我们要与客户的合作揭示了 AI 智能体两个特别有前景的应用,展示了上述模式的实际价值。这两个应用都说明了,对于那些既需要对话又需要行动、有明确的成功标准、启用反馈循环并整合有意义的人类监督的任务,智能体是如何增加最大价值的。

A. 客户支持

客户支持将熟悉的聊天机器人界面与通过工具集成增强的功能相结合。这非常适合更开放式的智能体,因为:

  • 支持交互自然地遵循对话流程,同时需要访问外部信息和操作;
  • 可以集成工具来提取客户数据、订单历史和知识库文章;
  • 诸如发放退款或更新工单等操作可以通过程序处理;以及
  • 成功可以通过用户定义的解决方案来清晰衡量。

几家公司已经通过基于使用量的定价模型证明了这种方法的可行性,该模型仅针对成功的解决方案收费,显示了对其智能体有效性的信心。

B. 编码智能体

软件开发领域展示了 LLM 功能的巨大潜力,能力从代码补全演变为自主解决问题。智能体特别有效,因为:

  • 代码解决方案可以通过自动化测试进行验证;
  • 智能体可以使用测试结果作为反馈来迭代解决方案;
  • 问题空间定义明确且结构化;以及
  • 输出质量可以客观衡量。

在我们自己的实现中,智能体现在可以在 SWE-bench Verified 基准测试中仅根据拉取请求(pull request)描述解决真实的 GitHub issue。然而,尽管自动化测试有助于验证功能,但人类审查对于确解决方案符合更广泛的系统要求仍然至关重要。

附录 2:对工具进行提示工程设计

无论你正在构建哪种智能体系统,工具都可能是你智能体的重要组成部分。工具使 Claude 能够通过在我们的 API 中指定其确切结构和定义来与外部服务和 API 进行交互。当 Claude 响应时,如果它计划调用工具,它将在 API 响应中包含一个工具使用块。工具定义和规范应得到与整体提示词一样多的提示工程关注。在这个简短的附录中,我们将描述如何对工具进行提示工程设计。

通常有几种方法可以指定相同的操作。例如,你可以通过编写 diff(差异比较)或重写整个文件来指定文件编辑。对于结构化输出,你可以返回 markdown 内部的代码或 JSON 内部的代码。在软件工程中,像这样的差异是表面的,可以无损地从一种形式转换为另一种形式。然而,有些格式对 LLM 来说比其他格式更难编写。编写 diff 需要在编写新代码之前知道块头中有多少行发生了变化。编写 JSON 内部的代码(与 markdown 相比)需要对换行符和引号进行额外的转义。

我们对决定工具格式的建议如下:

  • 给模型足够的 token 来“思考”,然后再让它把自己逼入死角。
  • 保持格式接近模型在互联网文本中自然看到的形式。
  • 确保没有格式化的“开销”,例如必须准确计算数千行代码,或对其编写的任何代码进行字符串转义。

一个经验法则是考虑在人机交互 (HCI) 上投入了多少精力,并计划投入同样多的精力来创建良好的_智能体_-计算机接口 (ACI)。以下是关于如何做到这一点的一些想法:

  • 设身处地为模型着想。根据描述和参数,如何使用此工具是否显而易见,还是你需要仔细思考?如果是后者,那么对模型来说可能也是如此。一个好的工具定义通常包括示例用法、边缘情况、输入格式要求以及与其他工具的清晰界限。
  • 如何更改参数名称或描述以使事情更明显?把这想象成给团队中的初级开发人员写一个很棒的文档字符串(docstring)。当使用许多类似的工具时,这尤其重要。
  • 测试模型如何使用你的工具:在我们的 workbench 中运行许多示例输入,查看模型会犯什么错误,并进行迭代。
  • 对你的工具进行防错 (Poka-yoke) 设计。更改参数,使其更难犯错。

在为 SWE-bench 构建我们的智能体时,实际上我们在优化工具上花费的时间比在整体提示词上花费的时间还要多。例如,我们发现当智能体移出根目录后,模型在使用相对文件路径的工具时会出错。为了解决这个问题,我们将工具更改为始终要求绝对文件路径——然后我们发现模型完美地使用了这种方法。