在过去的一年里,我们与数十个团队合作,构建了跨行业的大语言模型 (LLM) 智能体。始终如一地,最成功的实施并没有使用复杂的框架或专门的库。相反,他们是用简单的、可组合的模式构建的。

在这篇文章中,我们分享了我们从与客户合作和自己构建智能体中学到的经验,并为开发人员提供了关于构建有效智能体的实用建议。

什么是智能体?

“智能体” 可以通过几种方式定义。一些客户将智能体定义为在较长时间内独立运行的完全自主的系统,使用各种工具来完成复杂的任务。其他人使用该术语来描述遵循预定义工作流程的更具规范性的实现。在 Anthropic,我们将所有这些变体归类为智能体系统,但在工作流程智能体之间进行了重要的架构区分:

  • 工作流程是通过预定义的代码路径协调大语言模型和工具的系统。
  • 另一方面,智能体是大型语言模型动态地指导其自身流程和工具使用的系统,保持对其如何完成任务的控制。

下面,我们将详细探讨这两种类型的智能体系统。在附录 1 (“实践中的智能体”) 中,我们描述了客户发现使用这些类型的系统具有特殊价值的两个领域。

何时 (以及何时不) 使用智能体

当使用大语言模型构建应用程序时,我们建议找到尽可能简单的解决方案,并且仅在需要时增加复杂性。这可能意味着根本不构建智能体系统。智能体系统通常以延迟和成本换取更好的任务性能,您应该考虑何时这种权衡是有意义的。

当需要更高的复杂性时,工作流程为定义明确的任务提供可预测性和一致性,而当需要大规模的灵活性和模型驱动的决策时,智能体是更好的选择。然而,对于许多应用程序来说,通过检索和上下文示例优化单个大语言模型调用通常就足够了。

何时以及如何使用框架

有许多框架可以使智能体系统更容易实现,包括:

这些框架通过简化标准的底层任务 (如调用大语言模型、定义和解析工具以及将调用链接在一起) 使入门变得容易。但是,它们通常会创建额外的抽象层,这可能会掩盖底层的提示和响应,从而使调试变得更加困难。当更简单的设置就足够时,它们也可能使添加复杂性变得很有诱惑力。

我们建议开发人员从直接使用大语言模型 API 开始:许多模式可以用几行代码实现。如果您确实使用了框架,请确保您了解底层的代码。对底层原理的错误假设是客户错误的常见来源。

请参阅我们的 cookbook 以获取一些示例实现。

构建模块、工作流程和智能体

在本节中,我们将探讨我们在生产中看到的智能体系统的常见模式。我们将从我们的基础构建模块——增强型大语言模型——开始,并逐步增加复杂性,从简单的组合工作流程到自主智能体。

构建模块:增强型大语言模型

智能体系统的基本构建模块是通过检索、工具和记忆等增强功能增强的大语言模型。我们目前的模型可以积极地使用这些功能——生成他们自己的搜索查询,选择合适的工具,并确定要保留哪些信息。

我们建议关注实现的两个关键方面:根据您的特定用例定制这些功能,并确保它们为您的 LLM 提供简单、完善的文档界面。虽然有很多方法可以实现这些增强功能,但一种方法是通过我们最近发布的 模型上下文协议 (Model Context Protocol),该协议允许开发人员通过简单的 客户端实现 与不断增长的第三方工具生态系统集成。

在本帖的剩余部分,我们将假设每个大语言模型调用都可以访问这些增强的功能。

工作流程:提示链

提示链将任务分解为一系列步骤,其中每个大语言模型调用处理前一个调用的输出。您可以在任何中间步骤中添加程序化检查 (请参阅下图中的“gate”) 以确保过程仍在轨道上。

何时使用此工作流程: 此工作流程非常适合可以轻松干净地分解为固定子任务的情况。主要目标是通过使每个大语言模型调用成为更简单的任务来权衡延迟以获得更高的准确性。

提示链有用的示例:

  • 生成营销文案,然后将其翻译成不同的语言。
  • 编写文档大纲,检查大纲是否符合某些标准,然后根据大纲编写文档。

工作流程:路由

路由对输入进行分类并将其定向到专门的后续任务。此工作流程允许关注点分离,并构建更专业的提示。如果没有此工作流程,针对一种输入进行优化可能会损害其他输入的性能。

何时使用此工作流程: 路由适用于以下复杂任务:存在最好单独处理的不同类别,并且可以通过大语言模型或更传统的分类模型/算法准确处理分类。

路由有用的示例:

  • 将不同类型的客户服务查询 (一般问题、退款请求、技术支持) 定向到不同的下游流程、提示和工具。
  • 将简单/常见的问题路由到较小的模型 (如 Claude 3.5 Haiku),将困难/不常见的问题路由到功能更强大的模型 (如 Claude 3.5 Sonnet),以优化成本和速度。

工作流程:并行化

大语言模型有时可以同时处理一项任务,并以编程方式聚合其输出。这种工作流程 (并行化) 体现在两个主要变体中:

  • 分段:将任务分解为并行运行的独立子任务。
  • 投票:多次运行同一任务以获得不同的输出。

何时使用此工作流程: 当可以并行化划分的子任务以提高速度,或者当需要多个视角或尝试以获得更高置信度的结果时,并行化是有效的。对于具有多个考虑因素的复杂任务,当每个考虑因素都由单独的大语言模型调用处理时,大语言模型通常表现更好,从而可以将注意力集中在每个特定方面。

并行化有用的示例:

  • 分段
    • 实施护栏,其中一个模型实例处理用户查询,而另一个模型实例筛选它们以查找不适当的内容或请求。这往往比让同一个大语言模型调用处理护栏和核心响应的效果更好。
    • 自动化评估以评估大语言模型性能,其中每个大语言模型调用评估模型在给定提示下的不同方面的性能。
  • 投票
    • 审查一段代码是否存在漏洞,其中几个不同的提示审查代码并在发现问题时标记代码。
    • 评估给定内容是否不适当,多个提示评估不同的方面或需要不同的投票阈值以平衡假阳性和假阴性。

工作流程:协调者-工作者

在协调者-工作者工作流程中,中央大语言模型动态地分解任务,将其委托给工作者大语言模型,并综合它们的结果。

何时使用此工作流程: 此工作流程非常适合您无法预测所需子任务的复杂任务 (例如,在编码中,需要更改的文件数量以及每个文件中更改的性质可能取决于任务)。虽然在结构上类似,但与并行化的主要区别在于其灵活性——子任务不是预先定义的,而是由协调者根据特定输入确定的。

协调者-工作者有用的示例:

  • 每次都对多个文件进行复杂更改的编码产品。
  • 涉及从多个来源收集和分析信息以获取可能的相关信息的搜索任务。

工作流程:评估者-优化器

在评估者-优化器工作流程中,一个大语言模型调用生成响应,而另一个大语言模型调用在循环中提供评估和反馈。

何时使用此工作流程: 当我们有明确的评估标准,并且迭代改进提供可衡量的价值时,此工作流程特别有效。良好契合的两个迹象是,首先,当人为表达他们的反馈时,大语言模型的响应可以得到明显的改进;其次,大语言模型可以提供这样的反馈。这类似于人类作家在撰写润色过的文档时可能经历的迭代写作过程。

评估者-优化器有用的示例:

  • 文学翻译,其中翻译器大语言模型最初可能无法捕捉到细微差别,但评估器大语言模型可以提供有用的评论。
  • 需要多轮搜索和分析以收集全面信息的复杂搜索任务,其中评估者决定是否需要进一步搜索。

智能体

随着大语言模型在关键能力方面的成熟——理解复杂输入、参与推理和规划、可靠地使用工具以及从错误中恢复,智能体正在实际应用中涌现。智能体的工作通常始于接收用户的指令或与用户进行交互式讨论。一旦任务明确,智能体便会独立进行规划和操作,并可能在需要时向用户请求更多信息或确认。在执行过程中,智能体需要从环境中获取每一步的“真实信息” (例如工具调用结果或代码执行情况),以此来评估进展。随后,智能体可以在检查点或遇到阻碍时暂停,等待用户的反馈。任务通常在完成时结束,但为了保持控制,也常会设置停止条件 (例如最大迭代次数)。

智能体可以处理复杂的任务,但其实现过程通常很直接。它们本质上是在循环中基于环境反馈来使用工具的大语言模型。因此,清晰且周到地设计工具集及其文档至关重要。关于工具开发的最佳实践,我们将在附录 2 (“提示工程你的工具”) 中进行更详细的阐述。

何时使用智能体: 智能体适用于那些难以或不可能预测所需步骤数量的开放性问题,以及无法硬编码固定执行路径的场景。大语言模型可能会进行多轮交互,因此您必须对其决策能力有一定的信任。智能体的自主性使其成为在可信环境中扩展任务的理想选择。

智能体的自主性也意味着更高的成本以及累积错误的潜在风险。我们建议在沙箱环境中进行充分的测试,并采取适当的保护措施。

智能体有用的示例:

以下是我们自己的一些实践案例:

组合和自定义这些模式

这些构建模块并非是硬性规定,而是开发人员可以根据不同的应用场景进行调整和组合的常见模式。与所有大语言模型的功能一样,成功的关键在于衡量性能并不断迭代优化。再次强调,您应该在能够显著改善结果时才考虑增加系统的复杂性。

总结

在大语言模型领域取得成功的关键不是构建最复杂的系统,而是根据您的需求构建最合适的系统。从简单的提示开始,通过全面的评估来优化它们,并且仅在更简单的解决方案无法满足需求时,才考虑引入多步骤的智能体系统。

在部署智能体时,我们力求遵循以下三个核心原则:

  1. 保持智能体设计的简洁性
  2. 通过清晰展示智能体的规划步骤,优先保证透明度
  3. 通过完善的工具文档和测试,精心设计智能体与计算机之间的接口 (ACI)。

框架可以帮助您快速入门,但在进入实际生产阶段时,请随时减少抽象层,并使用基本组件进行构建。遵循这些原则,您将能够创建出不仅功能强大,而且可靠、易于维护并深受用户信赖的智能体。

致谢

由 Erik Schluntz 和 Barry Zhang 撰写。这项工作借鉴了我们在 Anthropic 构建智能体的实践经验,以及我们客户分享的宝贵见解,对此我们深表感谢。

附录 1:实践中的智能体

我们与客户的合作揭示了人工智能 (AI) 智能体的两个特别有前景的应用方向,它们充分展示了上文讨论的各种模式的实际应用价值。这两个应用都表明,对于那些既需要对话交流,又需要实际操作,并有明确的成功标准、能够形成有效反馈闭环,以及可以融入有意义的人工监督的任务而言,智能体能够发挥最大的价值。

A. 客户支持

客户支持将我们熟悉的聊天机器人界面与通过集成各种工具而增强的功能相结合。这与更开放式的智能体非常契合,原因如下:

  • 支持互动自然地遵循对话流程,同时需要访问外部信息和执行操作;
  • 可以集成各种工具,用于检索客户数据、订单历史和知识库文章;
  • 诸如发放退款或更新服务单等操作可以通过编程方式处理;
  • 可以通过用户定义的解决方案来清晰地衡量成功与否。

一些公司已经通过基于使用量的定价模型 (仅对成功解决的案例收费) 证明了这种方法的可行性,这充分体现了他们对自身智能体有效性的信心。

B. 编码智能体

软件开发领域已经展现出大语言模型功能的巨大潜力,其能力已从代码补全发展到自主解决问题。智能体在这方面尤其有效,因为:

  • 代码解决方案可以通过自动化测试进行验证;
  • 智能体可以利用测试结果作为反馈来迭代优化解决方案;
  • 问题空间是定义明确且结构化的;
  • 可以客观地衡量输出质量。

在我们自己的实现中,智能体现在可以仅基于拉取请求描述来解决 SWE-bench Verified 基准测试中的真实 GitHub 问题。然而,尽管自动化测试有助于验证功能,但人工审查对于确保解决方案符合更广泛的系统要求仍然至关重要。

附录 2:提示工程你的工具

无论您构建何种智能体系统,工具都将是智能体的重要组成部分。工具使 Claude 能够通过在我们的应用程序接口 (API) 中精确指定其结构和定义来与外部服务和 API 进行交互。当 Claude 给出响应时,如果它计划调用某个工具,那么其 API 响应中会包含一个 工具使用块。对于工具的定义和规范,应该像对待整体提示一样给予足够的提示工程关注。在这个简短的附录中,我们将介绍如何进行工具的提示工程。

通常有多种方法来指定相同的操作。例如,您可以通过编写差异 (diff) 或重写整个文件来指定对文件进行编辑。对于结构化输出,您可以将代码返回到 Markdown 格式或 JSON 格式中。在软件工程中,诸如此类的差异通常只是形式上的,可以彼此之间进行无损转换。然而,某些格式对于大语言模型来说,编写起来会比其他格式困难得多。编写 diff 需要在编写新代码之前知道块头中有多少行发生了更改。与 Markdown 相比,在 JSON 中编写代码需要对换行符和引号进行额外的转义。

以下是我们关于如何决定工具格式的建议:

  • 在模型因为输出格式把自己限制住之前,为其提供足够的 Token (Token) 以进行“思考”。
  • 保持格式与模型在互联网文本中自然遇到的格式相近。
  • 确保没有格式上的“额外负担”,例如需要精确计算数千行代码,或者对编写的任何代码进行字符串转义。

一个经验法则是,想想人机交互 (HCI) 需要投入多少精力,然后计划投入同样的精力来创建优秀的智能体-计算机交互 (ACI)。以下是一些关于如何实现这一点的思考:

  • 站在模型的角度思考。基于工具的描述和参数,使用这个工具是否显而易见?或者您是否需要仔细思考才能明白如何使用?如果是后者,那么模型很可能也是如此。一个优秀的工具定义通常包括示例用法、边缘情况、输入格式要求以及与其他工具的明确界限。
  • 如何修改参数名称或描述,使其更加清晰易懂?可以将其视为为团队中的初级开发人员编写优秀的文档字符串。当使用许多类似的工具时,这一点尤为重要。
  • 测试模型如何使用您的工具:在我们的 workbench 中运行大量的示例输入,观察模型会犯哪些错误,并据此进行迭代改进。
  • 运用 防错法 (Poka-yoke) 来设计您的工具。修改参数,使其更难出错。

在为 SWE-bench 构建我们的智能体时,我们实际上花费了比优化整体提示更多的时间来优化我们的工具。例如,我们发现,当智能体移出根目录后,模型在使用相对文件路径的工具时会出错。为了解决这个问题,我们将工具更改为始终要求使用绝对文件路径——结果发现模型在使用这种方法时表现得非常完美。