本文围绕 AI agents(人工智能代理) 的定义、发展历程、核心组件、特性及其在现代应用中的价值展开探讨。AI agents 是一种结合人工智能和代理特性,具备环境感知、自主决策、工具使用以及目标导向行为的计算实体。其演化路径从传统基于规则的聊天机器人,到以大语言模型(LLM)为核心的生成式 AI 系统,再到结合检索增强生成(RAG)技术的复杂代理系统。AI agents 的出现标志着现代 AI 应用从简单交互向复杂、多功能系统的转变,并在生产力提升、决策支持和降低技术门槛等方面展现了巨大潜力。

  1. AI agents 的定义与核心特性
  • 定义:AI agents 是一种具备环境感知能力的计算实体,通过感知(输入)、行动(工具使用)和认知(基于 LLM 的推理与规划)实现自主决策和目标导向行为。
  • 核心特性
    • 自主性:无需外部指令即可根据内部处理结果或外部观察采取行动。
    • 交互性:与人类、其他代理或系统交互,能够根据上下文调整行为。
    • 反应性与主动性:能对环境变化做出动态响应,同时通过推理与规划主动执行任务。
    • 迭代性:通过反馈不断优化执行步骤,适应复杂任务。
  1. AI agents 的发展历程
  • 传统聊天机器人
    • 基于规则(如“如果…则…”逻辑)和预定义响应。
    • 功能有限,需人工介入完成复杂任务。
  • LLM 驱动的聊天机器人
    • 引入生成式预训练变换器(GPT)模型,具备生成类人文本的能力。
    • 克服了传统聊天机器人的局限,但存在个性化不足和“幻觉”(生成错误信息)问题。
  • RAG(检索增强生成)聊天机器人
    • 结合外部数据检索与 LLM 的内在知识,生成更准确和上下文相关的响应。
    • 通过提示工程(Prompt Engineering)优化模型输出,如链式思维(CoT)和 ReAct 技术。
  • AI agents 的出现
    • 随 LLM 的参数规模增长,出现推理、多步规划和工具调用等能力。
    • 结合工具使用、环境感知和迭代执行,形成具备高度自主性的复杂代理系统。
  1. AI agents 的核心组件
  • 大脑(Brain)
    • 基于 LLM 提供推理、规划和决策能力。
    • 包括记忆模块(存储历史交互)、角色模块(基于描述模拟特定行为)和知识模块(存储领域相关信息)。
  • 行动(Action)
    • 通过工具使用或功能调用完成任务。
    • 能分解任务为多个步骤,并动态决定工具的使用时机。
  • 感知(Perception)
    • 处理环境输入(如文本、图像或语音),为决策提供信息。
  1. AI agents 的价值与影响
  • 生产力提升:通过自动化重复性任务(如审批、文档处理),减少人工干预。
  • 决策支持:基于规则和指导方针辅助企业工作流中的决策。
  • 降低技术门槛:通过自然语言和图像驱动的界面,使非技术用户更容易与系统交互。
  • 多样化应用场景:从代码生成到内容创作,再到企业流程优化,AI agents 展现了广泛的应用潜力。
  1. 当前行业努力方向
  • 可靠性:解决 LLM 的“幻觉”问题,确保输出准确性。
  • 可扩展性:优化模型性能以应对不断增长的数据和计算需求。
  • 性能提升:通过更强大的工具和工作流编排提高系统效率。
  • MongoDB 的支持
    • 提供长期数据管理(如对话历史存储)、向量数据库功能和可扩展数据存储,为 AI agents 提供基础设施支持。
  1. AI agents 的未来展望
  • 代理性(Agentic):AI 系统的分类基于其代理特性(如自主性、环境交互能力和目标导向行为)的强弱程度。
  • 灵活性与适应性:AI agents 的发展可能模糊简单 AI 系统与复杂代理系统之间的界限。
  1. 行业影响与价值实现
  • 生产力提升:通过自动化简化企业工作流。
  • 用户友好性:降低技术复杂性,赋能普通用户。
  • 企业决策支持:通过规则驱动的 AI 代理简化复杂流程。
  1. MongoDB 的技术支持
  • 长时数据管理:存储和检索对话历史,保持上下文。
  • 向量数据库:支持语义搜索和 AI 工作负载。
  • 可扩展存储:满足不断增长的数据需求。

原文

什么是 AI 智能体 (AI Agent)?

Illustration explaining the concept of AI Agents.

“AI 智能体 (AI Agent)” 这个术语的两个组成部分可以帮助我们更深入地理解其含义。让我们从简单的部分开始,即人工智能 (Artificial Intelligence),也称为 AI。

人工智能 (AI) 指的是非生物形式的智能,它大致基于对人类智能的计算模仿,旨在执行传统上需要人类智力的任务。 向计算系统提供智能的主要方法是通过机器学习和深度学习技术,其中计算机算法(特别是神经网络层)从提供的数据集中学习模式和特征。开发 AI 系统是为了解决检测、分类和预测任务,由于基于 Transformer 的基础模型的有效性,内容生成已成为一个突出的问题领域。在某些情况下,这些 AI 系统可以与人类的表现相媲美,在特定情况下,它们甚至可以超越人类的表现。

第二个组成部分“智能体 (agent)”,是一个在技术和人类背景中都常用的术语,理解这两种观点有助于阐明 AI 智能体 (AI Agent) 的概念。

  1. 在计算机科学和技术中:在基于计算机科学的主题中,“智能体 (agent)”一词指的是一个实体(软件智能体),它通过传感器实现环境意识和感知,并且能够通过行动机制在其环境中行动。在这种背景下,智能体 (agent) 是一个计算系统,它:
    • 具有 自主性 来做出决策和采取行动。
    • 可以与其环境进行交互
    • 可以追求目标或执行任务。
    • 可以学习利用知识来实现其目标。
  2. 在人类背景中:“智能体 (agent)”一词通常指的是代表另一个人、团体或组织行事的人,通常扮演决策、信息收集和共享的代理角色。智能体 (agent) 的角色和职责可能包括:
    • 在被代表方允许的授权下,为他人做出决策或采取行动。
    • 在交易和合同场景中正式代表某人,同样需要主要方的授权。
    • 作为多个当事方之间的中介。

要理解 AI 智能体 (AI Agent),我们必须结合使用“智能体 (agent)”一词的技术和人类背景的特征,同时应用人工智能的指导原则。这种结合使我们能够理解 AI 智能体 (AI Agent) 如何以及为什么特别适合执行通常需要人类智能和行动的任务。

基于 AI 智能体 (AI Agent) 这一术语的基本背景,我们可以形成 AI 智能体 (AI Agent) 的定义。

AI 智能体 (AI Agent) 是一个计算实体,它具有对其环境的感知能力,并配备了通过输入实现感知、通过工具使用实现行动以及通过由长期和短期记忆支持的基础模型实现认知能力的功能。

AI Agent diagram.

从大语言模型 (LLM) 到 AI 智能体 (AI Agent)

好的,你现在是一名 AI 工程师了。

但在你出发并开始构建下一个价值十亿美元的 AI 产品之前,让我们先退后几步,了解我们最初是如何接触到 AI 智能体 (AI Agent) 的。我们将着眼于在短时间内我们在大语言模型 (LLM) 应用程序方面看到的变化。

LLM 应用程序的形式因素的演变是我们在现代应用程序中看到的最快发展之一。

The evolution of the form factor of LLM applications.

从传统聊天机器人到 LLM 驱动的聊天机器人

聊天机器人并不新鲜;你可能在生成式 AI (gen AI) 出现之前就与网站上的聊天机器人进行过互动。在 gen AI 时代之前的传统聊天机器人与今天的 AI 驱动的对话智能体有着根本的不同。以下是它们通常的运作方式:

  • 基于启发式的响应:“如果这样,那么就那样”的逻辑,或者更正式地说是基于规则的逻辑,是传统聊天机器人操作模型的基础。它们被编程了一组预定义的规则和决策树,以确定如何响应用户输入。
  • 预设的响应:传统聊天机器人的背后是一组预先编写好的响应,这些响应会根据检测到的某些关键字或短语显示给用户。这在一定程度上是有效的。
  • 人工移交:传统聊天机器人中总会有一个“与人工对话”的按钮,而且老实说,这种情况并没有发生太大变化。“人在回路中”对于代理系统来说仍然是一种非常必要的机制。

LLM-powered chatbot example.

LLM 驱动的聊天机器人是首次将 LLM 应用程序引入主流。2022 年 11 月 30 日,OpenAI 发布了 ChatGPT,这是一个 Web 界面,它提供了传统聊天机器人简单但熟悉的界面(输入和输出可视化区域),但在这个 Web 界面背后是 GPT-3.5,一个由 OpenAI 创建并经过大量互联网语料库训练的 LLM。

GPT (Generative Pre-trained Transformer,生成式预训练 Transformer) 基于 Transformer 架构,该架构由 Google 于 2017 年推出。该架构使用自注意力机制来处理输入序列,使模型能够考虑每个词相对于输入中所有其他词的上下文。

与传统的聊天机器人不同,诸如 GPT-3.5 之类的 LLM 可以根据提供的输入生成类似人类的文本。GPT-3.5 和其他基于 Transformer 的 LLM 的一个关键区别因素是,内容生成机制不仅仅基于对训练数据集的模式识别和特征提取,而且这些基础模型可以在提示时创建看似新颖且上下文相关的内容。

像 ChatGPT 这样由 GPT 驱动的聊天机器人的推出为企业和商业用例开辟了一个新的可能性世界。值得注意的用例包括代码生成、内容创建、改进的客户服务等。LLM 驱动的聊天机器人的功能标志着从传统的基于规则的聊天机器人到更灵活、智能和有能力的 AI 助手的重大转变。

尽管 LLM 驱动的聊天机器人具有先进的功能,但仍然面临着某些限制。一个重要的挑战是个性化。这些系统难以在较长时间的对话或多个会话中保持一致的、个性化的互动。更令人担忧的是,LLM 有能力合成类似人类且连贯但不准确的响应。这种现象引起了人们的关注,主要是因为这些系统开始以高度的自信提供不正确的信息,这种现象现在被称为“幻觉 (hallucination)”。

重要的是要理解,当 LLM “产生幻觉 (hallucination)” 时,它并不是在发生故障,而是在做它被训练要做的事情:基于一组由输入 Token 和训练数据告知的概率来生成下一个输出 Token。这个过程有时会导致听起来合理但事实上不正确的输出。

解决这些限制已成为开发更高级 AI 系统的重点,从而促使人们探索可以“扎根 (ground)” LLM 输出的技术。一种突出的技术是检索增强生成 (Retrieval-Augmented Generation, RAG)

从 LLM 驱动的聊天机器人到 RAG 聊天机器人

RAG 是一种利用信息检索方法来定位和提供相关数据的技术,然后将这些数据与用户提示结合起来,作为 LLM 的输入。 此过程确保 LLM 生成的输出基于以下两点:

  1. 非参数知识:响应特定查询或上下文从外部数据源检索的信息;这通常是从互联网或专有数据中获取的实时数据。
  2. 参数知识:嵌入在 LLM 训练期间其参数中的固有知识。

通过利用这两种信息来源,RAG 旨在生成更准确、最新且上下文相关的响应。这种方法通过将模型的响应建立在可检索、可验证的数据的基础上,减轻了纯粹基于 LLM 的系统的一些限制,例如幻觉 (hallucination) 或过时的信息。

LLM-powered chatbots to RAG chatbots example.

为了改进 LLM 的输出,人们做出了多方面的努力,其中之一是提示工程。提示工程是指编写输入查询到 LLM,引导输出朝着所需的特征方向发展的实践,例如提高准确性、相关性和特异性。此技术涉及仔细设计给 LLM 的初始提示,以确保输出更精确、上下文更合适且特定于任务的响应。

已经出现了一些提示工程技术,例如上下文学习、思维链 (Chain of Thought, CoT) 和 ReAct (Reason and Act,推理和行动)。

上下文学习:利用 LLM 的泛化能力,上下文学习涉及提供输入-输出对,以演示要解决的任务和所需的输出。此技术可以通过两种主要方式实现:

  1. 单样本学习:提供单个输入-输出对作为示例
  2. 少样本学习:提供多个输入-输出对作为示例

该过程通常以没有相应输出的输入结束。基于提供的示例,LLM 会生成一个输出,该输出受提示中给出的输入-输出对的调节和指导。

这种方法允许 LLM 适应特定的任务或风格,而无需微调模型的参数。相反,它依赖于模型识别模式并将其应用于同一上下文中新的、类似情况的能力。

虽然上下文学习提示技术使 LLM 能够泛化到新任务,但随后的发展(如思维链 (CoT) 和 ReAct 提示)利用了 LLM 新出现的推理和规划能力。CoT 使 LLM 能够通过逐步推理过程将复杂的任务分解为较小的、更简单的子部分。ReAct 将 LLM 的推理能力与行动计划相结合。

从 RAG 聊天机器人到 AI 智能体 (AI Agent)

随着 LLM 扩展到数千亿个参数,它们表现出越来越复杂的涌现能力。这些能力包括高级推理、多步规划以及工具使用或函数调用。

工具使用,有时称为“函数调用”,指的是 LLM 生成结构化输出或模式的能力,该模式指定从预定义集中选择一个或多个函数,并为这些函数分配适当的参数值。LLM 中的工具使用能力取决于描述目标或任务的输入提示以及提供给 LLM 的一套函数定义,通常采用 JSON 格式。

LLM 分析输入和函数定义,以确定要调用哪个或哪些函数以及如何填充其参数。然后,外部系统可以使用此结构化输出执行实际的函数调用。

什么是工具?

一般来说,任何可以以编程方式定义和调用的东西都可以定义为工具,并向 LLM 提供随附的 JSON 定义。因此,RAG 功能可以是一种工具,对外部系统的 API 调用也可以是工具。

能够访问工具和函数调用功能的 LLM 有时被称为“工具增强的 LLM”,但值得注意的是,高级推理、多步规划和工具使用能力的结合促进了 AI 智能体 (AI Agent) 的出现。 最后一块拼图是 AI 智能体 (AI Agent) 所处的环境。AI 智能体 (AI Agent) 在迭代执行环境中运行,该环境支持目标驱动的系统,该系统可以迭代先前执行的输出,从而为当前执行提供信息,这可能与基于对话的系统界面不同。

LLMs with the combination of advanced reasoning, multi-step planning, and tool-use capabilities facilitated the emergence of AI agents.

与基于 LLM 的聊天机器人相比,代理系统或复合 AI 系统目前正在成为现代 AI 应用程序的实施范例,这些应用程序很复杂,并且与系统组件的集成是多方面的。代理系统可以定义为计算架构,它包含一个或多个具有自主决策能力的 AI 智能体 (AI Agent),能够访问和利用各种系统组件和资源来实现既定目标,同时适应环境反馈。有关理解代理系统的更多资源将在不久的将来提供。

另一个需要注意的关键术语是“代理 RAG”,它指的是一种范例,该范例利用 LLM 的路由、工具使用、推理和规划能力,以及基于比较查询和存储数据语义的信息检索。此系统范例支持开发动态的 LLM 应用程序,这些应用程序可以访问各种工具来执行查询、分解任务和解决复杂问题。

要真正理解 AI 智能体 (AI Agent),重要的是要考虑它们的组成部分、特征和能力。

AI 智能体 (AI Agent) 的关键组成部分和特征

The key components and characteristics of an AI agent diagram.

AI 智能体 (AI Agent) 的组成部分是构成其架构并使其具有功能性的关键部分。这些组成部分协同工作以处理信息、做出决策并与环境交互。主要组成部分包括大脑、行动和感知模块,每个模块在智能体 (AI Agent) 的运行中都发挥着至关重要的作用。

智能体 (AI Agent) 是一个由多个集成组件组成的计算实体,包括大脑、感知和行动组件。这些组件协同工作,使智能体 (AI Agent) 能够实现其既定的目标。

大脑:智能体 (AI Agent) 架构的这个组件负责智能体 (AI Agent) 的认知能力,包括其推理、规划和决策能力。智能体 (AI Agent) 的大脑本质上是 LLM。LLM 的涌现能力为智能体 (AI Agent) 提供了推理、理解、规划等能力。同时,与人类类似,大脑组件封装了不同的模块,例如记忆、分析器和知识。

记忆模块存储智能体 (AI Agent) 与其他外部实体或系统的交互。可以调用此存储的信息,以为将来的执行步骤提供信息,并根据历史交互采取相应的行动。分析器模块使智能体 (AI Agent) 能够根据旨在将智能体 (AI Agent) 调整为一组行为的角色特征描述来承担某些角色。

智能体 (AI Agent) 的大脑组件中的知识模块支持存储和检索特定领域、相关且有用的信息,以便在规划和采取行动以实现目标时使用。

行动:智能体 (AI Agent) 对环境和新信息做出反应的能力由行动组件促进,该组件包括使智能体 (AI Agent) 能够生成响应和调用其他系统的模块。基于 LLM 的智能体 (AI Agent) 能够使用大脑组件内的流程将任务分解为多个步骤。每个步骤都可以与智能体 (AI Agent) 工具库中的工具相关联。借助 LLM 的推理和规划能力,智能体 (AI Agent) 可以有效地决定何时在每个步骤中使用工具。

感知:此组件专门负责捕获和处理来自智能体 (AI Agent) 环境的输入。在代理系统和交互的范围内,输入有多种形式,但提供给智能体 (AI Agent) 的主要输入是听觉、文本和视觉。

AI 智能体 (AI Agent) 的特征是定义其能力和运行模式的独特功能和行为。这些特征决定了 AI 智能体 (AI Agent) 如何与其环境交互、处理信息并实现其目标。主要特征包括自主性、主动性、反应性和交互性。

以下是智能体 (AI Agent) 主要特征的摘要:

  • AI 智能体 (AI Agent) 是反思和主动的:AI 智能体 (AI Agent) 利用先进的推理模式来解决复杂的问题。它们采用诸如 ReAct 和思维链 (CoT) 之类的技术来分解任务、计划行动和反思结果。利用 LLM 的推理和规划的涌现特性,这些智能体 (AI Agent) 根据反馈、先前的执行输出和环境输入不断调整其策略。这种规划、执行和反思的迭代过程使 AI 智能体 (AI Agent) 能够有效地执行输入目标。
  • AI 智能体 (AI Agent) 是交互式的:在某些情况下,可能需要 AI 智能体 (AI Agent) 与同一系统内的其他智能体 (AI Agent) 或外部系统进行交互,并且通常,它们需要与人类进行互动,以获取反馈或审查执行步骤的输出。AI 智能体 (AI Agent) 还可以理解其他智能体 (AI Agent) 和人类的输出的上下文,并改变其行动过程和后续步骤。AI 智能体 (AI Agent) 的交互性扩展到承担角色或角色,以根据所采用的角色驱动和调节 AI 智能体 (AI Agent) 的行动以实现可预测性。在多智能体环境中,这使得能够根据角色定义来模仿社会角色和协作。
  • AI 智能体 (AI Agent) 是自主和反应式的:它们的自主特性使它们能够根据内部处理结果和外部观察执行操作,通常不需要明确的外部命令。工具使用和输入处理是实现这种反应性的两个关键能力。这些功能使 AI 智能体 (AI Agent) 能够动态响应其环境或任务条件的变化,从而相应地调整其行为和操作。

结论

在我们的探索中,我们对 AI 智能体 (AI Agent) 及其特征有了了解,甚至提供了一个可行的定义。但是,需要注意的是一个重要的警告:在当今快速发展的 AI 领域,目前对于 AI 智能体 (AI Agent) 的确切构成没有统一的行业标准。

相反,业界普遍认为将系统归类为 AI 智能体 (AI Agent) 取决于频谱或连续体。这种细致的观点承认 AI 系统可以表现出不同程度的代理性 (agentic)、自主性和能力。

这就是“代理的 (agentic)”一词进入讨论的地方。“代理的 (agentic)”指的是 AI 系统表现出类似智能体 (AI Agent) 的特性的程度。这些特性可能包括:

  1. 决策中的自主程度。
  2. 与环境交互和操纵环境的能力。
  3. 以目标为导向的行为能力。
  4. 对新情况的适应性。
  5. 主动行为的程度。

这种基于连续体的理解允许采用更灵活和包容的方法来对 AI 系统进行分类。它承认,随着 AI 技术的进步,“简单”AI 系统和完全成熟的 AI 智能体 (AI Agent) 之间的界限可能会变得越来越模糊。

LLM 应用程序的新形式因素的价值和影响在哪里实现?

在软件和应用程序开发方面,我们倾向于关注价值和影响,以及在 AI 智能体 (AI Agent) 和代理系统的早期探索和实验工作中获得的投资回报。首先,我们看到价值主要体现在通过自动化手动流程提高生产力方面。手动审批、文档和审查嵌入在企业组织的大多数工作流程中。代理系统在自动化(或者换句话说,“代理化 (agentify) ”)现有工作流程中重复的方面显示出早期的潜力。

代理系统的另一个价值是减轻企业工作流程中的决策负担。当 AI 智能体 (AI Agent) 嵌入到代理系统和复合 AI 系统中时,可以使用指导其决策能力的规则和指南来提示它们。但是,更大的价值和影响可以体现在将日常个人更紧密地与系统联系起来,而无需获得技术知识,这是因为代理系统允许以文本和图像驱动的界面成为调用和执行系统功能的主要驱动力。基础模型输入的通用性使代理系统能够通过自然语言进行指导,从而降低了系统交互的技术复杂性。

AI 堆栈中的参与者目前将精力放在哪里?

AI 智能体 (AI Agent) 的可靠性、可扩展性和性能是 AI 行业主要参与者试图提供解决方案的重点领域。解决这些重点领域的方法包括增加基础模型中的参数,以增强 AI 智能体 (AI Agent) 的推理能力,或者开发工具来编排 AI 智能体 (AI Agent) 所在的系统中的工作流程。

MongoDB 站在数据解决方案的最前沿,提供一套全面的数据库功能和平台功能,专门用于支持企业级和尖端代理系统的开发。为了向开发人员提供解决代理系统可靠性、可扩展性和性能的功能,MongoDB 是 AI 智能体 (AI Agent) 和代理系统的内存提供商。MongoDB 在代理系统中在关键领域表现出色,包括:

  1. 长期数据管理:MongoDB 提供强大的存储和高效的会话历史检索,使 AI 智能体 (AI Agent) 能够维护上下文并从过去的交互中学习,这通过 Atlas Search 实现。
  2. 向量数据库功能:利用MongoDB Atlas Vector Search,该平台提供最先进的向量嵌入数据存储和检索,这对于 AI 工作负载和语义搜索功能至关重要。
  3. 可扩展的数据存储MongoDB 的架构可确保为 AI 智能体 (AI Agent) 的操作数据提供高性能、可扩展的存储,从而无缝适应不断增长的数据量和计算需求。

查看我们的技术资源并开始使用 MongoDB 实现你的 AI 智能体 (AI Agent)。