简介
人类在处理杂乱无章的模式识别任务方面非常擅长。然而,他们往往会借助工具,例如书籍、Google 搜索或计算器,来补充已有知识,从而得出最终结论。同样,生成式 AI (Generative AI) 模型也可以通过训练学会使用工具,以获取实时信息或提供实际行动建议。比如,一个模型可以使用数据库检索工具来获取特定信息,例如客户的购买记录,从而生成个性化的购物推荐。又或者,模型可以根据用户的需求调用 API,完成发送邮件回复同事或代表用户进行金融交易等操作。
为了实现这些功能,生成式 AI 模型不仅需要能访问外部工具,还必须具备自我规划和执行任务的能力。这种结合推理能力、逻辑分析与外部信息访问功能的方式,进一步引入了智能体 (Agent) 的概念。智能体是一种可以扩展生成式 AI 模型能力的程序,使其功能超越了单一模型的局限。本白皮书将深入探讨这些概念及其相关内容。
摘要
本文探讨了生成式 AI 代理(Agents)的核心概念、组成结构及其在认知架构中的应用。代理通过结合语言模型(Language Models, LMs)、工具(Tools)和编排层(Orchestration Layer)来扩展语言模型的能力,使其能够执行复杂任务、自主决策并与外部世界交互。代理不仅能通过推理和规划完成目标,还能利用外部工具(如 API、数据存储等)获取实时信息或执行具体操作,从而弥补单一语言模型的局限性。
- 代理的定义与核心组成
- 代理的定义:代理是一个能够观察世界、使用工具并采取行动以实现目标的应用程序,具有自主性和主动性。
- 核心组成:
- 模型(Model):代理的核心决策引擎,通常是语言模型(如 GPT 系列)。支持多模态、通用或经过微调的模型。
- 工具(Tools):弥补模型无法直接与外界交互的缺陷,允许代理访问实时数据和执行操作。
- 编排层(Orchestration Layer):负责信息处理、推理、规划和决策,支持循环执行直到目标达成。
- 代理与模型的区别
- 模型:仅限于训练数据,无法与外界交互,且不具备持续上下文管理能力。
- 代理:通过工具扩展知识范围,支持多轮推理和上下文管理,并内置逻辑层(如 ReAct、Chain-of-Thought)。
- 认知架构与推理框架
- 认知架构:代理通过信息收集、内部推理、执行和调整的循环流程实现目标。
- 推理框架:
- ReAct:结合推理和行动的框架,适用于动态任务。
- Chain-of-Thought (CoT):通过中间步骤实现推理能力,适合多步推理。
- Tree-of-Thoughts (ToT):适用于探索性或战略性任务。
- 工具的作用与类型
- 工具的定义:工具是代理与外界交互的关键,可分为以下三种类型:
- 扩展(Extensions):代理与 API 的桥梁,直接在代理端执行 API 调用。
- 函数(Functions):在客户端执行的代码模块,提供更高的控制灵活性。
- 数据存储(Data Stores):通过向量数据库为代理提供动态、实时的数据支持,适用于结构化和非结构化数据。
- 应用示例
- 扩展的使用:通过示例教学让代理调用 API(如航班预订 API)。
- 函数调用:代理生成函数参数,由客户端执行 API 调用,适用于需要额外数据处理或安全性要求的场景。
- 数据存储的实现:通过向量搜索(如 RAG 方法)实现动态知识扩展,使代理能够访问实时信息。
- 模型性能提升
- 方法:
- 上下文学习(In-context Learning):通过少量示例实时学习任务。
- 基于检索的上下文学习:动态从外部存储中检索相关信息。
- 微调(Fine-tuning):通过特定数据集训练模型以提升任务表现。
- 结合优势:通过组合上述方法,代理可以在速度、成本和准确性之间取得平衡。
- 工具与平台支持
- LangChain 示例:通过 LangChain 和 LangGraph 构建多阶段任务代理,结合工具(如 SerpAPI 和 Google Places API)实现复杂查询。
- Vertex AI 平台:提供全面的托管环境,支持代理的开发、测试、评估和优化,简化生产级应用的构建。
8. 未来展望
- 工具的进化:随着工具和推理能力的增强,代理将能够解决更复杂的问题。
- 代理链(Agent Chaining):通过组合多个专用代理,构建“专家代理”系统,实现跨领域的卓越表现。
生成式 AI 代理通过结合语言模型、工具和认知架构,显著扩展了语言模型的能力。代理的核心优势在于其自主性、动态适应性和与外界的交互能力。通过持续优化工具、推理框架和开发平台,代理将在更多领域创造实际价值。
Ref: 原文下载戳这里