Agents

2025年12月15日· Martin Alderson 过去十五年，我们目睹了软件吞噬世界。整个行业被软件吞没——零售、媒体、金融——只要你说得出来的，在过去几十年里都经历了 SaaS 工具激增带来的惊人颠覆。这催生了大量 SaaS 公司——总估值达数万亿美元。在我上一篇关于软件成本是否因 AI 编程智能体而下降 90% 的文章中，我主要关注了市场的供应端。如果这个假设成立，SaaS 工具的需求端会发生什么？我一直在思考软件工程变革带来的这些二阶和三阶效应。 “自建还是购买”（build vs buy）的权衡考量开始发生变化。软件吞噬了世界。智能体将要吞噬 SaaS。我看到的信号最明显的起点就是需求开始蒸发——尤其是对于“更简单”的 SaaS 工具。我相信许多软件工程师已经开始意识到这一点——很多我以前会考虑寻找免费增值或付费服务来做的事情，现在我经常可以让智能体在几分钟内完全按照我想要的方式解决。有趣的是，我甚至没有注意到这种转变。它就这样发生了。如果我想要一个内部仪表板，我甚至不会觉得 Retool 或类似工具会让它更容易。我直接构建仪表板。如果我需要在媒体摄取过程中重新编码视频，我只需让 Claude Code 编写一个围绕 ffmpeg 的健壮封装器——而不必承担将原始文件发送到单独服务的成本（和速度损耗），也不必担心触及层级限制或试图在脑海中适应另一个 API 的心智模型。对于不那么纯粹的软件开发任务，这一点更为明显。例如，我已经让 Gemini 3 在几分钟内生成了非常高质量的 UI/UX 原型图和线框图——不需要使用单独的服务或寻找起始模板。同样，当我想做演示文稿时，我不需要使用平台来美化幻灯片——我只需让 Claude Code 将我的 markdown 导出为设计精美的 PDF。我开始看到的另一个可能影响更大的转变是，人们真的开始质疑大型“企业级” SaaS 公司的续约报价。虽然这还处于非常早期的阶段，但我相信这是一个非常重要的新兴行为。我现在已经看到几个例子：SaaS 供应商 X 发来了他们惯常的年度两位数百分比的涨价通知，而现在团队开始问：“我们真的需要支付这笔钱吗，还是我们可以自己构建所需的功能？”一年前，这充其量是一个很快会被否定掉的假设性问题。现在，这是一个人们正在投入真正精力去思考的现实选项。最后，大多数 SaaS 产品包含许多客户并不需要或不使用的功能。SaaS 产品工程的许多复杂性在于管理这一点——当你只有一个客户（你的组织）时，这种复杂性一夜之间就消失了。同样，当客户就是开发者本人时，这个客户拥有路线图的完全控制权。不用再指望 SaaS 供应商将你的请求优先于其他客户。维护方面的异议对此的主要异议是“谁来维护这些应用程序？”。这是一个真实且正确的异议。软件有 bug 需要修复，有扩展问题需要解决，有安全漏洞需要修补，这一点没有改变。我认为首先需要指出的是，很多 SaaS 维护得很差（根据我的经验，往往越贵质量越差）。通常，安全风险来自于需要连接和交互内部数据的外部第三方本身。如果你能将所有这些都移到现有的 VPN 或访问解决方案之后，你会突然大幅减少组织的攻击面。最重要的是，智能体本身极大地降低了维护成本。我遇到过一些最痛苦的维护任务——从弃用的库更新到另一个支持更好的库——通过智能体变得容易多了，特别是在静态类型的编程生态系统中。此外，公司构建内部工具最大的顾虑是只有一个人了解所有内容——如果他们离开，所有的内部知识也就随之而去。智能体不会离职。而且通过一个考虑周全的 AGENTS.md 文件，它们可以向未来的任何人解释代码库。最后，SaaS 同样伴随着维护问题。我这个月从一位朋友那里看到的一个最近的爆发点是，一家 SaaS 公司决定弃用他们现有的 API 端点并转移到另一套 API，而新 API 并没有提供所有相同的方法。由于这是一个核心系统，这是一个巨大的问题，需要大量的资源来更新、测试和推出受影响的集成。...

简介人类在处理杂乱无章的模式识别任务方面非常擅长。然而，他们往往会借助工具，例如书籍、Google 搜索或计算器，来补充已有知识，从而得出最终结论。同样，生成式 AI (Generative AI) 模型也可以通过训练学会使用工具，以获取实时信息或提供实际行动建议。比如，一个模型可以使用数据库检索工具来获取特定信息，例如客户的购买记录，从而生成个性化的购物推荐。又或者，模型可以根据用户的需求调用 API，完成发送邮件回复同事或代表用户进行金融交易等操作。为了实现这些功能，生成式 AI 模型不仅需要能访问外部工具，还必须具备自我规划和执行任务的能力。这种结合推理能力、逻辑分析与外部信息访问功能的方式，进一步引入了智能体 (Agent) 的概念。智能体是一种可以扩展生成式 AI 模型能力的程序，使其功能超越了单一模型的局限。本白皮书将深入探讨这些概念及其相关内容。摘要本文探讨了生成式 AI 代理（Agents）的核心概念、组成结构及其在认知架构中的应用。代理通过结合语言模型（Language Models, LMs）、工具（Tools）和编排层（Orchestration Layer）来扩展语言模型的能力，使其能够执行复杂任务、自主决策并与外部世界交互。代理不仅能通过推理和规划完成目标，还能利用外部工具（如 API、数据存储等）获取实时信息或执行具体操作，从而弥补单一语言模型的局限性。代理的定义与核心组成代理的定义：代理是一个能够观察世界、使用工具并采取行动以实现目标的应用程序，具有自主性和主动性。核心组成：模型（Model）：代理的核心决策引擎，通常是语言模型（如 GPT 系列）。支持多模态、通用或经过微调的模型。工具（Tools）：弥补模型无法直接与外界交互的缺陷，允许代理访问实时数据和执行操作。编排层（Orchestration Layer）：负责信息处理、推理、规划和决策，支持循环执行直到目标达成。代理与模型的区别模型：仅限于训练数据，无法与外界交互，且不具备持续上下文管理能力。代理：通过工具扩展知识范围，支持多轮推理和上下文管理，并内置逻辑层（如 ReAct、Chain-of-Thought）。认知架构与推理框架认知架构：代理通过信息收集、内部推理、执行和调整的循环流程实现目标。推理框架： ReAct：结合推理和行动的框架，适用于动态任务。 Chain-of-Thought (CoT)：通过中间步骤实现推理能力，适合多步推理。 Tree-of-Thoughts (ToT)：适用于探索性或战略性任务。工具的作用与类型工具的定义：工具是代理与外界交互的关键，可分为以下三种类型：扩展（Extensions）：代理与 API 的桥梁，直接在代理端执行 API 调用。函数（Functions）：在客户端执行的代码模块，提供更高的控制灵活性。数据存储（Data Stores）：通过向量数据库为代理提供动态、实时的数据支持，适用于结构化和非结构化数据。应用示例扩展的使用：通过示例教学让代理调用 API（如航班预订 API）。函数调用：代理生成函数参数，由客户端执行 API 调用，适用于需要额外数据处理或安全性要求的场景。数据存储的实现：通过向量搜索（如 RAG 方法）实现动态知识扩展，使代理能够访问实时信息。模型性能提升方法：上下文学习（In-context Learning）：通过少量示例实时学习任务。基于检索的上下文学习：动态从外部存储中检索相关信息。微调（Fine-tuning）：通过特定数据集训练模型以提升任务表现。结合优势：通过组合上述方法，代理可以在速度、成本和准确性之间取得平衡。工具与平台支持 LangChain 示例：通过 LangChain 和 LangGraph 构建多阶段任务代理，结合工具（如 SerpAPI 和 Google Places API）实现复杂查询。 Vertex AI 平台：提供全面的托管环境，支持代理的开发、测试、评估和优化，简化生产级应用的构建。 8....

Agents

AI Agents 开始吞噬 SaaS • Martin Alderson

Agents 白皮书 • Google