Agents 白皮书 • Google

简介 人类在处理杂乱无章的模式识别任务方面非常擅长。然而,他们往往会借助工具,例如书籍、Google 搜索或计算器,来补充已有知识,从而得出最终结论。同样,生成式 AI (Generative AI) 模型也可以通过训练学会使用工具,以获取实时信息或提供实际行动建议。比如,一个模型可以使用数据库检索工具来获取特定信息,例如客户的购买记录,从而生成个性化的购物推荐。又或者,模型可以根据用户的需求调用 API,完成发送邮件回复同事或代表用户进行金融交易等操作。 为了实现这些功能,生成式 AI 模型不仅需要能访问外部工具,还必须具备自我规划和执行任务的能力。这种结合推理能力、逻辑分析与外部信息访问功能的方式,进一步引入了智能体 (Agent) 的概念。智能体是一种可以扩展生成式 AI 模型能力的程序,使其功能超越了单一模型的局限。本白皮书将深入探讨这些概念及其相关内容。 摘要 本文探讨了生成式 AI 代理(Agents)的核心概念、组成结构及其在认知架构中的应用。代理通过结合语言模型(Language Models, LMs)、工具(Tools)和编排层(Orchestration Layer)来扩展语言模型的能力,使其能够执行复杂任务、自主决策并与外部世界交互。代理不仅能通过推理和规划完成目标,还能利用外部工具(如 API、数据存储等)获取实时信息或执行具体操作,从而弥补单一语言模型的局限性。 代理的定义与核心组成 代理的定义:代理是一个能够观察世界、使用工具并采取行动以实现目标的应用程序,具有自主性和主动性。 核心组成: 模型(Model):代理的核心决策引擎,通常是语言模型(如 GPT 系列)。支持多模态、通用或经过微调的模型。 工具(Tools):弥补模型无法直接与外界交互的缺陷,允许代理访问实时数据和执行操作。 编排层(Orchestration Layer):负责信息处理、推理、规划和决策,支持循环执行直到目标达成。 代理与模型的区别 模型:仅限于训练数据,无法与外界交互,且不具备持续上下文管理能力。 代理:通过工具扩展知识范围,支持多轮推理和上下文管理,并内置逻辑层(如 ReAct、Chain-of-Thought)。 认知架构与推理框架 认知架构:代理通过信息收集、内部推理、执行和调整的循环流程实现目标。 推理框架: ReAct:结合推理和行动的框架,适用于动态任务。 Chain-of-Thought (CoT):通过中间步骤实现推理能力,适合多步推理。 Tree-of-Thoughts (ToT):适用于探索性或战略性任务。 工具的作用与类型 工具的定义:工具是代理与外界交互的关键,可分为以下三种类型: 扩展(Extensions):代理与 API 的桥梁,直接在代理端执行 API 调用。 函数(Functions):在客户端执行的代码模块,提供更高的控制灵活性。 数据存储(Data Stores):通过向量数据库为代理提供动态、实时的数据支持,适用于结构化和非结构化数据。 应用示例 扩展的使用:通过示例教学让代理调用 API(如航班预订 API)。 函数调用:代理生成函数参数,由客户端执行 API 调用,适用于需要额外数据处理或安全性要求的场景。 数据存储的实现:通过向量搜索(如 RAG 方法)实现动态知识扩展,使代理能够访问实时信息。 模型性能提升 方法: 上下文学习(In-context Learning):通过少量示例实时学习任务。 基于检索的上下文学习:动态从外部存储中检索相关信息。 微调(Fine-tuning):通过特定数据集训练模型以提升任务表现。 结合优势:通过组合上述方法,代理可以在速度、成本和准确性之间取得平衡。 工具与平台支持 LangChain 示例:通过 LangChain 和 LangGraph 构建多阶段任务代理,结合工具(如 SerpAPI 和 Google Places API)实现复杂查询。 Vertex AI 平台:提供全面的托管环境,支持代理的开发、测试、评估和优化,简化生产级应用的构建。 8....

January 8, 2025 · 1 min · fisherdaddy

推动音频生成的前沿 • DeepMind

本文介绍了最新的语音生成技术的进展,重点展示了如何通过先进的模型和算法推动更自然、更直观的数字助理和 AI 工具的语音交互。这些技术不仅能够生成高质量的单人语音,还能创建复杂的多角色对话,从而提升用户体验,促进知识获取。 语音生成技术的应用:这些技术已被应用于多个 Google 产品和实验项目中,如 Gemini Live、Project Astra、Journey Voices 和 YouTube 的自动配音,帮助全球用户与 AI 工具进行自然的互动。 最新功能开发: NotebookLM Audio Overviews:将上传的文档转化为生动的多角色对话,两个 AI 主持人总结用户材料并探讨相关主题。 Illuminate:生成关于研究论文的正式 AI 讨论,帮助知识更易于理解。 研究基础: 先前的研究(如 SoundStream 和 AudioLM)为音频生成奠定了基础,SoundStream 是一种神经音频编解码器,能够高效压缩和解压音频,而 AudioLM 则将音频生成视为语言建模任务。 这些技术可以灵活处理不同类型的声音,并且在生成多角色对话时表现出色。 最新模型的性能: 最新的语音生成模型能够在不到 3 秒的时间内生成 2 分钟的多角色对话,且语音自然度、角色一致性和音质都有显著提升。 模型通过专门的 Transformer 架构处理超过 5000 个音频标记,并使用新的语音编解码器将音频压缩至 600 bps 的低比特率。 训练和优化: 模型通过数十万小时的语音数据预训练,并通过小规模的高质量对话数据进行微调,确保生成的对话具有真实感,包括自然的停顿和语气变化。 通过使用 SynthID 技术,对生成的音频进行水印标记,以防止滥用。 未来发展: 未来的改进方向包括提升模型的流畅度、音质,并增加对语音特征(如语调)的细粒度控制,同时探索与视频等其他模态的结合。 这些技术将被应用于更广泛的场景,如教育和内容的普及化。 推动音频生成的前沿 发布时间:2024年10月30日 我们的开创性语音生成技术正帮助全球用户与更自然、对话性更强、更直观的数字助手和AI工具互动。 语音是人类交流的核心工具。它帮助人们在全球范围内分享信息、表达情感并建立相互理解。随着我们生成自然语音技术的不断进步,数字体验正变得更具吸引力、更加生动。 近年来,我们一直在推动音频生成的前沿,开发出能够从文本、节奏控制和特定声音等多种输入生成高质量自然语音的模型。这项技术已应用于Google的多个产品和实验中,包括 Gemini Live、Project Astra、Journey Voices 和 YouTube的自动配音,帮助全球用户与更加自然的数字助手互动。 我们与Google的合作伙伴一起,开发了两项新功能,用于生成多人的长篇对话,使复杂内容更易于理解: NotebookLM Audio Overviews:将上传的文档转换为生动的对话形式,两个AI主持人总结用户的内容并相互调侃。 Illuminate:生成关于研究论文的AI讨论,以帮助知识更易于消化。 音频生成的开创性技术 多年来,我们一直在进行音频生成研究,并探索如何将生成自然对话的技术应用到我们的产品和实验工具中。在先前的 SoundStorm 研究中,我们首次展示了生成多位说话者之间自然对话片段(长达 30 秒)的能力。...

October 31, 2024 · 1 min · fisherdaddy

谷歌崛起背后的友谊

本文探讨了程序员 Jeff 和 Sanjay 之间深厚的友谊及其对 Google 成功的推动作用。他们的紧密合作不仅体现在工作中,还在生活中展现了创意与效率的结合。两人的协作方式、互补的思维方式以及在编程中的默契,使他们成为了 Google 发展过程中不可或缺的搭档。 友谊与合作:Jeff 和 Sanjay 在 Google 之前就建立了深厚的友谊,他们常常一起度假,Jeff 的女儿们称 Sanjay 为“叔叔”。这种紧密的私人关系促进了他们在工作中的合作。 编程风格的互补:Jeff 更加外向和探索性,能迅速提出新想法,而 Sanjay 则专注于系统设计,编写出结构优美的代码。他们的合作使得编程过程更加高效,减少了创意瓶颈的发生。 重要项目:两人共同开发的 MapReduce 软件为 Google 带来了巨大的性能提升,使得程序员能够更高效地处理数据。该技术后来成为 Hadoop 的基础,广泛应用于大数据处理。 AI 的发展:Jeff 在 Google Brain 项目中的参与,使得神经网络技术得以迅速发展,最终取代了传统的搜索算法,标志着 Google 在 AI 领域的转折。 角色变化:随着时间的推移,Jeff 和 Sanjay 的角色逐渐分化。Jeff 负责更大的项目和团队管理,而 Sanjay 则专注于独立开发,继续为 Google 的技术决策提供支持。 持续的友谊:尽管工作节奏有所变化,两人仍保持联系,定期共进晚餐,回忆起早年的合作时光,展现了他们之间持久的友谊与默契。 谷歌崛起背后的友谊 “我们在 Google 之前就已经这么做了。” Jeff 说道。 “但我也不清楚为什么我们觉得坐在一台电脑前比两台更好。” Sanjay 说道。 “我常常从离两条街远的 D.E.C. 研究室走到他的 D.E.C. 研究室,” Jeff 说道。“中间还经过一家意式冰淇淋店。” “所以是因为那家冰淇淋店!” Sanjay 笑着说。 单身的 Sanjay 经常与 Jeff 及其妻子 Heidi 和两个女儿一同度假。Jeff 的女儿们称他为 Sanjay 叔叔,五个人通常在周五晚上一起吃饭。Sanjay 和 Jeff 的大女儿 Victoria 开始一起烘焙。“我看着他的女儿们一点点长大,” Sanjay 自豪地说。2004 年 Google 上市后,他们搬到了相距四英里的新居。Sanjay 住在旧山景城的一栋普通的三居室,而 Jeff 则亲自设计了他位于帕洛阿尔托市区附近的房子,还在地下室装了蹦床。在设计这栋房子时,他意识到虽然他喜欢规划空间设计,但没有耐心去处理那些他称之为“适合 Sanjay 的建筑细节”:如梁柱、螺栓和承重结构,这些都是支撑整体设计的基础部分。...

August 21, 2024 · 3 min · fisherdaddy