关于 DeepSeek 和出口管制 • Dario Amodei

DeepSeek 开源的推理模型 R1 影响力太大,从 1 月 20 号开源到现在已经一周多了,国内外社交媒体上仍然在讨论,热度不减,同时也登顶了中国、美国、英国等多个国家的 App Store 的下载榜榜首,离谱的是甚至让英伟达的股价暴跌了 17%,原因是 R1 的能力水平与 OpenAI 的 o1 相媲美,但成本仅为o1的3%-5%,训练成本仅为560万美元。投资者担心,DeepSeek的突破可能会减少对英伟达高端GPU的需求,从而影响公司的盈利能力。连 OpenAI CEO 和 Anthropic CEO 都亲自下场讨论(酸一下),可见其影响力之大。 本文是 Anthropic CEO Dario Amodei 撰写的一篇有关 DeepSeek 的文章。其的核心观点是,尽管 中国 AI 公司 DeepSeek 在降低 AI 模型成本和提升性能方面取得了显著进展,但这非但没有削弱,反而更加强调了美国对华芯片出口管制的重要性。作者认为,出口管制是确保民主国家在 AI 发展中保持领先地位,并防止中国在 AI 领域取得军事主导地位的关键手段。DeepSeek 的技术进步,实际上是在预期的 AI 成本降低趋势之内,而非颠覆性的突破,因此不能被视为放松出口管制的理由。 DeepSeek 的模型进展: DeepSeek 发布了 DeepSeek-V3 和 R1 两款模型。 DeepSeek-V3 作为预训练模型,在某些任务上性能接近美国最先进的模型,且训练成本更低,这主要归功于其在工程效率上的创新,例如 改进了 Key-Value cache 管理和 mixture of experts 方法。然而,DeepSeek-V3 的性能仍落后于某些美国模型(如 Claude 3.5 Sonnet),且其成本降低幅度与 AI 领域正常的成本下降趋势(约每年 4 倍)基本一致,并非革命性的经济变革。 R1 模型则是在 V3 的基础上增加了强化学习(RL)训练阶段,类似于 OpenAI 的 o1 模型,表明多家公司在推理模型方面都取得了进展,但这主要是因为目前正处于 RL 技术扩展的早期阶段。 AI 发展的三个基本动态: 理解 AI 发展需要关注三个动态。 Scaling laws,即模型训练规模越大,性能越好。 Shifting the curve,指算法和硬件的进步不断提高训练效率,降低成本。作者估计,目前成本曲线的下降速度约为每年 4 倍。 Shifting the paradigm,指训练范式的转变,例如从预训练模型到使用强化学习训练推理模型,这会带来新的扩展机会和性能提升。 出口管制的重要性: 尽管 AI 模型训练成本在降低,但为了追求更强大的 AI,总体的研发投入仍在持续增加。作者预测,到 2026-2027 年,实现超越人类的通用 AI 可能需要数百万芯片和数百亿美元的投入。 出口管制是阻止中国获得大量先进芯片,从而避免中美在 AI 领域形成 “两极世界” 的关键。在 “两极世界” 中,中国可能集中资源发展军事 AI,从而取得全球主导地位。有效的出口管制有助于维持 “单极世界”,即美国及其盟友在 AI 领域保持长期领先优势。 DeepSeek 的案例并非出口管制失败的证据: DeepSeek 拥有相当数量的芯片(约 5 万片 Hopper 架构芯片),因此能够训练出高性能模型并不意外。 出口管制的目的不是阻止中国获得少量芯片,而是阻止其获得支撑大规模 AI 发展的数百万芯片。 DeepSeek 目前拥有的芯片类型(包括 H100、H800 和 H20)表明,出口管制在一定程度上是有效的,中国可能通过走私和利用管制漏洞获取部分芯片,但也面临着获取最先进芯片和大规模芯片的限制。 加强和完善出口管制,仍然是阻止中国在 AI 领域取得决定性优势的关键。 原文 几周前,我 撰文指出,美国应该对出口到中国的芯片实施更严格的管制。此后,中国的人工智能公司 DeepSeek 设法在某些方面,至少在某些特定基准测试上, 在性能上逼近了美国最先进的 AI 模型,而且成本更低。 我在这里不打算讨论 DeepSeek 是否对 Anthropic 这样的美国 AI 公司构成威胁 (尽管我认为关于它们威胁美国 AI 领导地位的说法被严重夸大了) 1。相反,我将重点探讨 DeepSeek 的发布是否削弱了对芯片出口管制政策的必要性。我认为并没有。事实上, 我认为这些发布使得出口管制政策比一周前更加至关重要2。 出口管制的一个重要作用是:确保民主国家在 AI 发展中保持领先地位。需要明确的是,出口管制不是为了逃避美国和中国之间的竞争。最终,如果想要在竞争中获胜,美国和其他民主国家的 AI 公司必须拥有比中国更好的模型。但是,我们不应该在不必要的情况下,将技术优势拱手让给中国共产党。 AI 发展的三个关键动态 在阐述我的政策观点之前,我想先描述 AI 系统的三个基本动态,理解这些动态至关重要: 缩放定律 (Scaling laws)。 我和我的联合创始人在 OpenAI 工作时,是最早 记录 AI 这一特性的:在所有条件相同的情况下,扩大 AI 系统的训练规模,通常会在各种认知任务上带来更平滑、更好的结果。例如,一个价值 100 万美元的模型可能解决 20% 的重要编码任务,一个价值 1000 万美元的模型可能解决 40%,一个价值 1 亿美元的模型可能解决 60%,以此类推。这些差异在实际应用中通常会产生巨大影响——10 倍的规模提升可能相当于本科生和博士生之间的技能水平差异——因此,各公司都在大力投资训练这些模型。 曲线的改变 (Shifting the curve)。 该领域不断涌现出各种各样的创新想法,从而提高效率:例如改进模型的架构 (对目前所有模型都采用的 Transformer (转换器) 架构进行调整) ,或者改进模型在底层硬件上的运行效率。新一代硬件也会产生类似的效果。这些创新通常会 改变缩放曲线:如果某项创新带来了 2 倍的 “计算效率提升倍数 (compute multiplier)” (CM),那么你就可以用 500 万美元而不是 1000 万美元的成本,在编码任务上获得 40% 的性能;或者用 5000 万美元而不是 1 亿美元的成本获得 60% 的性能。每个顶尖的 AI 公司都会定期发现许多这样的 CM:小的 (约 1....

January 31, 2025 · 4 min · fisherdaddy

超越机器人:在人工智能 (AI) 时代重新定义聊天机器人设计 • Wojciech Wasilewski

本文探讨了在 AI 时代重新定义聊天机器人设计的必要性。随着 GPT 和 Gemini 等生成式 AI 平台的兴起,聊天机器人变得更加智能和人性化,但其设计不仅仅关乎技术能力,而是需要从用户体验出发,创造更自然、个性化和易于访问的互动体验。作者分享了自己在设计 AI 驱动聊天机器人过程中的经验,强调了视觉设计、语音定制、文本呈现、交互模式等方面的重要性,并提出了如何通过迭代设计来满足用户不断变化的需求。 视觉设计:从抽象到个性化 抽象与具体的设计选择:GPT、Gemini 等聊天机器人通常采用抽象图标,而更专用的产品可能会使用更具体的角色头像。但过于人性化的设计可能引发“恐怖谷”效应。 用户自定义选项:允许用户在抽象和具体设计之间选择,可以提升个性化体验,同时为设计决策提供数据支持。 语音定制:语调、风格与口音 语调与上下文匹配:利用 ElevenLabs 等工具,聊天机器人可以根据上下文动态调整语调,如道歉时柔和,庆祝时热情。 非语言沟通的重要性:根据 55/38/7 法则,38% 的沟通来自语音语调,55% 来自非语言线索,因此语音风格需与情感和语境匹配。 口音的多样性:通过模拟区域性口音(如英国的 Geordie 或 Brummie),可以增强文化亲近感和用户参与度。 文本呈现:信息长度与用户体验 信息长度的平衡:根据不同的产品目标(如简洁回答或叙事型互动),调整文本长度和风格。 文本显示方式:GPT 的打字机式呈现增加动态感,但可能让用户感到紧张;Gemini 的预加载动画则更平滑。 认知负荷管理与 UI 简化 界面清晰度:通过隐藏旧消息(如 Pi.ai 的做法),减少视觉干扰,帮助用户专注于当前对话。 调整响应节奏:通过滑块控制语速和停顿时间,满足听力障碍者、非母语用户及高压场景中的需求。 交互模式与语音输入 三种交互模式:包括语音对语音、按住说话和录音模式。其中,按住说话和录音模式在当前技术条件下更可靠。 语音交互改进:最新的 GPT 语音助手支持中断和调整聆听时间,显著提升语音对话的流畅性。 设计过程的迭代性 无一刀切方案:不同场景下,聊天机器人可能需要人性化或机械化的风格。 迭代设计:通过设计、测试和学习的循环,不断优化产品以适应用户需求。 未来方向与技术潜力 区域口音定制:目前尚未广泛实现,但未来可能会成为聊天机器人设计的趋势。 无缝语音对话:尽管技术尚未成熟,但完全自然的语音交互是未来的目标。 原文 从类人交互到语音定制和可访问性,学习如何创建更智能、更以用户为中心的聊天机器人。 人工智能 (AI) 的兴起已经改变了我们对产品设计和开发的看法。像GPT和Gemini这样的平台使得创建具有前所未有的复杂性的聊天机器人成为可能,从而使尖端技术更接近日常应用。但这不仅仅是关于工具或功能——而是关于我们如何对待设计本身的转变。 对于设计师来说,人工智能的引入标志着 新篇章的开始,这要求我们重新思考传统流程并采用全新的方法。构建人工智能驱动的产品远非即插即用的过程;它需要仔细关注用户体验,更深入地了解用户行为,并致力于打造超越功能的解决方案。借助人工智能,我们有绝佳的机会与用户进行更个性化的联系,创建量身定制的体验,以满足他们独特的需求、偏好和限制。 在过去的一年中,我一直沉浸在设计一个人工智能驱动的聊天机器人中,在此过程中收集了宝贵的见解和经验。在本文中,我将分享一些关于如何使聊天机器人体验感觉更真实、自然和用户友好的想法——这些是人们在对话式人工智能中真正寻求的品质。 设计你的聊天机器人的外观 在可视化聊天机器人时,有几种思路。像GPT、Gemini或Google Assistant这样的无面孔聊天机器人通常用简单的插图或图标来表示——尤其是在文本模式下,它们的小头像尺寸需要清晰、可识别的图标。在语音模式下,这些聊天机器人有时会采用抽象的构成,例如GPT、Gemini或最近更新的Siri所看到的视觉风格。这种方法对于旨在集成到各种特定产品中的人工智能模型很常见。(顺便说一句,我是Siri新外观的粉丝!) 随着我们深入构建更专业化的产品,头像策略往往会发生转变。在这些情况下,看到聊天机器人由角色头像表示并不少见。虽然有些人可能觉得这种方法太字面化,但它可能非常有效,尤其是在客户服务等情况下。然而,这种策略存在一个潜在的陷阱:如果头像看起来非常像人类,但没有完全达到感觉真正像人类所需的逼真程度,它就有可能跨入“恐怖谷”。这正是头像感觉几乎像人类但又不够像人类的奇怪时刻,这会给用户带来尴尬或不适的体验。我将在以后的文章中进一步探讨这个问题。 Praktika.ai:由生成式人工智能头像驱动的自动化一对一辅导 选择正确的设计 如果您不确定应该采用哪种方法,请考虑允许用户在设置中自定义聊天机器人的外观。提供一些不同的选项,包括抽象和字面的表示,并让用户选择他们的偏好。这种方法不仅可以个性化体验,还可以提供有价值的见解——通过分析结果数据,您可以识别趋势并做出更明智的设计决策。 定制语音:音调和风格 随着像 ElevenLabs 这样的产品的进步,我们现在拥有强大的工具来微调聊天机器人语音响应的音调和风格。设计师可以决定是否希望聊天机器人以中性、通用的音调响应,采用更柔和、耳语的风格,甚至根据特定上下文动态调整其音调和语调。...

January 20, 2025 · 1 min · fisherdaddy

生成式 AI – 力量与荣耀 • 彭博新能源财经

本文聚焦生成式 AI 的迅猛发展及其对能源需求的深远影响。作者指出,2025年标志着能源行业和 AI 技术之间的双向觉醒:能源需求成为 AI 扩展的瓶颈,而 AI 技术则推动了能源行业的变革。随着生成式 AI 技术的普及,数据中心的规模和电力需求急剧增加,这引发了关于能源供应、清洁能源使用以及经济和社会影响的广泛讨论。作者还探讨了未来 AI 数据中心的能源解决方案,包括核能、可再生能源和新兴技术,同时强调需要与地方社区和电网合作以实现可持续发展。 生成式 AI 的崛起 生成式 AI 的发展从 2020 年至 2022 年间迅速加速,代表性事件包括 AlphaFold2 的突破和 ChatGPT 的发布。 Nvidia 成为生成式 AI 硬件的核心供应商,其 GPU 的需求激增,市值飙升至超过 3 万亿美元。 AI 的发展受到能源瓶颈的限制,顶尖科技公司纷纷意识到电力供应的重要性。 数据中心的能源挑战 数据中心的电力需求正在迅速上升,尤其是用于 AI 模型训练的高功率数据中心。 当前全球数据中心的平均功率为 10MW,而 AI 专用数据中心的规模已达到 75MW 至 150MW,未来甚至可能扩展到 1GW 至 2GW。 数据中心的选址正在从城市转向靠近清洁能源供应的偏远地区。 能源需求预测与不确定性 对未来 AI 数据中心能源需求的预测差异巨大,从保守的 35% 增长到 2030 年的 250% 增长不等。 GPU 的能效持续提升,但仍无法完全抵消其快速增长的需求。 作者预测美国数据中心的电力需求到 2030 年将翻倍,增加约 30GW。 清洁能源与核能的竞争 科技巨头正在探索核能作为数据中心的清洁能源来源,但核能的高成本和复杂性可能成为障碍。 可再生能源(如风能和太阳能)被认为是更现实的解决方案,并可能通过与电池或其他存储技术结合来满足需求。 新兴能源技术(如地热和氢能)虽然有潜力,但仍面临技术和经济上的挑战。 AI 对能源和经济的双重影响 AI 不仅增加了电力需求,还通过优化电网、天气预测、物流和制造等领域的效率来减少能源浪费。 文章提到 Jevons 效应:尽管 AI 提高了能源效率,但其带来的经济活动增长可能进一步推动能源需求。 社会与政策的考量 数据中心的建设需要与地方社区合作,以解决用水、空气质量和技能需求等问题。 作者建议科技公司与电网和监管机构合作,共同优化能源解决方案。 未来的能源政策(如温室气体核算规则的修订)可能对数据中心的能源选择产生深远影响。 未来展望 作者预测,尽管科技公司可能尝试创新能源解决方案,但最有效的方式仍是通过传统的清洁能源技术与电网合作。 他强调,AI 数据中心的建设需要关注长期可持续性,并与地方社区和能源系统共同发展。 最后,作者 Liebreich 以幽默的结尾提醒读者,人脑的功耗仅为 20W,而人类大脑的能效远超机器,暗示尽管 AI 技术进步迅猛,人类依然是不可替代的。...

January 17, 2025 · 6 min · fisherdaddy

2025 年科技和 AI 的十大预测 • Ashu Garg

本文由 Foundation Capital 合伙人 Ashu Garg 撰写,回顾了 2024年科技界的里程碑,并探讨了 2025 年的前景。核心内容包括: AI 成本与普及 从 2021 年 GPT-3 的每百万标记 $60 的成本,到 2024 年 Meta 的 Llama 3.2 降至 $0.06,这一成本下降速度创下历史记录。 AI 已渗透至多个行业,其市场影响力占 S&P 500 市值的约一半。 技术进步与系统架构 AI 模型的进步正在转向推理能力,例如 OpenAI 的 o3 模型通过生成详细的推理路径,在 ARC-AGI 和 FrontierMath 等基准测试中取得了显著突破。 推理能力的提升需要更高的计算成本,但效率改进将推动未来发展。 未来的竞争将集中于系统架构,而非模型规模。 商业模式与市场扩展 AI 正在从传统的软件预算转向更大的服务市场,其目标是直接完成工作,而非仅提供工具。 成果导向的定价模式正在兴起,挑战传统软件公司的收入模式。 硬件市场的变化 预训练的高吞吐量需求使 NVIDIA 占据主导地位,但推理阶段对延迟和分布式计算的需求为其他厂商创造了机会。 多家科技巨头(如苹果、微软、谷歌等)和初创公司正在开发定制芯片。 AI 原生平台与用户体验 AI 原生平台正在重新定义企业软件,如销售平台从文本记录转向多模态处理。 新的用户界面将支持更复杂的 AI 交互,如 OpenAI 的 Canvas 和 Google’s NotebookLM。 搜索与信息获取的变革 AI 原生搜索(如 ChatGPT 和 Perplexity)正在取代传统搜索引擎,提供直接的综合答案。 Meta 的社交图谱可能进一步挑战 Google 的搜索主导地位。 开源与多模型战略 Meta 的 Llama 开源模型正在成为行业标准,降低了 AI 开发的进入门槛。 企业正在采用多模型战略,避免对单一模型的依赖。 自动驾驶与社会信任 Waymo 的自动驾驶汽车在复杂场景中的表现正在增强公众对 AI 的信任。 自动驾驶的普及将带来安全、生产力和城市设计的改善。 初创公司的机遇 开源模型和推理策略的进步使小型团队能够与大公司竞争,特别是在垂直领域和“最后一公里”应用中。 人类创造力与 AI 的未来 技术限制正在减少,AI 的未来发展将更多依赖于人类的创造力和想象力。 原文 对我来说,2024年科技领域的故事可以用一个数字来概括:1000倍。...

January 13, 2025 · 3 min · fisherdaddy

解密 AI Agent:新手指南 • MongoDB

本文围绕 AI agents(人工智能代理) 的定义、发展历程、核心组件、特性及其在现代应用中的价值展开探讨。AI agents 是一种结合人工智能和代理特性,具备环境感知、自主决策、工具使用以及目标导向行为的计算实体。其演化路径从传统基于规则的聊天机器人,到以大语言模型(LLM)为核心的生成式 AI 系统,再到结合检索增强生成(RAG)技术的复杂代理系统。AI agents 的出现标志着现代 AI 应用从简单交互向复杂、多功能系统的转变,并在生产力提升、决策支持和降低技术门槛等方面展现了巨大潜力。 AI agents 的定义与核心特性 定义:AI agents 是一种具备环境感知能力的计算实体,通过感知(输入)、行动(工具使用)和认知(基于 LLM 的推理与规划)实现自主决策和目标导向行为。 核心特性: 自主性:无需外部指令即可根据内部处理结果或外部观察采取行动。 交互性:与人类、其他代理或系统交互,能够根据上下文调整行为。 反应性与主动性:能对环境变化做出动态响应,同时通过推理与规划主动执行任务。 迭代性:通过反馈不断优化执行步骤,适应复杂任务。 AI agents 的发展历程 传统聊天机器人: 基于规则(如“如果…则…”逻辑)和预定义响应。 功能有限,需人工介入完成复杂任务。 LLM 驱动的聊天机器人: 引入生成式预训练变换器(GPT)模型,具备生成类人文本的能力。 克服了传统聊天机器人的局限,但存在个性化不足和“幻觉”(生成错误信息)问题。 RAG(检索增强生成)聊天机器人: 结合外部数据检索与 LLM 的内在知识,生成更准确和上下文相关的响应。 通过提示工程(Prompt Engineering)优化模型输出,如链式思维(CoT)和 ReAct 技术。 AI agents 的出现: 随 LLM 的参数规模增长,出现推理、多步规划和工具调用等能力。 结合工具使用、环境感知和迭代执行,形成具备高度自主性的复杂代理系统。 AI agents 的核心组件 大脑(Brain): 基于 LLM 提供推理、规划和决策能力。 包括记忆模块(存储历史交互)、角色模块(基于描述模拟特定行为)和知识模块(存储领域相关信息)。 行动(Action): 通过工具使用或功能调用完成任务。 能分解任务为多个步骤,并动态决定工具的使用时机。 感知(Perception): 处理环境输入(如文本、图像或语音),为决策提供信息。 AI agents 的价值与影响 生产力提升:通过自动化重复性任务(如审批、文档处理),减少人工干预。 决策支持:基于规则和指导方针辅助企业工作流中的决策。 降低技术门槛:通过自然语言和图像驱动的界面,使非技术用户更容易与系统交互。 多样化应用场景:从代码生成到内容创作,再到企业流程优化,AI agents 展现了广泛的应用潜力。 当前行业努力方向 可靠性:解决 LLM 的“幻觉”问题,确保输出准确性。 可扩展性:优化模型性能以应对不断增长的数据和计算需求。 性能提升:通过更强大的工具和工作流编排提高系统效率。 MongoDB 的支持: 提供长期数据管理(如对话历史存储)、向量数据库功能和可扩展数据存储,为 AI agents 提供基础设施支持。 AI agents 的未来展望 代理性(Agentic):AI 系统的分类基于其代理特性(如自主性、环境交互能力和目标导向行为)的强弱程度。 灵活性与适应性:AI agents 的发展可能模糊简单 AI 系统与复杂代理系统之间的界限。 行业影响与价值实现 生产力提升:通过自动化简化企业工作流。 用户友好性:降低技术复杂性,赋能普通用户。 企业决策支持:通过规则驱动的 AI 代理简化复杂流程。 MongoDB 的技术支持 长时数据管理:存储和检索对话历史,保持上下文。 向量数据库:支持语义搜索和 AI 工作负载。 可扩展存储:满足不断增长的数据需求。 原文 什么是 AI 智能体 (AI Agent)?...

January 10, 2025 · 4 min · fisherdaddy

解码 AI TOPS:理解 AI 芯片的关键指标与性能对比 • Ernest Chiang

(插图: 幕后付出了诸多努力。 Le Bouchon Ogasawara,位于东京涩谷。 图片来源:Ernest) tl;drTOPS (每秒万亿次运算, Trillions of Operations Per Second) 是衡量 AI 芯片和 NPU 芯片计算能力的重要指标,它表示处理器每秒能执行的万亿次运算次数。我们可以用“煎鸡蛋”来形象理解 TOPS: 普通 CPU 就像一位每次只能煎一个鸡蛋的厨师,而高 TOPS 值的 AI 芯片则像一位可以同时煎无数鸡蛋的超级厨师。TOPS 是对比 AI 芯片性能的重要参考,但在评估 AI 硬件时,我们还应该综合考虑能效、内存带宽等因素。 此外,TOPS 值通常代表的是理论峰值性能,实际性能还需要结合具体应用场景进行评估。什么是 TOPS(通俗易懂版)TOPS,全称 每秒万亿次运算 (Trillions of Operations Per Second),是衡量人工智能 (AI) 芯片或神经处理单元 (NPU) 计算能力的关键指标。它表示处理器每秒能够执行的最大运算次数,以万亿为单位。 随着计算能力的不断提升,未来可能会出现更大的单位来替代 “万亿”。 为了更直观地理解 TOPS,我们可以用一个生活化的例子来解释: 将 AI 计算 想象成 煎鸡蛋的过程,而 数据 则是 待煎的鸡蛋。 一个普通厨师(相当于普通 CPU)可能一次只能煎一个鸡蛋,而一个超级厨师(相当于 AI 芯片)则可以同时煎一万亿个鸡蛋! TOPS 就好比衡量这位 “超级厨师” 能力的指标,告诉我们他每秒可以 “处理” 多少个 “数据鸡蛋”。 TOPS 是理解和比较 AI 芯片性能的重要参考之一,但并非唯一标准。...

January 9, 2025 · 10 min · fisherdaddy

Agents 白皮书 • Google

简介 人类在处理杂乱无章的模式识别任务方面非常擅长。然而,他们往往会借助工具,例如书籍、Google 搜索或计算器,来补充已有知识,从而得出最终结论。同样,生成式 AI (Generative AI) 模型也可以通过训练学会使用工具,以获取实时信息或提供实际行动建议。比如,一个模型可以使用数据库检索工具来获取特定信息,例如客户的购买记录,从而生成个性化的购物推荐。又或者,模型可以根据用户的需求调用 API,完成发送邮件回复同事或代表用户进行金融交易等操作。 为了实现这些功能,生成式 AI 模型不仅需要能访问外部工具,还必须具备自我规划和执行任务的能力。这种结合推理能力、逻辑分析与外部信息访问功能的方式,进一步引入了智能体 (Agent) 的概念。智能体是一种可以扩展生成式 AI 模型能力的程序,使其功能超越了单一模型的局限。本白皮书将深入探讨这些概念及其相关内容。 摘要 本文探讨了生成式 AI 代理(Agents)的核心概念、组成结构及其在认知架构中的应用。代理通过结合语言模型(Language Models, LMs)、工具(Tools)和编排层(Orchestration Layer)来扩展语言模型的能力,使其能够执行复杂任务、自主决策并与外部世界交互。代理不仅能通过推理和规划完成目标,还能利用外部工具(如 API、数据存储等)获取实时信息或执行具体操作,从而弥补单一语言模型的局限性。 代理的定义与核心组成 代理的定义:代理是一个能够观察世界、使用工具并采取行动以实现目标的应用程序,具有自主性和主动性。 核心组成: 模型(Model):代理的核心决策引擎,通常是语言模型(如 GPT 系列)。支持多模态、通用或经过微调的模型。 工具(Tools):弥补模型无法直接与外界交互的缺陷,允许代理访问实时数据和执行操作。 编排层(Orchestration Layer):负责信息处理、推理、规划和决策,支持循环执行直到目标达成。 代理与模型的区别 模型:仅限于训练数据,无法与外界交互,且不具备持续上下文管理能力。 代理:通过工具扩展知识范围,支持多轮推理和上下文管理,并内置逻辑层(如 ReAct、Chain-of-Thought)。 认知架构与推理框架 认知架构:代理通过信息收集、内部推理、执行和调整的循环流程实现目标。 推理框架: ReAct:结合推理和行动的框架,适用于动态任务。 Chain-of-Thought (CoT):通过中间步骤实现推理能力,适合多步推理。 Tree-of-Thoughts (ToT):适用于探索性或战略性任务。 工具的作用与类型 工具的定义:工具是代理与外界交互的关键,可分为以下三种类型: 扩展(Extensions):代理与 API 的桥梁,直接在代理端执行 API 调用。 函数(Functions):在客户端执行的代码模块,提供更高的控制灵活性。 数据存储(Data Stores):通过向量数据库为代理提供动态、实时的数据支持,适用于结构化和非结构化数据。 应用示例 扩展的使用:通过示例教学让代理调用 API(如航班预订 API)。 函数调用:代理生成函数参数,由客户端执行 API 调用,适用于需要额外数据处理或安全性要求的场景。 数据存储的实现:通过向量搜索(如 RAG 方法)实现动态知识扩展,使代理能够访问实时信息。 模型性能提升 方法: 上下文学习(In-context Learning):通过少量示例实时学习任务。 基于检索的上下文学习:动态从外部存储中检索相关信息。 微调(Fine-tuning):通过特定数据集训练模型以提升任务表现。 结合优势:通过组合上述方法,代理可以在速度、成本和准确性之间取得平衡。 工具与平台支持 LangChain 示例:通过 LangChain 和 LangGraph 构建多阶段任务代理,结合工具(如 SerpAPI 和 Google Places API)实现复杂查询。 Vertex AI 平台:提供全面的托管环境,支持代理的开发、测试、评估和优化,简化生产级应用的构建。 8....

January 8, 2025 · 1 min · fisherdaddy

2025 年 AI 展望 • Andrew Ng

本文展望了 2025 年人工智能(AI)的发展趋势和希望,通过多位领域专家的观点,探讨了 AI 在技术、应用和社会影响方面的潜力与挑战。 技术进步与应用前景 快速原型开发与生产力提升 AI 辅助编码显著降低了构建软件原型的成本与时间。例如,用 AI 构建教育工具或金融分析工具只需数小时。 平台如 Bolt 和 Replit Agent 不仅提高代码质量,还简化了应用的部署流程。 生成式 AI 的未来 创意与定制化:生成式 AI 将解放创作者的时间,使其专注于创造性工作。未来将出现更多小型、专用模型以满足特定需求。 多模态生成:结合视频、音频的生成模型将推动电影制作等领域的创新,例如同时生成视频和音轨的工具。 用户控制:未来的生成工具将提供更多控制选项,例如音乐的旋律、和声或视频的场景细节。 AI 通用性与代理型 AI 当前的 AI 系统已具备“通用性”,能够完成广泛任务并适应不同场景。 “代理型 AI”即具有执行具体任务能力的人工智能,将成为未来的核心,帮助用户完成日常任务并提升生产力。 数据效率与模型优化 当前 AI 模型依赖大规模数据,未来的重点是通过更高效的算法和架构减少数据需求。 数据效率的提升将解决模型的解释性、鲁棒性和多模态学习等问题,同时降低开发成本,促进技术民主化。 社会与文化影响 AI 的社会价值 AI 应优化推荐算法,优先展示“桥梁内容”,帮助不同群体找到共同点。 通过参与式方法(如 Polis 工具),AI 可以促进社会共识,减少偏见与分裂。 安全与责任 生成式 AI 的部署需要高标准的安全性和责任感,特别是在“代理型 AI”执行任务时。 减少“幻觉”问题(即 AI 输出错误信息)是 2025 年的关键任务,未来 AI 将比搜索引擎更可靠。 教育与学习的变革 AI 正在改变学习方式,例如生成个性化的考试题目或重新解释课程内容。2025 年,AI 可能成为人们首选的学习助手。 社会团结与治理 AI 平台需嵌入社会价值指标(如促进建设性对话),以推动民主和社会和谐。 开发和治理 AI 的过程中,应广泛吸纳多元声音,确保技术公平性与包容性。 通过技术创新与社会责任的结合,2025 年的 AI 发展将不仅推动生产力和创造力,还可能重塑人与人之间的互动方式,成为促进社会进步的重要力量。...

January 8, 2025 · 3 min · fisherdaddy

构建有效的智能体 • Anthropic

在过去的一年里,我们与数十个团队合作,构建了跨行业的大语言模型 (LLM) 智能体。始终如一地,最成功的实施并没有使用复杂的框架或专门的库。相反,他们是用简单的、可组合的模式构建的。 在这篇文章中,我们分享了我们从与客户合作和自己构建智能体中学到的经验,并为开发人员提供了关于构建有效智能体的实用建议。 什么是智能体?“智能体” 可以通过几种方式定义。一些客户将智能体定义为在较长时间内独立运行的完全自主的系统,使用各种工具来完成复杂的任务。其他人使用该术语来描述遵循预定义工作流程的更具规范性的实现。在 Anthropic,我们将所有这些变体归类为智能体系统,但在工作流程和智能体之间进行了重要的架构区分: 工作流程是通过预定义的代码路径协调大语言模型和工具的系统。另一方面,智能体是大型语言模型动态地指导其自身流程和工具使用的系统,保持对其如何完成任务的控制。下面,我们将详细探讨这两种类型的智能体系统。在附录 1 (“实践中的智能体”) 中,我们描述了客户发现使用这些类型的系统具有特殊价值的两个领域。 何时 (以及何时不) 使用智能体当使用大语言模型构建应用程序时,我们建议找到尽可能简单的解决方案,并且仅在需要时增加复杂性。这可能意味着根本不构建智能体系统。智能体系统通常以延迟和成本换取更好的任务性能,您应该考虑何时这种权衡是有意义的。 当需要更高的复杂性时,工作流程为定义明确的任务提供可预测性和一致性,而当需要大规模的灵活性和模型驱动的决策时,智能体是更好的选择。然而,对于许多应用程序来说,通过检索和上下文示例优化单个大语言模型调用通常就足够了。 何时以及如何使用框架有许多框架可以使智能体系统更容易实现,包括: 来自 LangChain 的 LangGraph;Amazon Bedrock 的 AI 智能体 (AI Agent) 框架;Rivet,一个拖放式 GUI 大语言模型工作流程构建器;以及Vellum,另一个用于构建和测试复杂工作流程的 GUI 工具。这些框架通过简化标准的底层任务 (如调用大语言模型、定义和解析工具以及将调用链接在一起) 使入门变得容易。但是,它们通常会创建额外的抽象层,这可能会掩盖底层的提示和响应,从而使调试变得更加困难。当更简单的设置就足够时,它们也可能使添加复杂性变得很有诱惑力。 我们建议开发人员从直接使用大语言模型 API 开始:许多模式可以用几行代码实现。如果您确实使用了框架,请确保您了解底层的代码。对底层原理的错误假设是客户错误的常见来源。 请参阅我们的 cookbook 以获取一些示例实现。 构建模块、工作流程和智能体在本节中,我们将探讨我们在生产中看到的智能体系统的常见模式。我们将从我们的基础构建模块——增强型大语言模型——开始,并逐步增加复杂性,从简单的组合工作流程到自主智能体。 构建模块:增强型大语言模型智能体系统的基本构建模块是通过检索、工具和记忆等增强功能增强的大语言模型。我们目前的模型可以积极地使用这些功能——生成他们自己的搜索查询,选择合适的工具,并确定要保留哪些信息。 我们建议关注实现的两个关键方面:根据您的特定用例定制这些功能,并确保它们为您的 LLM 提供简单、完善的文档界面。虽然有很多方法可以实现这些增强功能,但一种方法是通过我们最近发布的 模型上下文协议 (Model Context Protocol),该协议允许开发人员通过简单的 客户端实现 与不断增长的第三方工具生态系统集成。 在本帖的剩余部分,我们将假设每个大语言模型调用都可以访问这些增强的功能。 工作流程:提示链提示链将任务分解为一系列步骤,其中每个大语言模型调用处理前一个调用的输出。您可以在任何中间步骤中添加程序化检查 (请参阅下图中的“gate”) 以确保过程仍在轨道上。 何时使用此工作流程: 此工作流程非常适合可以轻松干净地分解为固定子任务的情况。主要目标是通过使每个大语言模型调用成为更简单的任务来权衡延迟以获得更高的准确性。 提示链有用的示例: 生成营销文案,然后将其翻译成不同的语言。编写文档大纲,检查大纲是否符合某些标准,然后根据大纲编写文档。工作流程:路由路由对输入进行分类并将其定向到专门的后续任务。此工作流程允许关注点分离,并构建更专业的提示。如果没有此工作流程,针对一种输入进行优化可能会损害其他输入的性能。 何时使用此工作流程: 路由适用于以下复杂任务:存在最好单独处理的不同类别,并且可以通过大语言模型或更传统的分类模型/算法准确处理分类。 路由有用的示例: 将不同类型的客户服务查询 (一般问题、退款请求、技术支持) 定向到不同的下游流程、提示和工具。将简单/常见的问题路由到较小的模型 (如 Claude 3.5 Haiku),将困难/不常见的问题路由到功能更强大的模型 (如 Claude 3....

December 23, 2024 · 1 min · fisherdaddy

我是如何借助 AI 翻译英文文章的

自从今年二月份开始搭建自己的博客以来,我在 AI 的帮助下翻译了 100 多篇英文文章,这里给大家分享一下我的主要翻译 pipeline。在分享之前,我想先感谢一下大家都熟悉的博主——宝玉,他在推特上分享了大量 AI 相关的资讯,特别是他的三步翻译法,对我帮助很大。 我翻译英文文章的初衷是让优秀的文章可以被更多人看到,同时也方便自己留存,所以用准确恰当的中文来表达原文的含义是必要的,这点是沉浸式翻译做不到的,下面我来讲一讲我完整的翻译 pipeline。 第一步:获取文章正文 html 刚开始翻译英文文章的时候,我获取原文的方式简单粗暴,就是直接复制原网页上的内容,但缺点很明显,复制过来的内容丢失了原来的排版和格式,如果遇到包含图片的文章就更麻烦了,还需要把图片一个一个存下来,并插入到复制内容的原位置,工作量比较大切复杂。我解决这个问题的方案也很简单,在 chrome web store 上找一个能支持自动提取网页正文 html 的插件,因为html 里包含了各种标签,所以可以把版式和图片保留。这种插件很多大家可以自行搜索,也可以使用 FisherAI 插件。 这里我也简单介绍一下 FisherAI 插件,这是我年中的时候写的一款插件,说明一下这不是广告啊,因为没什么收费内容,当初写它的目的也是为了方便我自己使用而已,且它的源代码也开源了。写这个插件主要源于我对文章有自动总结和摘要的需求,看了市面上一些摘要插件,基本都无法满足我的需求。我想要的是不仅可以自动摘要,也可以聊天,也要支持工具调用,最重要的是要支持自定义使用的模型和 api key。至于提取网页正文 html 的功能正好是我的一个需求,就顺手加到了这个插件里。 第二步:使用三步翻译法进行翻译 所谓的三步就是:直译–>反思–>意译。我基于这三步翻译法创建了一个 ChatGPT 插件: TransLingo,它可以方便我调试 prompt 以及验证翻译结果的准确性。 对于短的文章,用这个插件翻译很方便,但遇到长文章就比较麻烦了,需要在插件的聊天窗口里点很多次继续,才能翻译完成,有的时候还由于文章太长被截断或失败的情况。对于长文章,有一个比较方便的解决方案,就是使用 Google AI Studio,因为 gemini 从一开始就支持 100 万 + token 上下文,特别适合长文翻译,且价格也很便宜,我最常用的模型就是 gemini-1.5-flash,这不今天 google 又放出来了 gemini-2-flash-exp,主打多模态,后续应该可以切换到这个模型上了。 下面也分享以下我在用的三步翻译 prompt,大家可以自行取用。 你是一位精通简体中文的专业翻译,尤其擅长将专业学术论文翻译成浅显易懂的科普文章。请你帮我将以下英文段落翻译成中文,风格与中文科普读物相似。 规则: - 翻译时要准确传达原文的事实和背景。 - 即使意译也要保留原始段落格式,以及保留术语,例如 FLAC,JPEG 等。保留公司缩写,例如 Microsoft, Amazon, OpenAI 等。 - 人名不翻译 - 同时要保留引用的论文,例如 [20] 这样的引用。 - 对于 Figure 和 Table,翻译的同时保留原有格式,例如:“Figure 1: ”翻译为“图 1: ”,“Table 1: ”翻译为:“表 1: ”。 - 全角括号换成半角括号,并在左括号前面加半角空格,右括号后面加半角空格。 - 输出格式为 Markdown 格式 - 在翻译专业术语时,第一次出现时要在括号里面写上英文原文,例如:“生成式 AI (Generative AI)”,之后就可以只写中文了。 - 遇到用figure包裹的img标签,只需保留img的src属性,其他属性如alt/loading/width/height/srcset等需要忽略掉。 - 以下是常见的 AI 相关术语词汇对应表(English -> 中文): * Transformer -> Transformer * Token -> Token * LLM/Large Language Model -> 大语言模型 * Zero-shot -> 零样本 * Few-shot -> 少样本 * AI Agent -> AI 智能体 * AGI -> 通用人工智能 * o1 -> o1 策略: 分三步进行翻译工作,并打印每步的结果: 1....

December 12, 2024 · 1 min · fisherdaddy