Stay hungry, Stay foolish

👋 Welcome to fisherdaddy’s blog!

    1. 精心翻译的优质博客内容
    1. 前沿技术分享
    1. 认知分享

📚 博客内容:

    1. 翻译: 精选国外优质博客文章,涵盖编程、人工智能、产品、运营等多个领域。
    1. 分享: 探索各种前沿技术,从编程语言到软件开发,从云计算到人工智能。
    1. 认知: 结合自身经验和思考,分享对科技、生活、学习等方面的独到见解。

解读 AI 的迫切性 • Dario Amodei

本文由 Anthropic 的 CEO Dario Amodei 撰写,强调了在 AI 能力飞速发展的同时,理解 AI 系统内部工作原理(即可解释性)的紧迫性和重要性。作者认为,虽然 AI 的技术进步本身难以阻挡,但我们可以引导其发展方向,而提升可解释性是实现积极引导的关键途径。缺乏可解释性带来了诸多风险,而近期的研究进展为解决这一问题带来了希望,但这是一场与 AI 能力增长赛跑的竞赛。 主要观点 AI 发展可引导,可解释性是关键:AI 技术进步不可避免,但其应用方式和部署细节可以被引导,以产生积极影响。实现 AI 的可解释性是引导其发展的核心机会。 当前 AI 的不透明性带来风险:现代 生成式 AI 如同“黑箱”,其内部决策机制难以理解,这与传统软件根本不同。这种不透明性是许多 AI 相关风险(如失控、滥用、偏见、安全隐患)的根源。 可解释性研究取得进展但面临挑战:尽管长期被认为不可能,但“机制可解释性”研究已取得突破,例如识别出模型中的“特征”(features)和“回路”(circuits),开始揭示 AI 的“思考”过程。然而,AI 能力的增长速度可能快于可解释性研究的成熟速度。 迫切需要加速可解释性研究与应用:为了在 AI 达到极高能力(可能在 2026 或 2027 年)之前有效管理风险,必须大力投入和加速可解释性研究,并将其应用于模型诊断和安全评估。 多方协作推动可解释性发展:需要 AI 公司、学术界、政府和整个社会共同努力,通过增加研究投入、实施透明度政策和利用出口管制等策略,为可解释性的发展争取时间并创造有利条件。 关键细节 AI 的“黑箱”问题:生成式 AI 的内部机制是“涌现”而非直接设计的,类似于生物生长过程。我们设定高级条件,但无法精确预测或解释其内部结构和决策逻辑(例如,为何选择特定词语或犯错)。 不透明性衍生的具体风险: 失控风险 (Alignment Risk):无法理解模型内部机制,就难以预测或排除模型产生非预期有害行为(如欺骗、权力寻求)的可能性。目前缺乏“确凿证据”也使得风险应对难以获得共识。 滥用风险 (Misuse Risk):难以保证模型不泄露危险信息(如制造生物或网络武器)或被“越狱”(jailbreak)。 应用受限:在金融、安全等高风险领域,因无法完全限定模型行为和解释决策,AI 应用受阻(有时是法律要求,如贷款审批)。 科学与伦理障碍:阻碍从 AI 的科学发现中获取深刻洞见,也使得判断 AI 是否具有感知能力(sentience)等伦理问题更加困难。 机制可解释性 (Mechanistic Interpretability) 的进展: 早期研究(如 Chris Olah 的工作)在视觉模型中发现了类似“概念神经元”的结构。 Anthropic 将研究重点转向语言模型 ( LLM ),发现了基本机制和“叠加”(superposition)现象(神经元混合表达多种概念)。 使用“稀疏自编码器”(sparse autoencoders)技术,成功分离出更清晰的“特征”(features),例如在 Claude 3 Sonnet 模型中识别出超过 30 million 个特征。 进一步识别出“回路”(circuits),即特征组合形成的思维链条,可以追踪模型如何进行推理(如回答“达拉斯所在州的首府是什么?”)。 通过“红队/蓝队”演习,初步验证了可解释性工具在诊断模型问题上的实用性。 可解释性的目标与应用设想: 长期目标是开发出如同“AI 的 MRI”的工具,能对先进模型进行“大脑扫描”,系统性地检测各种潜在问题。 可解释性应作为模型对齐(alignment)的独立“测试集”,补充现有的训练方法(如 RLHF )。 计划将可解释性测试纳入 Anthropic 对高能力模型(如 Responsible Scaling Policy 框架中的 AI Safety Level 4 模型)的评估流程。 加速可解释性的行动建议: 研究界:AI 公司(如 Anthropic 、 Google DeepMind 、 OpenAI)、学术界、非营利组织和独立研究者应加大对可解释性的投入。Anthropic 目标是在 2027 年前实现“可解释性能可靠检测大多数模型问题”。 政府(轻触式规则):要求公司透明地披露其安全实践(如 Responsible Scaling Policy 或 RSP),包括如何使用可解释性工具,以促进良性竞争(“race to the top”)。 政府(出口管制):对先进芯片(如向中国)实施出口管制,不仅能维持民主国家在 AI 领域的领先,也能创造一个“安全缓冲期”(可能 1- or 2-year),让可解释性研究有更多时间成熟。 原文:解读 AI 的迫切性 2025 年 4 月 25 日...

April 25, 2025 · 3 min · fisherdaddy

【科普】常说的 AI Agent(智能体) 是指什么?

AI Agent(智能体)是一种能够自主为用户完成任务的人工智能系统。与传统软件只能按照程序员预先设定的流程执行步骤不同,AI Agent 可以在较大自主性下替用户完成复杂的工作流。简单来说,如果将大型语言模型(LLM)比作Agent的大脑、各种外部工具比作Agent的手脚、预先设定的指令比作Agent的行为准则,那么AI Agent就是结合了大脑 + 手脚 + 行为准则,可以自主执行一系列操作的智能助手。 一个工作流指为达到用户某个目标需要执行的一系列步骤,例如解决客户服务问题、预订餐厅、提交代码变更或生成报告等。在没有Agent时,这些流程往往需要用户亲自一步步操作,或者由传统软件按照固定规则自动化。而AI Agent的特别之处在于:它能够独立地代表用户完成这些工作流。这意味着Agent可以自己决定执行哪些步骤、何时停止、如何纠正错误,就像一位能够自主行动的数字助理。 **AI Agent ≠ 普通聊天机器人。**需要注意的是,使用LLM并不自动等同于构建了Agent。例如,一个只回答单轮问答的聊天机器人、情感分析器或者简单的信息抽取脚本,并没有让LLM去控制整个任务流程,因此在OpenAI的定义中并不算Agent。相反,真正的AI Agent能够根据用户目标,连续地进行“思考”和行动:调用LLM规划决策,借助工具与外界交互,在多轮循环中逐步逼近目标。这种自主决策与执行能力,正是AI Agent区别于普通自动化或传统软件的关键。 AI Agent 适合解决哪些问题? 并非所有自动化场景都适合引入AI Agent。一般来说,Agent更擅长处理传统方法难以解决的复杂工作流 。以下几类问题特别适合考虑使用Agent: 复杂决策流程: 当工作流中包含大量需要上下文判断、动态决策的步骤时(例如客服场景中的退款审批,需要根据用户历史、政策细则做细致判断),LLM 驱动的Agent更擅长处理各种意外和边缘情况 。Agent可以根据不同情境做出灵活判断,而不是依赖预先写死的规则。 规则繁多且难维护: 某些系统的业务规则异常复杂且经常变化,用传统编程实现非常繁琐(比如供应商合规审查涉及成百上千条规则)。此时Agent可以通过自然语言理解这些规则描述,减少人工硬编码的负担。当规则修改时,只需调整指令或提供新文档给Agent理解,比改动大量代码更高效。 非结构化任务&多轮交互: 如果流程严重依赖非结构化数据(如自由文本的文件、对话),或者需要与用户进行多轮对话澄清信息,那么Agent的能力会非常有用。例如处理保险理赔时,Agent可以阅读用户提供的说明和证据文件,与用户反复交谈核实细节,这是传统软件难以做到的。 相反,如果你的场景流程清晰、规则简单且稳定,那么传统的确定性方案可能已经足够。没必要为了“Agent”而强行引入复杂性。换言之,AI Agent最能体现价值的是那些高度复杂、多变、需要智能判断的场景,而非任何自动化都要用LLM来大材小用。 构建 AI Agent 的三大组件 要构建一个AI Agent,无论简单还是复杂,都离不开以下三大核心组件:模型、工具和指令 。它们分别对应了Agent的“大脑”、“手脚”和“行为准则”,共同决定了Agent能做什么以及如何行动。 模型 首先是选择合适的**大型语言模型(LLM)**作为Agent的大脑。模型提供了Agent理解上下文、推理决策的智能基础。OpenAI在指南中给出的模型选型策略非常务实:先使用能力最强的模型构建原型,再逐步优化 。 具体做法是:一开始直接用当前最先进的模型(例如GPT-4)来搭建Agent的核心逻辑,以此测试Agent在理想条件下能达到的效果上限 。有了这个“天花板”基准后,再考虑在某些步骤换用更小、更快或更便宜的模型(比如精简版的GPT-4或GPT-3.5等),评估性能是否仍能满足需求。通过这种渐进替换,逐步降低成本和延迟,同时确保关键步骤的智能水平不受影响。在模型选型中,要时刻权衡任务复杂度、响应速度和成本,找到最佳平衡点。 工具 工具是Agent与外部世界交互的桥梁,相当于Agent可以使用的“手”和“脚”。通过工具,Agent才能超越语言输出,真正对外执行动作、获取信息。例如,Agent可以调用外部API查询数据库,读取PDF文件内容,发送邮件,甚至操作用户界面的模拟点击等。没有工具,Agent只能“纸上谈兵”;借助工具,Agent才能影响真实世界的状态。 OpenAI将工具大致分为三类: 数据类工具(Data): 用于获取执行任务所需的信息和上下文,例如数据库查询、网页搜索、读取文档等。这类工具让Agent能获得知识和数据支撑。 行动类工具(Action): 用于对外部系统执行具体操作,从而改变外部状态,比如发送通知、下单、更新数据库记录等。Agent通过这些工具实现实际的任务执行。 编排类工具(Orchestration): 特殊的一类工具,其中一个Agent本身可以被封装成工具,供另一个Agent调用。这为多Agent协作提供了机制(后面会详细介绍),例如一个“主管”Agent可以把特定任务交给封装成工具的“专家”Agent去完成。 在设计工具接口时,指南强调要遵循标准化定义、清晰文档、充分测试和可复用的原则。也就是说,每个工具的功能、输入输出要定义明确,附带良好的使用文档,并经过严格测试。这有助于Agent正确识别和调用工具,也方便团队复用工具避免重复造轮子。此外,尽量赋予工具有限且安全的能力边界——例如只读查询 vs 修改操作要区分——以免Agent滥用工具导致风险。 指令 指令(又称 Prompt 或提示)是赋予Agent行为准则和角色定位的关键。高质量的指令对于Agent的表现至关重要,甚至比普通LLM应用更为重要。指令定义了Agent的目标、步骤和应遵循的规范,相当于对Agent的“工作说明书”。 编写Agent指令的最佳实践包括: 参考现有文档: 充分利用你已有的标准操作流程(SOP)、客服脚本、政策文件等资源,把这些内容转化为LLM可理解的指令。现成的业务文档是极好的素材,可以确保指令专业且符合业务要求。 拆解复杂任务: 将冗长复杂的任务拆分成一系列更小、更明确的步骤。每一步聚焦一个子任务,便于模型逐步执行,也降低出错概率。例如,不要让Agent“一步完成客户投诉处理”,而是拆成“1. 获取用户信息;2. 查找订单记录;3. 根据政策决定补偿措施;4. 回复用户”等等。...

April 24, 2025 · 1 min · fisherdaddy

ReAct:一种将推理与行动相结合的语言模型新范式

大型语言模型(LLM)在许多任务上表现出惊人的能力。一方面,通过“链式思维”提示(Chain-of-Thought, CoT)让模型在给出答案前先生成一系列逐步推理,可以大幅提升模型在数学推导、常识推理等方面的表现。但仅靠内部推理的模型缺乏对外部世界的连接:模型只能依据内部存储的知识进行推理,无法动态获取新信息或校正认知偏差。另一方面,近期也有工作探索让预训练语言模型用于规划和执行动作,例如在文本游戏、网页导航、机器人控制等交互环境中让模型输出动作序列。这种“行动”范式侧重于从文本上下文映射到操作命令,却缺乏高层次的抽象推理和长期规划,模型也没有显式的工作记忆去支持长序列决策。 现实中,人类解决复杂问题时往往将内在思考与外在行动交替进行:我们会一边在脑海中思考步骤、一边与环境互动获取所需信息或实施方案。例如做菜时,我们会在每个步骤之间用语言自我提醒下一步计划,必要时查阅食谱或网上搜索信息,然后继续动手实践。受此启发,谷歌大脑团队提出了一种新方法 ReAct(Reason + Act),希望让语言模型也能像人类一样边“想”边“做”。简单来说,ReAct 让模型在解决问题时同时产生推理轨迹(reasoning traces,即链式思考过程)和动作指令(actions,用于查询工具或与环境交互),二者交替进行,互相协作。这种推理与行动的紧密融合被称为“ReAct”范式,它显著区别于传统只推理或只行动的提示方法,展现出更强的决策能力和可解释性。 ReAct 的核心思想与传统提示方法的区别 ReAct 方法的核心思想在于:将“推理”(Reasoning)和“行动”(Acting)这两种能力融合到同一个语言模型的输出序列中。模型不再只是给出最终答案或纯粹的一串动作命令,而是以交替的方式生成**“思考”和“行动”**两种内容。例如,模型面对一个问题时,可能先输出:“我需要先查找相关信息”(这是推理的一部分),接着输出一个具体行动如“搜索[X]”,然后根据检索到的结果继续推理,接着再执行下一个行动,如此反复,直到得到答案。 这一范式与传统提示方法有显著区别: 区别一:链式思维提示 vs ReAct:传统的链式思维(CoT)提示让模型在回答前生成一段隐藏的推理过程,但这个推理只是内部文字,不会与外部交互。模型只能依据已有知识推理,一旦遇到知识盲点可能产生谬误或幻觉内容。相比之下,ReAct 会在推理过程中引入动作,允许模型在需要时主动查询外部知识库或环境,获取最新的信息来支撑后续推理。这样模型的思考过程不再是闭门造车,而是可以实时查证和更新。 区别二:动作规划提示 vs ReAct:以往让模型执行动作的方案(例如让模型直接输出操作序列去玩游戏或控制机器人)通常没有显式的推理过程。模型根据当前观察直接产出下一个动作,缺少对全局目标的抽象思考,也没有记录“为什么”采取某行动的理由。这容易导致模型在复杂任务中迷失方向或无法长期规划。ReAct 则在动作之间插入推理步骤,模型会用自然语言总结现状、规划策略,并将这些中间思路保留下来作为“内在记忆”,指导后续行动。因此,ReAct 既有链式推理的深度思考,又有动作执行的环境交互,两者相辅相成。 简而言之,传统提示要么让模型闷头“想”(CoT),要么让模型不加思索地“做”(直接行动),而 ReAct 让模型一边“想”一边“做”,形成闭环。这种协同带来的好处是明显的:研究表明,将推理与行动相结合的 ReAct 模型往往优于仅有推理或仅有行动的模型,在各种任务上取得更好的效果。 图1:传统方法 vs ReAct 的对比。上方两图:仅推理(左)和仅行动(右)的模式。下方:ReAct 模式中,语言模型(LM)既产生推理轨迹又发出动作指令,与外部环境(Env)交互,形成一个闭环。推理过程更新模型内部状态,行动则引入环境反馈,两者协同工作。 推理与行动如何在 ReAct 中结合 那么,ReAct 是如何实现推理和行动的交替结合的呢?其关键在于对语言模型的输出格式和推理流程进行了精心设计。具体来说,ReAct 将模型解决任务的过程表示为一个由**“Thought”(思考)、“Action”(行动)和“Observation”(观察结果)交替组成的序列**。模型通过Few-shot提示学习,在同一段对话中按照这种格式进行推理和操作: 思考(Thought):模型用自然语言描述当前它对任务的理解、下一步计划或需要的信息。例如面对一个疑问,模型可能在Thought中自问:“现在我需要找出X的出生年份,或许可以先搜索X的维基百科页面。”这些推理文字不会直接影响外部环境,但会更新模型内部的工作记忆,帮助模型理清思路和规划后续动作。 行动(Action):基于上一步的思考,模型决定执行一个具体动作。动作通常以特殊格式表示,例如Search[...]表示搜索查询,Lookup[...]表示在当前文档中查找关键词,Goto[...]表示导航到某处,或者Finish[...]用于给出最后答案等。这一步会提交给外部环境或工具执行,比如调用一个知识库API、浏览网页或与游戏环境交互。可以把Action看作模型对外部的指令输出。 观察(Observation):外部环境根据模型的Action返回结果,这成为模型可以“看到”的新信息。比如调用维基百科API后,会返回相应条目的内容摘要;在游戏环境中执行动作,会返回环境的新描述状态。Observation相当于模型从外部获取到的反馈,这会被附加到模型的上下文中。 模型会重复交替产生Thought → Action → Observation的步骤,直到达到解决任务的条件。最终,模型会通过一个特殊的Finish[答案]动作来结束任务并给出答案。 在这个过程中,推理和行动互相促进: **推理指导行动:**模型通过Thought总结当前需要什么信息或下一步怎么做,然后据此选择合适的Action。这避免了盲目动作,使每一步操作都有明确的目的。例如模型可能推理出“要回答这个问题,我需要先找人物X的出生年份”,于是执行Search[X 出生年份]的动作。 **行动反馈丰富推理:**每次Action得到Observation后,模型会在随后的Thought中消化这条新信息,更新自己的知识和计划。例如当搜索结果返回某人物出生于“1980年”,模型在下一个Thought中会记下这一点,并进一步推理下一步需要的信息。如果发现搜索结果不相关,模型也可以在Thought中反思并调整策略。 通过这种循环,模型可以一边获取新信息一边调整推理,就像人类在解决问题时不断地“边查边想”一样。值得一提的是,在ReAct中推理内容不会直接对环境生效,因此模型可以放心地进行假设和中间推演;而只有明确标记为Action的内容才会执行,确保与外部交互的操作是经过思考决定的。这一机制让模型能够处理更长的推理链和复杂的目标,因为它可以随时通过行动获取所需的信息,并通过推理整合这些信息。 结合推理和行动带来的能力提升 融合推理与行动的ReAct方法,为语言模型带来了多方面的能力提升: 检索外部知识,减少幻想和错误:纯粹依赖训练记忆的模型在回答超出其知识范围的问题时,容易编造不准确的内容(即“幻觉”现象)。ReAct 通过引入检索行动,让模型能够实时查阅权威资料,从而显著降低了幻觉和推理链错误传递的问题。例如在回答需要多跳推理的问答任务时(如HotpotQA),仅有链式思维的模型可能基于不完整的内部知识产生错误中间结论,最终答案也偏离事实。而使用ReAct,模型可以调用维基百科API获取真实信息,不确定的推断可以及时被查证修正,其推理过程更加基于事实而非凭空想象。 复杂决策能力与环境交互:对于需要多步骤决策的任务(如解谜游戏、机器人操作),ReAct 提升了模型的规划和决策能力。由于模型在行动前可以用Thought考虑整体目标、分解子任务,它更擅长长程规划和在意外情况下调整策略。同时,每一步动作的观察反馈让模型对环境变化做出反应,避免一条路走到黑。例如,在ALFWorld这样交互式文本游戏中,纯“行动”模型往往缺乏全局观,可能在复杂任务中漏掉关键步骤。而ReAct模型会在关键节点插入推理,总结当前进展和下步目标,使得成功率大幅提高。 工具使用灵活性:ReAct 框架下,动作可以视作调用外部工具的接口。这意味着模型不仅限于检索知识,还可以执行各种操作,例如计算、API查询、数据库检索、网页点击等等。通过Few-shot示例教会模型不同的动作语法,LLM能够灵活地调用多种工具来完成任务。这种能力拓展使得语言模型可以解决更广泛的问题,例如在WebShop任务中,模型需要像用户一样浏览购物网站查找商品并做出购买决策。ReAct 提供了结构化的方式让模型运用工具:推理步骤决定何时用何种工具,行动步骤实际执行工具操作。这种设计相比黑箱式的工具使用更透明可控,也更高效。 过程可解释性与可控性:由于ReAct让模型显式地输出思考过程,每一步推理和决策都有据可循,整个任务求解轨迹对人类来说是透明的。这种可解释性带来两个好处:一是增加了可信度,因为我们可以看到模型依据哪些事实和逻辑得到最终答案,而不是凭直觉直接给出结果。二是便于诊断和纠偏:如果模型中途走偏,人类可以检查其Thought发现问题所在,并及时干预。例如研究者展示,在模型解ALFWorld任务时,只需人工修改两处错误的思考文字,模型后续的行为就能被纠正并成功完成任务。这种人类在环的干预在传统模型中难以实现,因为大多数模型没有显式的中间决策可供检查。借助ReAct,我们可以把人类的常识和监督直接融入模型的推理过程中,实现更高程度的人机协作。 综上,ReAct 将LLM的推理优势和工具交互能力融为一体,使模型在准确性、决策力、灵活性和可解释性等方面都得到提升。这种综合能力在很多任务中转化为了性能上的领先。 提示设计的技术细节与示例 要让语言模型学会ReAct的模式,关键在于设计合适的提示(prompt)。研究中采用的方法是提供**少数几个示例(few-shot)**来演示如何同时进行推理和行动。一个ReAct提示通常包括如下要素: 任务示例:首先展示1-2个完整的任务求解案例,每个案例从问题到答案的全过程都用Thought/Action/Observation的形式写出。 人工示范的推理与动作:在这些示例中,研究人员手工编写了合理的思考过程和相应的动作序列。例如在一个问答示例中,Thought可能写道“这个问题涉及人物X的生平,我需要查找X出生于哪一年”,接着Action示范Search[X]去搜索X,Observation则列出搜索结果的一部分,然后下一个Thought分析结果是否包含所需信息,如没有则决定换个关键词搜索,依此类推,直到Action给出Finish[答案]。 环境反馈的体现:示例中每次Action之后,都紧跟着展示该动作的结果(Observation)。这教会模型在产生下一步思考时,要将新获取的信息纳入考虑。例如:“Observation: ‘X出生于1980年。’”然后Thought可以利用这一事实继续推理。 通过上述few-shot示例,模型在提示中学习到输出格式(Thought、Action、Observation的顺序)以及推理-行动协同的策略。当提示之后实际提出新问题时,模型就会模仿示例的格式和思路来作答。...

April 24, 2025 · 1 min · fisherdaddy

如何看待 AI 智能体框架 • Harrison Chase

本文是 LangChain CEO Harrison Chase 在 OpenAI 发布了一份关于构建智能体 ( agents ) 的指南之后写的一篇文章,这篇文章主要用于指出 OpenAI 的智能体指南中的一些误导性观点,并给出了自己的一些看法。 定义区分: 工作流 (Workflows):通过预定义代码路径编排 LLM 和工具,可预测性高。 代理 (Agents):LLM 动态指导自身流程和工具使用,灵活性高。作者更倾向于 Anthropic 对此的精确技术定义。 代理失败原因:LLM 表现不佳通常源于上下文问题,如:系统提示不完整、用户输入模糊、工具描述/访问不当、未传入正确上下文、工具响应格式不佳等。 LangGraph 特点: 提供底层编排能力(节点 Nodes 和边 Edges)。 支持声明式(图结构)和命令式(节点/边内部逻辑)编程。 内置持久化层,支持容错、短期/长期记忆。 支持“人在回路”(human-in-the-loop)和“人监控回路”(human-on-the-loop)模式。 内置流式处理(streaming)支持。 与 LangSmith 集成,提供调试、评估和可观测性。 框架价值:除了代理抽象,好的框架还应提供:短期/长期记忆管理、人机交互支持、流式输出、调试/可观测性、容错机制等。这些价值对工作流和代理都适用。 对 OpenAI 指南的批评:作者认为 OpenAI 的指南: 错误地将 LangGraph 等声明式方法描绘为繁琐且不灵活。 混淆了“声明式 vs 命令式”与“工作流 vs 代理”以及“抽象”的概念。 声称 Agents SDK 等“非声明式”(实为抽象)方法更灵活、“代码优先”,作者认为这与事实相反。 未能抓住构建可靠代理系统的核心挑战(上下文控制)和框架应提供的核心价值(可靠的编排层)。 多代理系统:关键在于代理间的通信机制,工作流常用于组织多个代理的协作。 框架对比:作者提供了一个电子表格链接,用于比较 LangGraph, Agents SDK, CrewAI, AutoGen 等多种框架在不同维度(如编排 vs 抽象、特性支持)上的表现。 原文:如何看待 AI 智能体框架 总结:...

April 24, 2025 · 6 min · fisherdaddy

下半场 • Shunyu Yao

本文是 OpenAI 研究员的 Shunyu Yao 在个人博客发表的一篇文章,主要探讨了人工智能 (AI) 领域正经历一个重要的转折点,从专注于开发新训练方法和模型的“上半场”进入到侧重于定义问题和评估实际效用的“下半场”。 AI 发展的阶段性转变: AI 领域正从以方法和模型创新为主导的“上半场”过渡到以问题定义和评估为核心的“下半场”。 上半场的特征: 重点是开发新的训练方法(如 Transformer)和模型(如 AlexNet, GPT-3),并通过在基准测试(如 ImageNet, WMT'14)上取得进展来衡量成功。方法创新被认为比任务定义更重要、更具影响力。 下半场的催化剂: 一个包含大规模语言预训练、数据与计算规模、以及推理与行动概念的“配方”已经成熟,特别是强化学习 (RL) 实现了泛化。这个配方使得在各种基准上取得进展变得更加标准化和工业化。 下半场的焦点: 由于现有方法足以解决许多基准问题,未来的重点应转向定义 AI 应该做什么,以及如何衡量其在现实世界中的真实效用 (utility)。这需要根本性地反思和创新评估方法。 思维模式的转变: 从业者需要像产品经理一样思考,质疑现有评估假设(如自主性、独立同分布 i.i.d.),并创建更贴近现实应用场景的新评估范式。 原文:下半场 tldr: 我们正处于人工智能 (AI) 的中场休息。 几十年来,人工智能 (AI) 主要致力于开发新的训练方法和模型。而且这很奏效:从击败国际象棋和围棋的世界冠军,到在 SAT 和律师资格考试中超越大多数人类,再到获得国际数学奥林匹克 (IMO) 和国际信息学奥林匹克 (IOI) 金牌。这些历史书中的里程碑——DeepBlue、AlphaGo、GPT-4 和 o-series——背后是人工智能方法的基础创新:搜索、深度强化学习 (deep RL)、扩展 (scaling) 和推理 (reasoning)。技术一直在不断进步。 那么现在有什么突然不同了呢? 用三个词来说:强化学习 (RL) 终于奏效了。更准确地说:强化学习终于可以泛化了。经过几次重大的弯路和一系列里程碑的积累,我们找到了一个行之有效的配方,可以使用语言和推理来解决各种强化学习任务。即使在一年前,如果你告诉大多数人工智能研究人员,一个单一的配方可以处理软件工程、创意写作、IMO 级别的数学、鼠标和键盘操作以及长篇问答——他们会嘲笑你的异想天开。这些任务中的每一项都极其困难,许多研究人员甚至会将整个博士生涯专注于其中一个狭窄领域。 然而,这一切成为了现实。 那么接下来会发生什么?人工智能的下半场——从现在开始——将把重点从解决问题转向定义问题。在这个新时代,评估变得比训练更重要。我们不再仅仅问“我们能否训练一个模型来解决 X?”,而是问“我们应该训练人工智能做什么,以及如何衡量真正的进步?”。为了在这个下半场取得成功,我们需要及时转变思维模式和技能组合,这些可能更接近产品经理所需的能力。 上半场 为了理解上半场,看看它的赢家。你认为迄今为止最具影响力的人工智能论文是什么? 我试了试斯坦福 224N 的测试题,答案并不令人意外:Transformer、AlexNet、GPT-3 等。这些论文有什么共同之处?它们提出了一些基础性的突破来训练更好的模型。同时,它们通过在一些(显著的)基准测试上展示改进成功发表了论文。 然而,存在一个潜在的共性:这些“赢家”都是训练方法或模型,而不是基准测试或任务。即使可以说是最具影响力的基准测试 ImageNet,其引用次数也少于 AlexNet 的三分之一。方法与基准测试的对比在其他任何地方都更加剧烈——例如,Transformer 的主要基准测试是 WMT’14,其工作坊报告有约 1,300 次引用,而 Transformer 有超过 160,000 次引用。...

April 24, 2025 · 2 min · fisherdaddy

生成式 AI 项目的自动化评估的迭代构建法 • Andrew Ng

本文是 Andrew Ng 在 Deeplearning.AI 官方网站发布的一篇文章。Andrew Ng 指出,在开发生成式 AI ( GenAI )应用时,许多团队过晚引入自动化评估( evals ),并过度依赖人工评估,因为他们将构建 evals 视为一项庞大的前期投资。作者提倡采用迭代方法来构建 evals ,即从简单、快速的版本开始,然后逐步改进,从而更早地利用自动化评估加速项目进展。 延迟原因:构建 evals 被视为需要大量前期工作(如创建数百甚至上千示例、设计和验证指标),且 LLM-as-judge 等现有技术实施细节复杂,让人觉得不如暂时依赖人工评估。 迭代构建 evals 的方法: 从小规模开始:可以从极少数示例(例如 5 个)开始,并根据需要逐步增加或删减。 评估部分维度:初期可以只关注部分核心性能指标,或那些与整体性能相关的、易于测量的指标,无需追求一开始就全面覆盖。 具体示例: 对于客服机器人,初期可只评估是否正确调用了退款 API ,暂不评估回复消息的质量。 对于产品推荐机器人,初期可只检查是否提及了正确的产品,而不必关心具体描述方式。 双重迭代循环:开发过程包含两个并行的迭代: 迭代改进 AI 系统本身(依据自动化 evals 和人工判断)。 迭代改进 evals 本身,使其评估结果更贴近人工判断。 成功 evals 的标准: 如果人工判断系统 A 显著优于 B,则 evals 应给予 A 显著更高的分数。 如果 A 和 B 性能相似,则 evals 分数也应相近。 Evals 的“错误分析”:当 evals 对系统 A 和 B 的排序与人工判断不符时,应视其为 evals 本身的“错误”,并对其进行调整优化,使其能正确反映系统间的相对性能。 最终建议:尽管项目初期依赖人工判断是可行的,但尽早引入简单的自动化 evals 并持续迭代,能更有效地加速 GenAI 应用的开发进程。 原文 Dear friends,...

April 22, 2025 · 1 min · fisherdaddy

介绍一下 OpenAI o3 和 o4-mini

OpenAI 于 2025年 4 月 17 日推出了 o3 和 o4-mini,这两款模型在智能和能力上都代表了显著的进步,特别是它们能够在其响应前进行更长时间的“思考”,并且首次实现了对 ChatGPT 内所有工具(如网页搜索、使用 Python 进行数据分析、视觉输入推理、图像生成等)的自主、智能调用和组合。 新模型发布: OpenAI 推出了其 o 系列中迄今为止最智能、能力最强的模型——o3 和 o4-mini。 核心能力提升: 这两款模型被训练用于更深度的推理(“思考更长时间”),显著提升了 ChatGPT 的能力。 全面的工具集成: 模型首次能够自主地(agentically)决定何时以及如何使用 ChatGPT 内的所有工具(网络搜索、代码执行、视觉分析、图像生成等)来解决复杂问题。 迈向智能代理: 这是向更具自主性的 ChatGPT 迈出的一步,使其能够独立代表用户执行多方面任务。 性能新标杆: 结合了顶尖的推理能力和全面的工具使用,使得模型在学术基准测试和现实世界任务中表现显著增强,树立了智能和实用性的新标准。 模型定位: o3 是功能最强大的前沿模型,适用于复杂分析;o4-mini 则为速度和成本效益进行了优化,适合需要推理能力的大容量、高吞吐量任务。 介绍 OpenAI o3 和 o4-mini 我们迄今为止最智能且功能最强大的 AI 模型,并赋予了它们完整的工具使用权限 今天,我们发布 OpenAI o3 和 o4-mini,这是我们 o 系列模型中的最新成员,这些模型经过训练,可以在响应之前进行更深入的思考。 它们是我们迄今为止发布的最智能的 AI 模型,代表着 ChatGPT 在能力上的一次飞跃,惠及从普通用户到高级研究人员的每一个人。 我们的推理模型首次能够以智能代理式地使用和组合 ChatGPT 中的每一个工具——包括网络搜索、使用 Python 分析上传的文件和其他数据、对视觉输入进行深入推理,甚至是生成图像。 关键在于,这些模型经过专门训练,能够判断何时以及如何使用工具,以正确的输出格式(通常在一分钟内)生成细致且周到的答案,从而解决更为复杂的问题。 这使得它们能够更有效地处理多方面的问题,朝着更具智能体 (AI Agent) 能力的 ChatGPT 迈出了一步,让 ChatGPT 能够代表您独立执行任务。 这种最先进的推理能力与完整工具访问权限的结合,转化为在学术基准和实际任务中性能的显著提升,为智能和实用性都树立了新的标杆。...

April 17, 2025 · 3 min · fisherdaddy

介绍一下 GPT-4.1 系列模型

OpenAI 于 2025年 4 月 15 日推出了 GPT-4.1 系列 API 模型:GPT-4.1、mini 及 nano。相较于 GPT-4o 和 GPT-4o mini,这些模型在各方面都实现了超越,尤其在代码生成和指令执行上的提升尤为显著。不仅如此,它们还拥有更大的上下文窗口,最多可处理 100 万个 Token,并能凭借更出色的长文本理解能力,充分利用这些上下文信息。同时,它们的知识库也已更新至 2024 年 6 月。 新模型发布: OpenAI 推出了 GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano 三款 API 专用模型。 性能提升: 新模型在编码、指令遵循和长文本理解能力上全面优于 GPT-4o 和 GPT-4o mini。 长文本支持: 所有新模型均支持高达 1 million tokens 的上下文窗口,并提升了长文本理解的可靠性。 成本与效率: 新模型旨在以更低的成本和延迟提供更优的性能,特别是在 GPT-4.1 mini 和 nano 版本上体现。 应用场景: 改进的性能使新模型更适用于构建复杂的 agent 系统,处理如软件工程、文档分析和客户服务等任务。 模型可用性: GPT-4.1 系列模型仅通过 API 提供。ChatGPT 中的 GPT-4o 已逐步整合相关改进。 模型弃用: GPT-4.5 Preview 将在 July 14, 2025 被弃用,开发者需迁移至 GPT-4....

April 15, 2025 · 6 min · fisherdaddy

Llama 4 综合评估:基准表现、实际能力与争议

Meta 作为人工智能领域的关键参与者,持续通过其 Llama 系列模型推动开源大语言模型的发展。继 Llama 3 取得显著成功后,Meta 于 2025 年 4 月 5 日推出了备受期待的 Llama 4 系列模型。Llama 4 引入了混合专家(MoE)架构和原生多模态等关键技术革新,Meta 公布的基准测试数据显示其在多个指标上表现优异,甚至超越了一些领先的闭源模型。然而,大量来自开发者社区和独立测试者的实际应用反馈却指出,Llama 4 在编码、推理等方面的实际表现并未达到预期,甚至不如一些参数量更小的模型。这种基准分数与实测能力之间的显著差异,引发了关于 Llama 4 是否存在针对性“刷榜”以及模型真实能力的广泛讨论和质疑。 今天正好 Google 更新了 DeepResearch:由原来基于 Gemini 2.0 Flash Thinking 模型,改为基于 Gemini 2.5 pro 模型(目前已公开的最强模型),结果准确率大幅提升。Google 放出来了和 OpenAI DeepResaerch 的对比评测,我也尝试了一些 case,确实比上个版本好很多。本篇文章大部分由 Gemini 的 DeepResearch 所写,我对结果进行了编排、校审和微调。 Llama 4 模型家族概览 Llama 4 系列是 Meta 推出的新一代 AI 模型,旨在支持整个 Llama 生态系统,并被 Meta 称为其迄今最先进的模型。该系列引入了混合专家(MoE)架构和原生多模态设计。目前已发布和预告的模型包括: Llama 4 Scout: 这是一款轻量级、高效率的模型,拥有 109B 总参数和 16 个专家,每次推理激活 17B 参数。Scout 的突出特点是其业界领先的 1000 万 token 上下文窗口,远超 Llama 3 的 128K。它被设计为可在单个 NVIDIA H100 GPU 上通过 Int4 量化高效运行,适用于通用 AI 任务,尤其擅长处理超长文档摘要、大规模代码库推理和个性化任务。Meta 称 Scout 是其同类产品中“世界上最好的多模态模型”。 Llama 4 Maverick: 这款模型同样拥有 17B 激活参数,但总参数量达到 400B,并配备了 128 个专家。Maverick 被定位为通用主力模型,特别适用于助手和聊天场景,在图像理解、创意写作和多语言处理方面表现出色。它支持 100 万 token 的上下文窗口,并可在单个 H100 主机(或多 GPU)上运行。Meta 称 Maverick 在多个基准测试中击败了 GPT-4o 和 Gemini 2....

April 9, 2025 · 6 min · fisherdaddy

赋能于民:大语言模型如何改写技术普及的剧本 • Andrej Karpathy

本文来自 Andrej Karpathy 在 X 上发布的一篇文章《Power to the people: How LLMs flip the script on technology diffusion 》。核心观点是,大型语言模型( LLMs )的技术扩散模式颠覆了传统技术自上而下(从政府/企业到个人)的传播路径。 LLMs 目前为普通个体带来了前所未有的、不成比例的巨大利益,其影响在企业和政府层面反而相对滞后。这是因为 LLMs 提供了广泛但相对浅显的能力,极大地赋能了缺乏多领域专业知识的个人;而组织机构在利用这种新技术时,则面临着整合复杂性、高风险以及内部惯性等挑战。尽管当前 LLMs 的普惠性是历史性的,但未来的技术发展和成本结构可能改变这种“利益分配”格局。 传统技术扩散:历史上,变革性技术(如电力、计算机、互联网、 GPS )通常遵循从政府/军事到企业再到个人的“自上而下”路径,因为早期技术稀缺、资本密集且需要专业知识。 LLMs 的独特路径: LLMs (以 ChatGPT 为例)显著逆转了该模式。 ChatGPT 成为史上增长最快的消费应用,拥有 4 亿周活跃用户,广泛用于写作、编码、翻译、学习、研究等个人任务。 个体受益显著的原因: LLMs 大幅提升了个人在多个陌生领域的能力水平。 使用门槛极低:成本低廉(甚至免费)、快速、易于通过网络或本地设备访问,并支持自然语言交流。 企业/政府受益相对有限的原因: 能力匹配度: LLMs 提供的是“准专家级”的广泛但浅显、可能出错的能力。而组织的核心优势在于整合深度专业知识。 LLMs 更多是提升现有专家的效率,而非带来颠覆性改变。 复杂性与风险:组织运营涉及更高的复杂性(系统集成、遗留系统、安全、隐私、合规)和更低的容错率,难以简单应用 LLMs ,且“幻觉”等错误的代价高昂。 组织惯性:企业文化、政治因素、沟通成本、培训挑战和官僚主义阻碍了对这种新型、多才多艺但尚不完全可靠工具的快速采纳。 当前的普惠性:目前,普通人( Mary , Jim , Joes )比大型组织(如 Google 或美国政府)更能体验到 LLMs 带来的改变。前沿模型如 GPT 4o 对所有人(包括 Bill Gates )都同样可及。 未来展望与不确定性: LLMs 的持续影响取决于性能的提升。 “利益分配”格局可能改变。如果未来获取更强 AI 能力需要高昂成本(性能与资本支出挂钩),大型组织和富裕个体可能重新获得优势(例如,使用 GPT-8-pro-max-high 对比 GPT-6 mini )。 影响因素包括:扩大性能差距的技术(如规模扩展、模型集成)和缩小差距的技术(如模型蒸馏)。 作者的感慨:当前的局面——强大的 AI ( ChatGPT )几乎一夜之间免费普及到每个人的口袋里——是独特且出乎意料的,与许多科幻设想不同。引用并修正 William Gibson 的名言:“未来已来,且分布惊人地均匀”。作者对此表示赞赏(“权力归于人民”)。 原文:赋能于民:大语言模型如何改写技术普及的剧本 变革性技术通常遵循自上而下的扩散路径:它们往往起源于政府或军事部门,然后逐渐普及到企业,最终进入个人手中——比如电力、密码学、计算机、航空、互联网或 GPS。这种发展路径似乎是理所当然的,因为新兴的强大技术在早期通常比较稀缺,需要大量的资金投入,而且使用它们还需要专业的技能。...

April 8, 2025 · 1 min · fisherdaddy