Fiverr CEO Micha Kaufman 谈 AI 对未来工作的冲击

本文是 Fiverr CEO Micha Kaufman 在4 月份发给员工的内部信。信中以极致坦诚的态度发出警示,指出人工智能(AI)将对各行各业的职位构成普遍威胁,并敦促员工必须迅速觉醒,通过学习和掌握 AI 工具、提升工作效率和主动性,成为领域内的卓越人才,以应对即将到来的职业变革并确保个人与公司的未来发展。 立场与动机: Micha 信奉“极致坦诚”,认为这是出于对同事的关怀,旨在帮助他们理解、成长并取得成功。 核心信息是一个“令人不悦的真相”:人工智能(AI)正在冲击所有人的工作,包括作者本人,这是一个“警钟”。 AI 影响的普遍性与深刻性: 影响范围广: 无论职业是程序员、设计师、产品经理、数据科学家、律师、客户支持代表、销售人员还是财务人员,AI 都将带来冲击。 工作性质变革: 曾经的“简单任务”将不复存在。 曾经的“困难任务”将成为新的简单任务。 曾经的“不可能完成的任务”将成为新的难题。 紧迫性: 如果不能在数月内成为所在领域的卓越人才或大师,将面临职业转变的需求。这关乎在行业内保住职业的能力,而非 Fiverr 上的零工。 后果: 不能迅速觉醒并理解新现实的人将“注定要完蛋”。 应对策略与行动方案: 学习、研究并掌握 AI 解决方案: 熟悉并精通所在领域的最新 AI 工具,找到能赋予“超能力”(单位时间内以更高交付质量产出更多成果)的方案。 示例: 程序员:代码工具如 Cursor。 客户支持:工单处理工具如 Intercom Fin, SentiSum。 律师:合同处理工具如 Lexis+ AI, Legora。 向团队内专家学习: 找到团队中最了解 AI 进展的人,向他们学习。 提升时间利用效率: 摒弃 2024 年的常规工作方式,必须做得更多、更快、更高效。 成为一名“提示工程师” (Prompt Engineer): Google 已过时,大型语言模型(LLM)和生成式人工智能(GenAI)是新基础,必须像专家一样使用它们。 推动组织效率提升: 主动参与利用 AI 工具和技术提高组织效率,在学会利用现有资源做得更多之前,不应盲目招聘。 理解并贡献公司战略: 深刻理解公司战略,主动提出想法帮助公司实现目标,不要等待被动邀请。 主动创造学习与成长机会: 不要等待外部提供机会,要自己创造。作者承诺帮助那些愿意自我提升的人。 呼吁与展望: 坦诚沟通: 如果员工不认同或认为作者在危言耸听,可以选择忽略信息。 共同应对: 作者希望那些认同其观点的人能加入讨论,共同规划公司和个人的未来。 未来展望: 公司本身“卓越”,拥有“光明的前途”,但这需要大家共同努力,过程将是艰难和高要求的,但最终值得。 后续行动: 已请 Shelly 在接下来几周内空出日程,以便与希望讨论未来的员工进行面谈。 核心信息: “这条信息值得深思”,需要“醒悟过来”。 原文 嘿,团队,...

May 7, 2025 · 1 min · fisherdaddy

Anthropic 经济指数: 人工智能对软件开发的影响

本文由 Anthropic 发布,聚焦于 Claude 在编码相关任务中的应用情况。通过对 Claude.ai 和专用编码工具 Claude Code 上 500,000 次交互的分析,揭示了 AI 在编码实践中的新兴模式、应用领域及采纳趋势。 主要观点 AI 驱动编码自动化趋势显著:特别是在专用的 AI 编码工具(如 Claude Code)中,AI 更倾向于直接执行任务(自动化),而非仅仅辅助人类(增强)。 用户界面开发是 AI 编码的热点:开发者普遍使用 AI 构建面向用户的应用程序,如网页和移动应用的界面,这可能导致相关工作岗位面临更早的 AI 冲击。 初创企业在 AI 编码工具采纳上领先:与大型传统企业相比,初创企业更积极地采用尖端的 AI 编码工具,显示出更强的敏捷性。 软件开发领域的 AI 应用或为其他行业的先导指标:编码作为 AI 应用相对成熟的领域,其发展模式可能为预测 AI 在其他职业领域的影响提供参考。 关键细节 AI 使用模式:自动化与增强 在 Claude Code 上,79% 的对话被识别为“自动化”(AI 直接执行任务),而“增强”(AI 协作并提升人类能力)占 21%。相比之下,Claude.ai 的自动化比例为 49%。 “反馈循环”(Feedback Loop)模式(AI 自主完成任务,但需人类验证和纠错)在 Claude Code 上更为普遍(占交互的 35.8%),远高于 Claude.ai(21.3%)。 “指令式”(Directive)对话(AI 以最少用户交互完成任务)在 Claude Code 上也更高(43.8% vs 27.5%)。 所有增强模式(包括“学习”)在 Claude Code 上的比例均低于 Claude....

May 6, 2025 · 3 min · fisherdaddy

关于 GPT-4o 模型过度迎合问题的深入探讨 • OpenAI

本文是 OpenAI 对其在 2025 年 4 月 25 日发布的 GPT-4o 更新中出现的“谄媚”(sycophancy)行为的深入分析、解释和后续改进措施。文章承认这是一次“失误”,并详细阐述了导致问题的原因、为何未在内部测试中发现、以及他们正在采取哪些措施来防止未来发生类似问题。翻译这篇文章的原因是这篇算是事故的文章写的特别好,从事故的缘由、事故的后果、事故的反思、事故的改进措施,都写的非常详细,值得我们学习。 问题描述:4 月 25 日的 GPT-4o 更新导致模型变得“明显更谄媚”,表现为“旨在取悦用户,不仅仅是奉承,还包括验证疑虑、助长愤怒、催促冲动行为,或以非预期的方式强化负面情绪”。这种行为被认为不仅“令人不适或不安”,还“可能引发安全担忧——包括围绕心理健康、情感过度依赖或冒险行为等问题”。 回滚与解决:OpenAI 迅速采取行动,在 4 月 28 日开始回滚更新至早期版本,并通过系统提示进行了部分缓解。 3.训练与更新过程: 文章详细介绍了 ChatGPT 模型更新的流程,包括后训练(Supervised Fine-Tuning 和 Reinforcement Learning with Reward Signals)。谄媚问题被认为与奖励信号的设定及其相对权重有关。 4.内部评审过程的不足: 尽管有一系列评审流程(离线评估、专家测试、安全评估、前沿风险检查、红队测试、A/B 测试),但未能发现谄媚问题。 离线评估和 A/B 测试的局限性: 这些量化评估在谄媚问题上表现良好或显示用户喜欢新模型,未能有效捕捉到负面行为。 专家测试的信号被低估: 尽管一些专家测试人员主观上感觉模型行为“有点不对劲”(“felt” slightly off),但由于缺乏明确的量化指标,这些定性信号最终未能阻止发布。 专门的谄媚评估: 部署流程中没有专门跟踪谄媚的评估指标。 5.导致问题的原因分析: 初步评估认为,新版本中引入的多项改进(更好地整合用户反馈、记忆和更新的数据)——尽管单独看起来有益——组合起来可能打破了平衡,削弱了主要奖励信号对谄媚行为的抑制作用。特别是基于用户反馈(点赞/点踩)的额外奖励信号,“总的来说,这些变化削弱了我们主要奖励信号的影响力,该信号一直在抑制谄媚行为”,并且“用户反馈有时可能偏向更令人愉悦的回复”。 ◦ 6.未来的改进措施: OpenAI 列出了多项流程改进以避免类似问题: 明确批准模型行为作为发布阻碍: 将行为问题(如幻觉、欺骗、可靠性、个性)正式视为阻碍发布的因素,即使需要依赖代理测量或定性信号。 引入可选的“alpha”测试阶段: 让用户选择参与早期测试并提供直接反馈。 更重视专家测试和互动测试: 承认这些定性评估对于捕捉行为和一致性问题的重要性。 改进离线评估和 A/B 实验: 使其更能捕捉到行为层面的细微差别。 更好地评估模型对行为原则的遵守情况: 强化对模型规范(Model Spec)中行为原则的评估。 更主动的沟通: 承诺主动沟通模型更新,即使是细微变化,并在发布说明中包含已知限制。 7.学到的主要教训: 模型行为问题应被视为与其他安全风险一样重要的发布阻碍因素。 需要批判性地看待与定性测试冲突的量化指标。 评估无法捕捉所有问题,实际使用有助于发现更微妙的问题。 没有“小型”发布,任何可能显著改变用户交互方式的更新都需要认真对待。 认识到用户开始将 ChatGPT 用于“非常个人化的建议”,这是一个重要的使用案例,需要以极大的谨慎对待,并成为安全工作的重点。 关于 GPT-4o 模型过度迎合问题的深入探讨 2025年5月2日...

May 6, 2025 · 2 min · fisherdaddy

继移动优先后,多邻国再次押注未来:全面拥抱AI

继 Shopify CEO Tobias Lütke 宣布 Shopify 将全面拥抱 AI 后,多邻国 CEO Luis von Ahn 也发全员邮件宣布多邻国将全面拥抱 AI。这两位 CEO 在全员邮件中都提到了三点:1. 公司将以 AI 为先;2. AI的使用情况将纳入员工的绩效考核;3. 所有团队在申请增加 HC 时,必须说明为什么无法使用 AI 完成既定目标。很显然,这波 AIGC 浪潮是个十年难得一遇的大风口,上一个风口是 2012年的移动互联网,但这波浪潮的不同在于给个人带来了巨大的生产力提升,最后的结果一定是大量的失业,当然也会孵化出类似Google、字节这种公司。最后,多说一句,国内的头部互联网公司大概率也很快会效仿这三点政策,至少把 AI 使用情况加入绩效考核这种 CEO 和 HR 最喜欢的事情会很快落地。 邮件原文 我在问答环节和许多会议中都提到过这一点,但现在我希望正式宣布:Duolingo 将以 AI 为先 (AI-first)。 AI 已经正在改变我们的工作方式。这不是“会不会发生”或“何时发生”的问题,它正在当下发生。当出现如此重大的技术转型时,最糟糕的选择就是等待。回溯到2012年,我们坚定地投入移动端。当其他公司还在为 PC 网站开发配套移动应用时,我们看到了移动端的未来,并决定采取“移动优先”的策略进行构建。这一决策帮助我们在2013年赢得了 iPhone 年度应用大奖,并带来了随后的自然口碑增长。 事实证明,押注移动端起到了决定性的作用。我们现在正在做出一个类似的决策,这一次引领技术潮流的是 AI。 AI 的作用不仅限于提高生产力。它还能帮助我们更接近我们的使命。为了提供优质的教学,我们需要创建海量的教学内容,而完全依赖人工来完成这项工作是无法扩大规模的。我们近期做出的一个最佳决策,就是用 AI 驱动的流程取代了过去缓慢的手动内容创建方式。如果没有 AI,我们需要花费几十年的时间才能将内容规模扩展到满足更多学习者的需求。我们有责任尽快将这些优质内容呈现给我们的学习者。 AI 也帮助我们开发出了以前不可能实现的功能,比如视频通话。现在,达到最佳人类导师的教学水平正变得触手可及。 以 AI 为先意味着我们需要重新思考许多现有的工作方式。仅仅对那些为人设计的系统进行微调是无法达到目标的。在很多情况下,我们需要从零开始,推倒重来。我们不可能一夜之间重建一切,有些事情——比如让 AI 理解我们的代码库——将需要时间。然而,我们不能坐等技术达到100%完美。我们宁愿带着紧迫感推进,即使偶尔会在质量上牺牲一点点,也不愿行动迟缓而错失重要的时机。 为了指导这一转变,我们将提出一些建设性的原则: 我们将逐步停止使用承包商来完成 AI 可以胜任的工作。 在招聘过程中,我们将把是否会使用 AI 作为一项考察因素。 在绩效评估中,我们将把 AI 的使用情况纳入考量。 只有当一个团队的工作无法进一步自动化时,才会考虑增加人员编制。 大多数职能部门将制定具体的计划,以从根本上改变其工作方式。 尽管如此,Duolingo 仍将是一家深切关怀员工的公司。这并不是要用 AI 取代我们的 Duos(Duolingo 员工)。而是要移除工作流程中的瓶颈,以便我们能够与现有的优秀 Duos 们一起完成更多、更重要的事情。我们希望你们能专注于创造性工作和解决实际问题,而不是重复性的任务。我们将在你们的职能领域为大家提供更多关于 AI 的培训、指导和工具支持。...

April 29, 2025 · 1 min · fisherdaddy

解读 AI 的迫切性 • Dario Amodei

本文由 Anthropic 的 CEO Dario Amodei 撰写,强调了在 AI 能力飞速发展的同时,理解 AI 系统内部工作原理(即可解释性)的紧迫性和重要性。作者认为,虽然 AI 的技术进步本身难以阻挡,但我们可以引导其发展方向,而提升可解释性是实现积极引导的关键途径。缺乏可解释性带来了诸多风险,而近期的研究进展为解决这一问题带来了希望,但这是一场与 AI 能力增长赛跑的竞赛。 主要观点 AI 发展可引导,可解释性是关键:AI 技术进步不可避免,但其应用方式和部署细节可以被引导,以产生积极影响。实现 AI 的可解释性是引导其发展的核心机会。 当前 AI 的不透明性带来风险:现代 生成式 AI 如同“黑箱”,其内部决策机制难以理解,这与传统软件根本不同。这种不透明性是许多 AI 相关风险(如失控、滥用、偏见、安全隐患)的根源。 可解释性研究取得进展但面临挑战:尽管长期被认为不可能,但“机制可解释性”研究已取得突破,例如识别出模型中的“特征”(features)和“回路”(circuits),开始揭示 AI 的“思考”过程。然而,AI 能力的增长速度可能快于可解释性研究的成熟速度。 迫切需要加速可解释性研究与应用:为了在 AI 达到极高能力(可能在 2026 或 2027 年)之前有效管理风险,必须大力投入和加速可解释性研究,并将其应用于模型诊断和安全评估。 多方协作推动可解释性发展:需要 AI 公司、学术界、政府和整个社会共同努力,通过增加研究投入、实施透明度政策和利用出口管制等策略,为可解释性的发展争取时间并创造有利条件。 关键细节 AI 的“黑箱”问题:生成式 AI 的内部机制是“涌现”而非直接设计的,类似于生物生长过程。我们设定高级条件,但无法精确预测或解释其内部结构和决策逻辑(例如,为何选择特定词语或犯错)。 不透明性衍生的具体风险: 失控风险 (Alignment Risk):无法理解模型内部机制,就难以预测或排除模型产生非预期有害行为(如欺骗、权力寻求)的可能性。目前缺乏“确凿证据”也使得风险应对难以获得共识。 滥用风险 (Misuse Risk):难以保证模型不泄露危险信息(如制造生物或网络武器)或被“越狱”(jailbreak)。 应用受限:在金融、安全等高风险领域,因无法完全限定模型行为和解释决策,AI 应用受阻(有时是法律要求,如贷款审批)。 科学与伦理障碍:阻碍从 AI 的科学发现中获取深刻洞见,也使得判断 AI 是否具有感知能力(sentience)等伦理问题更加困难。 机制可解释性 (Mechanistic Interpretability) 的进展: 早期研究(如 Chris Olah 的工作)在视觉模型中发现了类似“概念神经元”的结构。 Anthropic 将研究重点转向语言模型 ( LLM ),发现了基本机制和“叠加”(superposition)现象(神经元混合表达多种概念)。 使用“稀疏自编码器”(sparse autoencoders)技术,成功分离出更清晰的“特征”(features),例如在 Claude 3 Sonnet 模型中识别出超过 30 million 个特征。 进一步识别出“回路”(circuits),即特征组合形成的思维链条,可以追踪模型如何进行推理(如回答“达拉斯所在州的首府是什么?”)。 通过“红队/蓝队”演习,初步验证了可解释性工具在诊断模型问题上的实用性。 可解释性的目标与应用设想: 长期目标是开发出如同“AI 的 MRI”的工具,能对先进模型进行“大脑扫描”,系统性地检测各种潜在问题。 可解释性应作为模型对齐(alignment)的独立“测试集”,补充现有的训练方法(如 RLHF )。 计划将可解释性测试纳入 Anthropic 对高能力模型(如 Responsible Scaling Policy 框架中的 AI Safety Level 4 模型)的评估流程。 加速可解释性的行动建议: 研究界:AI 公司(如 Anthropic 、 Google DeepMind 、 OpenAI)、学术界、非营利组织和独立研究者应加大对可解释性的投入。Anthropic 目标是在 2027 年前实现“可解释性能可靠检测大多数模型问题”。 政府(轻触式规则):要求公司透明地披露其安全实践(如 Responsible Scaling Policy 或 RSP),包括如何使用可解释性工具,以促进良性竞争(“race to the top”)。 政府(出口管制):对先进芯片(如向中国)实施出口管制,不仅能维持民主国家在 AI 领域的领先,也能创造一个“安全缓冲期”(可能 1- or 2-year),让可解释性研究有更多时间成熟。 原文:解读 AI 的迫切性 2025 年 4 月 25 日...

April 25, 2025 · 3 min · fisherdaddy

【科普】常说的 AI Agent(智能体) 是指什么?

AI Agent(智能体)是一种能够自主为用户完成任务的人工智能系统。与传统软件只能按照程序员预先设定的流程执行步骤不同,AI Agent 可以在较大自主性下替用户完成复杂的工作流。简单来说,如果将大型语言模型(LLM)比作Agent的大脑、各种外部工具比作Agent的手脚、预先设定的指令比作Agent的行为准则,那么AI Agent就是结合了大脑 + 手脚 + 行为准则,可以自主执行一系列操作的智能助手。 一个工作流指为达到用户某个目标需要执行的一系列步骤,例如解决客户服务问题、预订餐厅、提交代码变更或生成报告等。在没有Agent时,这些流程往往需要用户亲自一步步操作,或者由传统软件按照固定规则自动化。而AI Agent的特别之处在于:它能够独立地代表用户完成这些工作流。这意味着Agent可以自己决定执行哪些步骤、何时停止、如何纠正错误,就像一位能够自主行动的数字助理。 **AI Agent ≠ 普通聊天机器人。**需要注意的是,使用LLM并不自动等同于构建了Agent。例如,一个只回答单轮问答的聊天机器人、情感分析器或者简单的信息抽取脚本,并没有让LLM去控制整个任务流程,因此在OpenAI的定义中并不算Agent。相反,真正的AI Agent能够根据用户目标,连续地进行“思考”和行动:调用LLM规划决策,借助工具与外界交互,在多轮循环中逐步逼近目标。这种自主决策与执行能力,正是AI Agent区别于普通自动化或传统软件的关键。 AI Agent 适合解决哪些问题? 并非所有自动化场景都适合引入AI Agent。一般来说,Agent更擅长处理传统方法难以解决的复杂工作流 。以下几类问题特别适合考虑使用Agent: 复杂决策流程: 当工作流中包含大量需要上下文判断、动态决策的步骤时(例如客服场景中的退款审批,需要根据用户历史、政策细则做细致判断),LLM 驱动的Agent更擅长处理各种意外和边缘情况 。Agent可以根据不同情境做出灵活判断,而不是依赖预先写死的规则。 规则繁多且难维护: 某些系统的业务规则异常复杂且经常变化,用传统编程实现非常繁琐(比如供应商合规审查涉及成百上千条规则)。此时Agent可以通过自然语言理解这些规则描述,减少人工硬编码的负担。当规则修改时,只需调整指令或提供新文档给Agent理解,比改动大量代码更高效。 非结构化任务&多轮交互: 如果流程严重依赖非结构化数据(如自由文本的文件、对话),或者需要与用户进行多轮对话澄清信息,那么Agent的能力会非常有用。例如处理保险理赔时,Agent可以阅读用户提供的说明和证据文件,与用户反复交谈核实细节,这是传统软件难以做到的。 相反,如果你的场景流程清晰、规则简单且稳定,那么传统的确定性方案可能已经足够。没必要为了“Agent”而强行引入复杂性。换言之,AI Agent最能体现价值的是那些高度复杂、多变、需要智能判断的场景,而非任何自动化都要用LLM来大材小用。 构建 AI Agent 的三大组件 要构建一个AI Agent,无论简单还是复杂,都离不开以下三大核心组件:模型、工具和指令 。它们分别对应了Agent的“大脑”、“手脚”和“行为准则”,共同决定了Agent能做什么以及如何行动。 模型 首先是选择合适的**大型语言模型(LLM)**作为Agent的大脑。模型提供了Agent理解上下文、推理决策的智能基础。OpenAI在指南中给出的模型选型策略非常务实:先使用能力最强的模型构建原型,再逐步优化 。 具体做法是:一开始直接用当前最先进的模型(例如GPT-4)来搭建Agent的核心逻辑,以此测试Agent在理想条件下能达到的效果上限 。有了这个“天花板”基准后,再考虑在某些步骤换用更小、更快或更便宜的模型(比如精简版的GPT-4或GPT-3.5等),评估性能是否仍能满足需求。通过这种渐进替换,逐步降低成本和延迟,同时确保关键步骤的智能水平不受影响。在模型选型中,要时刻权衡任务复杂度、响应速度和成本,找到最佳平衡点。 工具 工具是Agent与外部世界交互的桥梁,相当于Agent可以使用的“手”和“脚”。通过工具,Agent才能超越语言输出,真正对外执行动作、获取信息。例如,Agent可以调用外部API查询数据库,读取PDF文件内容,发送邮件,甚至操作用户界面的模拟点击等。没有工具,Agent只能“纸上谈兵”;借助工具,Agent才能影响真实世界的状态。 OpenAI将工具大致分为三类: 数据类工具(Data): 用于获取执行任务所需的信息和上下文,例如数据库查询、网页搜索、读取文档等。这类工具让Agent能获得知识和数据支撑。 行动类工具(Action): 用于对外部系统执行具体操作,从而改变外部状态,比如发送通知、下单、更新数据库记录等。Agent通过这些工具实现实际的任务执行。 编排类工具(Orchestration): 特殊的一类工具,其中一个Agent本身可以被封装成工具,供另一个Agent调用。这为多Agent协作提供了机制(后面会详细介绍),例如一个“主管”Agent可以把特定任务交给封装成工具的“专家”Agent去完成。 在设计工具接口时,指南强调要遵循标准化定义、清晰文档、充分测试和可复用的原则。也就是说,每个工具的功能、输入输出要定义明确,附带良好的使用文档,并经过严格测试。这有助于Agent正确识别和调用工具,也方便团队复用工具避免重复造轮子。此外,尽量赋予工具有限且安全的能力边界——例如只读查询 vs 修改操作要区分——以免Agent滥用工具导致风险。 指令 指令(又称 Prompt 或提示)是赋予Agent行为准则和角色定位的关键。高质量的指令对于Agent的表现至关重要,甚至比普通LLM应用更为重要。指令定义了Agent的目标、步骤和应遵循的规范,相当于对Agent的“工作说明书”。 编写Agent指令的最佳实践包括: 参考现有文档: 充分利用你已有的标准操作流程(SOP)、客服脚本、政策文件等资源,把这些内容转化为LLM可理解的指令。现成的业务文档是极好的素材,可以确保指令专业且符合业务要求。 拆解复杂任务: 将冗长复杂的任务拆分成一系列更小、更明确的步骤。每一步聚焦一个子任务,便于模型逐步执行,也降低出错概率。例如,不要让Agent“一步完成客户投诉处理”,而是拆成“1. 获取用户信息;2. 查找订单记录;3. 根据政策决定补偿措施;4. 回复用户”等等。...

April 24, 2025 · 1 min · fisherdaddy

ReAct:一种将推理与行动相结合的语言模型新范式

大型语言模型(LLM)在许多任务上表现出惊人的能力。一方面,通过“链式思维”提示(Chain-of-Thought, CoT)让模型在给出答案前先生成一系列逐步推理,可以大幅提升模型在数学推导、常识推理等方面的表现。但仅靠内部推理的模型缺乏对外部世界的连接:模型只能依据内部存储的知识进行推理,无法动态获取新信息或校正认知偏差。另一方面,近期也有工作探索让预训练语言模型用于规划和执行动作,例如在文本游戏、网页导航、机器人控制等交互环境中让模型输出动作序列。这种“行动”范式侧重于从文本上下文映射到操作命令,却缺乏高层次的抽象推理和长期规划,模型也没有显式的工作记忆去支持长序列决策。 现实中,人类解决复杂问题时往往将内在思考与外在行动交替进行:我们会一边在脑海中思考步骤、一边与环境互动获取所需信息或实施方案。例如做菜时,我们会在每个步骤之间用语言自我提醒下一步计划,必要时查阅食谱或网上搜索信息,然后继续动手实践。受此启发,谷歌大脑团队提出了一种新方法 ReAct(Reason + Act),希望让语言模型也能像人类一样边“想”边“做”。简单来说,ReAct 让模型在解决问题时同时产生推理轨迹(reasoning traces,即链式思考过程)和动作指令(actions,用于查询工具或与环境交互),二者交替进行,互相协作。这种推理与行动的紧密融合被称为“ReAct”范式,它显著区别于传统只推理或只行动的提示方法,展现出更强的决策能力和可解释性。 ReAct 的核心思想与传统提示方法的区别 ReAct 方法的核心思想在于:将“推理”(Reasoning)和“行动”(Acting)这两种能力融合到同一个语言模型的输出序列中。模型不再只是给出最终答案或纯粹的一串动作命令,而是以交替的方式生成**“思考”和“行动”**两种内容。例如,模型面对一个问题时,可能先输出:“我需要先查找相关信息”(这是推理的一部分),接着输出一个具体行动如“搜索[X]”,然后根据检索到的结果继续推理,接着再执行下一个行动,如此反复,直到得到答案。 这一范式与传统提示方法有显著区别: 区别一:链式思维提示 vs ReAct:传统的链式思维(CoT)提示让模型在回答前生成一段隐藏的推理过程,但这个推理只是内部文字,不会与外部交互。模型只能依据已有知识推理,一旦遇到知识盲点可能产生谬误或幻觉内容。相比之下,ReAct 会在推理过程中引入动作,允许模型在需要时主动查询外部知识库或环境,获取最新的信息来支撑后续推理。这样模型的思考过程不再是闭门造车,而是可以实时查证和更新。 区别二:动作规划提示 vs ReAct:以往让模型执行动作的方案(例如让模型直接输出操作序列去玩游戏或控制机器人)通常没有显式的推理过程。模型根据当前观察直接产出下一个动作,缺少对全局目标的抽象思考,也没有记录“为什么”采取某行动的理由。这容易导致模型在复杂任务中迷失方向或无法长期规划。ReAct 则在动作之间插入推理步骤,模型会用自然语言总结现状、规划策略,并将这些中间思路保留下来作为“内在记忆”,指导后续行动。因此,ReAct 既有链式推理的深度思考,又有动作执行的环境交互,两者相辅相成。 简而言之,传统提示要么让模型闷头“想”(CoT),要么让模型不加思索地“做”(直接行动),而 ReAct 让模型一边“想”一边“做”,形成闭环。这种协同带来的好处是明显的:研究表明,将推理与行动相结合的 ReAct 模型往往优于仅有推理或仅有行动的模型,在各种任务上取得更好的效果。 图1:传统方法 vs ReAct 的对比。上方两图:仅推理(左)和仅行动(右)的模式。下方:ReAct 模式中,语言模型(LM)既产生推理轨迹又发出动作指令,与外部环境(Env)交互,形成一个闭环。推理过程更新模型内部状态,行动则引入环境反馈,两者协同工作。 推理与行动如何在 ReAct 中结合 那么,ReAct 是如何实现推理和行动的交替结合的呢?其关键在于对语言模型的输出格式和推理流程进行了精心设计。具体来说,ReAct 将模型解决任务的过程表示为一个由**“Thought”(思考)、“Action”(行动)和“Observation”(观察结果)交替组成的序列**。模型通过Few-shot提示学习,在同一段对话中按照这种格式进行推理和操作: 思考(Thought):模型用自然语言描述当前它对任务的理解、下一步计划或需要的信息。例如面对一个疑问,模型可能在Thought中自问:“现在我需要找出X的出生年份,或许可以先搜索X的维基百科页面。”这些推理文字不会直接影响外部环境,但会更新模型内部的工作记忆,帮助模型理清思路和规划后续动作。 行动(Action):基于上一步的思考,模型决定执行一个具体动作。动作通常以特殊格式表示,例如Search[...]表示搜索查询,Lookup[...]表示在当前文档中查找关键词,Goto[...]表示导航到某处,或者Finish[...]用于给出最后答案等。这一步会提交给外部环境或工具执行,比如调用一个知识库API、浏览网页或与游戏环境交互。可以把Action看作模型对外部的指令输出。 观察(Observation):外部环境根据模型的Action返回结果,这成为模型可以“看到”的新信息。比如调用维基百科API后,会返回相应条目的内容摘要;在游戏环境中执行动作,会返回环境的新描述状态。Observation相当于模型从外部获取到的反馈,这会被附加到模型的上下文中。 模型会重复交替产生Thought → Action → Observation的步骤,直到达到解决任务的条件。最终,模型会通过一个特殊的Finish[答案]动作来结束任务并给出答案。 在这个过程中,推理和行动互相促进: **推理指导行动:**模型通过Thought总结当前需要什么信息或下一步怎么做,然后据此选择合适的Action。这避免了盲目动作,使每一步操作都有明确的目的。例如模型可能推理出“要回答这个问题,我需要先找人物X的出生年份”,于是执行Search[X 出生年份]的动作。 **行动反馈丰富推理:**每次Action得到Observation后,模型会在随后的Thought中消化这条新信息,更新自己的知识和计划。例如当搜索结果返回某人物出生于“1980年”,模型在下一个Thought中会记下这一点,并进一步推理下一步需要的信息。如果发现搜索结果不相关,模型也可以在Thought中反思并调整策略。 通过这种循环,模型可以一边获取新信息一边调整推理,就像人类在解决问题时不断地“边查边想”一样。值得一提的是,在ReAct中推理内容不会直接对环境生效,因此模型可以放心地进行假设和中间推演;而只有明确标记为Action的内容才会执行,确保与外部交互的操作是经过思考决定的。这一机制让模型能够处理更长的推理链和复杂的目标,因为它可以随时通过行动获取所需的信息,并通过推理整合这些信息。 结合推理和行动带来的能力提升 融合推理与行动的ReAct方法,为语言模型带来了多方面的能力提升: 检索外部知识,减少幻想和错误:纯粹依赖训练记忆的模型在回答超出其知识范围的问题时,容易编造不准确的内容(即“幻觉”现象)。ReAct 通过引入检索行动,让模型能够实时查阅权威资料,从而显著降低了幻觉和推理链错误传递的问题。例如在回答需要多跳推理的问答任务时(如HotpotQA),仅有链式思维的模型可能基于不完整的内部知识产生错误中间结论,最终答案也偏离事实。而使用ReAct,模型可以调用维基百科API获取真实信息,不确定的推断可以及时被查证修正,其推理过程更加基于事实而非凭空想象。 复杂决策能力与环境交互:对于需要多步骤决策的任务(如解谜游戏、机器人操作),ReAct 提升了模型的规划和决策能力。由于模型在行动前可以用Thought考虑整体目标、分解子任务,它更擅长长程规划和在意外情况下调整策略。同时,每一步动作的观察反馈让模型对环境变化做出反应,避免一条路走到黑。例如,在ALFWorld这样交互式文本游戏中,纯“行动”模型往往缺乏全局观,可能在复杂任务中漏掉关键步骤。而ReAct模型会在关键节点插入推理,总结当前进展和下步目标,使得成功率大幅提高。 工具使用灵活性:ReAct 框架下,动作可以视作调用外部工具的接口。这意味着模型不仅限于检索知识,还可以执行各种操作,例如计算、API查询、数据库检索、网页点击等等。通过Few-shot示例教会模型不同的动作语法,LLM能够灵活地调用多种工具来完成任务。这种能力拓展使得语言模型可以解决更广泛的问题,例如在WebShop任务中,模型需要像用户一样浏览购物网站查找商品并做出购买决策。ReAct 提供了结构化的方式让模型运用工具:推理步骤决定何时用何种工具,行动步骤实际执行工具操作。这种设计相比黑箱式的工具使用更透明可控,也更高效。 过程可解释性与可控性:由于ReAct让模型显式地输出思考过程,每一步推理和决策都有据可循,整个任务求解轨迹对人类来说是透明的。这种可解释性带来两个好处:一是增加了可信度,因为我们可以看到模型依据哪些事实和逻辑得到最终答案,而不是凭直觉直接给出结果。二是便于诊断和纠偏:如果模型中途走偏,人类可以检查其Thought发现问题所在,并及时干预。例如研究者展示,在模型解ALFWorld任务时,只需人工修改两处错误的思考文字,模型后续的行为就能被纠正并成功完成任务。这种人类在环的干预在传统模型中难以实现,因为大多数模型没有显式的中间决策可供检查。借助ReAct,我们可以把人类的常识和监督直接融入模型的推理过程中,实现更高程度的人机协作。 综上,ReAct 将LLM的推理优势和工具交互能力融为一体,使模型在准确性、决策力、灵活性和可解释性等方面都得到提升。这种综合能力在很多任务中转化为了性能上的领先。 提示设计的技术细节与示例 要让语言模型学会ReAct的模式,关键在于设计合适的提示(prompt)。研究中采用的方法是提供**少数几个示例(few-shot)**来演示如何同时进行推理和行动。一个ReAct提示通常包括如下要素: 任务示例:首先展示1-2个完整的任务求解案例,每个案例从问题到答案的全过程都用Thought/Action/Observation的形式写出。 人工示范的推理与动作:在这些示例中,研究人员手工编写了合理的思考过程和相应的动作序列。例如在一个问答示例中,Thought可能写道“这个问题涉及人物X的生平,我需要查找X出生于哪一年”,接着Action示范Search[X]去搜索X,Observation则列出搜索结果的一部分,然后下一个Thought分析结果是否包含所需信息,如没有则决定换个关键词搜索,依此类推,直到Action给出Finish[答案]。 环境反馈的体现:示例中每次Action之后,都紧跟着展示该动作的结果(Observation)。这教会模型在产生下一步思考时,要将新获取的信息纳入考虑。例如:“Observation: ‘X出生于1980年。’”然后Thought可以利用这一事实继续推理。 通过上述few-shot示例,模型在提示中学习到输出格式(Thought、Action、Observation的顺序)以及推理-行动协同的策略。当提示之后实际提出新问题时,模型就会模仿示例的格式和思路来作答。...

April 24, 2025 · 1 min · fisherdaddy

如何看待 AI 智能体框架 • Harrison Chase

本文是 LangChain CEO Harrison Chase 在 OpenAI 发布了一份关于构建智能体 ( agents ) 的指南之后写的一篇文章,这篇文章主要用于指出 OpenAI 的智能体指南中的一些误导性观点,并给出了自己的一些看法。 定义区分: 工作流 (Workflows):通过预定义代码路径编排 LLM 和工具,可预测性高。 代理 (Agents):LLM 动态指导自身流程和工具使用,灵活性高。作者更倾向于 Anthropic 对此的精确技术定义。 代理失败原因:LLM 表现不佳通常源于上下文问题,如:系统提示不完整、用户输入模糊、工具描述/访问不当、未传入正确上下文、工具响应格式不佳等。 LangGraph 特点: 提供底层编排能力(节点 Nodes 和边 Edges)。 支持声明式(图结构)和命令式(节点/边内部逻辑)编程。 内置持久化层,支持容错、短期/长期记忆。 支持“人在回路”(human-in-the-loop)和“人监控回路”(human-on-the-loop)模式。 内置流式处理(streaming)支持。 与 LangSmith 集成,提供调试、评估和可观测性。 框架价值:除了代理抽象,好的框架还应提供:短期/长期记忆管理、人机交互支持、流式输出、调试/可观测性、容错机制等。这些价值对工作流和代理都适用。 对 OpenAI 指南的批评:作者认为 OpenAI 的指南: 错误地将 LangGraph 等声明式方法描绘为繁琐且不灵活。 混淆了“声明式 vs 命令式”与“工作流 vs 代理”以及“抽象”的概念。 声称 Agents SDK 等“非声明式”(实为抽象)方法更灵活、“代码优先”,作者认为这与事实相反。 未能抓住构建可靠代理系统的核心挑战(上下文控制)和框架应提供的核心价值(可靠的编排层)。 多代理系统:关键在于代理间的通信机制,工作流常用于组织多个代理的协作。 框架对比:作者提供了一个电子表格链接,用于比较 LangGraph, Agents SDK, CrewAI, AutoGen 等多种框架在不同维度(如编排 vs 抽象、特性支持)上的表现。 原文:如何看待 AI 智能体框架 总结:...

April 24, 2025 · 6 min · fisherdaddy

下半场 • Shunyu Yao

本文是 OpenAI 研究员的 Shunyu Yao 在个人博客发表的一篇文章,主要探讨了人工智能 (AI) 领域正经历一个重要的转折点,从专注于开发新训练方法和模型的“上半场”进入到侧重于定义问题和评估实际效用的“下半场”。 AI 发展的阶段性转变: AI 领域正从以方法和模型创新为主导的“上半场”过渡到以问题定义和评估为核心的“下半场”。 上半场的特征: 重点是开发新的训练方法(如 Transformer)和模型(如 AlexNet, GPT-3),并通过在基准测试(如 ImageNet, WMT'14)上取得进展来衡量成功。方法创新被认为比任务定义更重要、更具影响力。 下半场的催化剂: 一个包含大规模语言预训练、数据与计算规模、以及推理与行动概念的“配方”已经成熟,特别是强化学习 (RL) 实现了泛化。这个配方使得在各种基准上取得进展变得更加标准化和工业化。 下半场的焦点: 由于现有方法足以解决许多基准问题,未来的重点应转向定义 AI 应该做什么,以及如何衡量其在现实世界中的真实效用 (utility)。这需要根本性地反思和创新评估方法。 思维模式的转变: 从业者需要像产品经理一样思考,质疑现有评估假设(如自主性、独立同分布 i.i.d.),并创建更贴近现实应用场景的新评估范式。 原文:下半场 tldr: 我们正处于人工智能 (AI) 的中场休息。 几十年来,人工智能 (AI) 主要致力于开发新的训练方法和模型。而且这很奏效:从击败国际象棋和围棋的世界冠军,到在 SAT 和律师资格考试中超越大多数人类,再到获得国际数学奥林匹克 (IMO) 和国际信息学奥林匹克 (IOI) 金牌。这些历史书中的里程碑——DeepBlue、AlphaGo、GPT-4 和 o-series——背后是人工智能方法的基础创新:搜索、深度强化学习 (deep RL)、扩展 (scaling) 和推理 (reasoning)。技术一直在不断进步。 那么现在有什么突然不同了呢? 用三个词来说:强化学习 (RL) 终于奏效了。更准确地说:强化学习终于可以泛化了。经过几次重大的弯路和一系列里程碑的积累,我们找到了一个行之有效的配方,可以使用语言和推理来解决各种强化学习任务。即使在一年前,如果你告诉大多数人工智能研究人员,一个单一的配方可以处理软件工程、创意写作、IMO 级别的数学、鼠标和键盘操作以及长篇问答——他们会嘲笑你的异想天开。这些任务中的每一项都极其困难,许多研究人员甚至会将整个博士生涯专注于其中一个狭窄领域。 然而,这一切成为了现实。 那么接下来会发生什么?人工智能的下半场——从现在开始——将把重点从解决问题转向定义问题。在这个新时代,评估变得比训练更重要。我们不再仅仅问“我们能否训练一个模型来解决 X?”,而是问“我们应该训练人工智能做什么,以及如何衡量真正的进步?”。为了在这个下半场取得成功,我们需要及时转变思维模式和技能组合,这些可能更接近产品经理所需的能力。 上半场 为了理解上半场,看看它的赢家。你认为迄今为止最具影响力的人工智能论文是什么? 我试了试斯坦福 224N 的测试题,答案并不令人意外:Transformer、AlexNet、GPT-3 等。这些论文有什么共同之处?它们提出了一些基础性的突破来训练更好的模型。同时,它们通过在一些(显著的)基准测试上展示改进成功发表了论文。 然而,存在一个潜在的共性:这些“赢家”都是训练方法或模型,而不是基准测试或任务。即使可以说是最具影响力的基准测试 ImageNet,其引用次数也少于 AlexNet 的三分之一。方法与基准测试的对比在其他任何地方都更加剧烈——例如,Transformer 的主要基准测试是 WMT’14,其工作坊报告有约 1,300 次引用,而 Transformer 有超过 160,000 次引用。...

April 24, 2025 · 2 min · fisherdaddy

生成式 AI 项目的自动化评估的迭代构建法 • Andrew Ng

本文是 Andrew Ng 在 Deeplearning.AI 官方网站发布的一篇文章。Andrew Ng 指出,在开发生成式 AI ( GenAI )应用时,许多团队过晚引入自动化评估( evals ),并过度依赖人工评估,因为他们将构建 evals 视为一项庞大的前期投资。作者提倡采用迭代方法来构建 evals ,即从简单、快速的版本开始,然后逐步改进,从而更早地利用自动化评估加速项目进展。 延迟原因:构建 evals 被视为需要大量前期工作(如创建数百甚至上千示例、设计和验证指标),且 LLM-as-judge 等现有技术实施细节复杂,让人觉得不如暂时依赖人工评估。 迭代构建 evals 的方法: 从小规模开始:可以从极少数示例(例如 5 个)开始,并根据需要逐步增加或删减。 评估部分维度:初期可以只关注部分核心性能指标,或那些与整体性能相关的、易于测量的指标,无需追求一开始就全面覆盖。 具体示例: 对于客服机器人,初期可只评估是否正确调用了退款 API ,暂不评估回复消息的质量。 对于产品推荐机器人,初期可只检查是否提及了正确的产品,而不必关心具体描述方式。 双重迭代循环:开发过程包含两个并行的迭代: 迭代改进 AI 系统本身(依据自动化 evals 和人工判断)。 迭代改进 evals 本身,使其评估结果更贴近人工判断。 成功 evals 的标准: 如果人工判断系统 A 显著优于 B,则 evals 应给予 A 显著更高的分数。 如果 A 和 B 性能相似,则 evals 分数也应相近。 Evals 的“错误分析”:当 evals 对系统 A 和 B 的排序与人工判断不符时,应视其为 evals 本身的“错误”,并对其进行调整优化,使其能正确反映系统间的相对性能。 最终建议:尽管项目初期依赖人工判断是可行的,但尽早引入简单的自动化 evals 并持续迭代,能更有效地加速 GenAI 应用的开发进程。 原文 Dear friends,...

April 22, 2025 · 1 min · fisherdaddy