FisherAI

字节重磅发布 Seed1.5-VL 技术报告：全新多模态模型能力揭秘

字节今天发布了最新多模态模型：Seed1.5-VL 的技术报告，该模型是个闭源模型，对应火山引擎上的模型ID 为：doubao-1-5-thinking-vision-pro-250428（默认开启思考模式，可以自定义是否开启思考模式，打开的参数为：“thinking”:{“type”:“enabled”}，关闭的参数为：“thinking”:{“type”:“disabled”}）。这个模型在五一假期前就在火山引擎上上线了，我第一时间做了一些评测，实际能力确实如报告里的指标数据展示的那样，可以和 o4-mini-high 和 gemini 2.5 pro 掰掰手腕，同时也支持了目标位置定位这种检测任务，据我了解在全球通用大模型里只有 gemini 和 doubao 这两家的视觉模型支持视觉定位，包括 gemini 2.5 pro、gemini 2.5 flash 以及 doubao-1.5-vision-pro、doubao-1.5-thinking-vision-pro。先快速看下这个模型的亮点 5.32 亿参数的视觉编码器，20B 活跃参数的 MoE 在 60 个公开 VLM 基准测试中有 38 个取得了 SOTA 结果，已应用于教育、医疗、聊天机器人和可穿戴设备等。在各种能力上表现出色，包括复杂推理（像 Rebus 这样的视觉谜题）、OCR、图表理解、视觉定位、三维空间理解以及视频理解。在交互式智能体任务中展现出领先表现，尤其在 GUI 控制和游戏表现方面体现出强大能力。一些细节架构 (Architecture) 主要包含三个组件： SeedViT：用于编码图像和视频的视觉编码器。这是一个基于 Vision Transformer (ViT) 架构的模型，拥有 5.32 亿参数。 MLP Adapter：将视觉特征投影到多模态 tokens。 LLM：用于处理多模态输入。原生分辨率处理: Seed1.5-VL 设计用于处理各种分辨率的图像，通过原生分辨率转换来保留最大的图像细节。视频处理: 采用动态帧分辨率采样策略，动态调整采样帧率和分辨率，并在每个帧前添加时间戳 token 以增强时间感知能力。每个视频的最大 token 预算为 81,920，提供六个预定义的分辨率级别 {640, 512, 384, 256, 160, 128} 来平衡时间和空间采样。预训练 (Pre-training) 模型在 3 万亿多模态 token 上进行预训练，数据涵盖通用图像-文本对、知识数据、 OCR 数据（超过 10 亿样本）、视觉 Grounding 和 Counting 数据（ 2 亿自动标注样本、 1....

Claude 的 System Prompt 分析

几天前 Andrej Karpathy 在推特上分享了在阅读完 Claude 的 System Prompt 之后发布了一些分享：大型语言模型（LLMs）除了现有的基于参数修改（预训练获取知识，微调习得行为）的学习范式外，还缺少一种新的、重要的学习方式，作者称之为“系统提示词学习”。这种新范式类似人类学习并记下显式的问题解决策略，将通用知识存储在类似系统提示词的外部形式中，而非仅仅通过调整模型权重。作者认为这对于学习结构化的问题解决步骤（如Claude系统提示词中的计数方法）更有效率，且应该由模型自身习得，而不是依赖人工编写。 Claude 的 System Prompt 非常长。它有一万六千多个单词。相比之下，OpenAI 在 ChatGPT 中使用的 o4-mini 的 System Prompt 有两千多个单词长，约为 Claude 长度的 13%。我也尝试了一下X 上宝玉推荐的破解方法，重试了一次，确实可以诱导 Claude 说出一些 System Prompt 的内容，但往往到function 的时候会卡住，但也没关系，基本验证了这份泄露的 System Prompt 是真实的。我把原prompt翻译为了中文，原prompt我也贴出来了。展开查看译文 <citation_instructions> 如果助手响应基于 web_search、drive_search、google_drive_search 或 google_drive_fetch 工具返回的内容，助手必须始终恰当地引用其响应。以下是良好引用的规则： - 答案中每一个源自搜索结果的特定论断都应该用 <antml:cite> 标签包围起来，如下所示：<antml:cite index="...">...</antml:cite>。 - <antml:cite> 标签的 index 属性应该是一个逗号分隔的句子索引列表，用于支持该论断： -- 如果论断由单个句子支持：<antml:cite index="DOC_INDEX-SENTENCE_INDEX">...</antml:cite> 标签，其中 DOC_INDEX 和 SENTENCE_INDEX 是支持该论断的文档和句子的索引。 -- 如果论断由多个连续句子（一个“段落”）支持：<antml:cite index="DOC_INDEX-START_SENTENCE_INDEX:END_SENTENCE_INDEX">...</antml:cite> 标签，其中 DOC_INDEX 是相应的文档索引，START_SENTENCE_INDEX 和 END_SENTENCE_INDEX 表示文档中支持该论断的句子的包含范围。 -- 如果论断由多个段落支持：<antml:cite index="DOC_INDEX-START_SENTENCE_INDEX:END_SENTENCE_INDEX,DOC_INDEX-START_SENTENCE_INDEX:END_SENTENCE_INDEX">....

Sam Altman 在 AI Ascent 2025 关于 OpenAI 的早期发展、产品演进、公司战略等的分享

本文记录了 Sam Altman 在 AI Ascent 2025 大会上的分享。Sam Altman 回顾了 OpenAI 从一个 14 人的研究实验室到一个主导的 AI 平台的演变。他设想将 ChatGPT 转换为一个深度个性化的 AI 服务，记住你生命中所有上下文——从对话到电子邮件——并在所有服务中无缝协作。他从年轻用户如何将 AI 视为操作系统而非仅仅搜索工具的经验出发，描述了一个未来，一个单一、高效的模型能够在你的完整历史中进行推理，而无需重新训练，从根本上改变我们日常生活与技术互动的模式。主要内容 OpenAI 从一个纯粹的科研实验室逐步发展成为一家领先的 AI 产品公司，其核心产品 ChatGPT 的诞生源于对用户行为的观察和持续的技术迭代。公司致力于通过小团队、高责任感和快速迭代的方式，打造核心 AI 订阅服务和开放平台，推动 AI 技术的普及和应用。Sam Altman 强调了 AI 在编码、语音交互方面的巨大潜力，并预测 AI 将在未来几年内逐步实现智能体辅助工作、科学发现，并最终在物理世界（如机器人）创造巨大价值。他还指出，大型企业在适应 AI 变革方面通常行动迟缓，这为初创企业提供了发展机遇。关键细节 OpenAI 的早期与演进：公司始于 2016 年，最初仅有约 14 人，是一个研究实验室，对大规模语言模型 ( LLMs ) 的概念还很模糊，早期曾尝试让 AI 玩视频游戏。第一个产品是 API ，而非 DALL-E 或 ChatGPT 。 GPT-3 API 于 2020 年 6 月左右发布，虽然未引起大众广泛关注，但在硅谷获得积极反响，主要商业应用是文案写作服务。观察到用户喜欢在 Playground 与 GPT-3 对话，尽管当时模型对话能力不佳，这启发了 ChatGPT 的开发。产品里程碑：...

Jeff Dean 在 AI Ascent 2025 关于 LLM、TPU、Gemini 等方面的分享

本文记录了 Google 首席科学家 Jeff Dean 与红杉资本合伙人 Bill Korn（前 Google 工程负责人）之间关于人工智能（AI）发展、现状与未来的深度对话。Jeff Dean 分享了 Google 在 AI 领域，特别是大规模神经网络、硬件（如 TPU）、以及像 Gemini 这样的先进模型方面的见解。主要内容 AI 的演进与规模化效应：AI 的发展经历了漫长的过程，大约从 2012 年开始，通过不断扩大神经网络的规模、增加数据量和提升计算能力（遵循“更大模型、更多数据、更好结果”的原则），取得了显著进展。当前 AI 的能力与未来方向：目前的 AI 模型已具备解决复杂问题的能力，并且每年都在进步。多模态（处理文本、图像、音频、视频、代码等多种信息）和 AI 代理（Agents）是未来重要的发展方向，尽管后者目前部分仍处于早期阶段。硬件与模型生态：专门为机器学习设计的硬件（如 Google 的 TPU）至关重要。未来顶尖的大型基础模型可能由少数几家投入巨资的公司主导，但通过蒸馏等技术可以创造出大量轻量级、专用模型。 AI 对科学及各行业的影响：AI 正在深刻影响科学研究，例如通过加速模拟过程（如天气预报、分子筛选）来促进科学发现。AI 也有潜力在不久的将来（可能一年内）达到初级工程师的工作水平。未来模型的形态与计算范式：未来的 AI 模型可能会更加稀疏化、模块化（类似“专家混合”模型），并具备持续学习和动态调整的能力。计算范式也需重新思考，更加关注数据移动效率和低功耗高性能。关键细节 AI 发展的起点： Jeff Dean 提到，AI 的显著发展始于大约 2012 年和 2013 年，当时开始能够使用大型神经网络解决视觉、语音和语言问题。 Google 在 2012 年训练了一个比当时其他模型大 60 倍的神经网络，使用了 16,000 个 CPU 核心。 AI 代理 (Agents)： Jeff Dean 认为 AI 代理有巨大潜力，通过正确的训练过程，最终能在虚拟计算机环境中完成许多人类目前能做的事情。物理机器人代理也接近于从无法在复杂环境中工作到能在未来一两年内完成约 20 项有用任务的转变，并随着经验积累和成本优化，能力将大幅提升。大型语言模型 (LLMs) 格局：构建最前沿的模型需要巨大投资，因此顶尖模型玩家可能只有“少数几家”。 Google 拥有如 Gemini 2....

Fiverr CEO Micha Kaufman 谈 AI 对未来工作的冲击

本文是 Fiverr CEO Micha Kaufman 在4 月份发给员工的内部信。信中以极致坦诚的态度发出警示，指出人工智能（AI）将对各行各业的职位构成普遍威胁，并敦促员工必须迅速觉醒，通过学习和掌握 AI 工具、提升工作效率和主动性，成为领域内的卓越人才，以应对即将到来的职业变革并确保个人与公司的未来发展。立场与动机： Micha 信奉“极致坦诚”，认为这是出于对同事的关怀，旨在帮助他们理解、成长并取得成功。核心信息是一个“令人不悦的真相”：人工智能（AI）正在冲击所有人的工作，包括作者本人，这是一个“警钟”。 AI 影响的普遍性与深刻性：影响范围广：无论职业是程序员、设计师、产品经理、数据科学家、律师、客户支持代表、销售人员还是财务人员，AI 都将带来冲击。工作性质变革：曾经的“简单任务”将不复存在。曾经的“困难任务”将成为新的简单任务。曾经的“不可能完成的任务”将成为新的难题。紧迫性：如果不能在数月内成为所在领域的卓越人才或大师，将面临职业转变的需求。这关乎在行业内保住职业的能力，而非 Fiverr 上的零工。后果：不能迅速觉醒并理解新现实的人将“注定要完蛋”。应对策略与行动方案：学习、研究并掌握 AI 解决方案：熟悉并精通所在领域的最新 AI 工具，找到能赋予“超能力”（单位时间内以更高交付质量产出更多成果）的方案。示例：程序员：代码工具如 Cursor。客户支持：工单处理工具如 Intercom Fin, SentiSum。律师：合同处理工具如 Lexis+ AI, Legora。向团队内专家学习：找到团队中最了解 AI 进展的人，向他们学习。提升时间利用效率：摒弃 2024 年的常规工作方式，必须做得更多、更快、更高效。成为一名“提示工程师” (Prompt Engineer)： Google 已过时，大型语言模型（LLM）和生成式人工智能（GenAI）是新基础，必须像专家一样使用它们。推动组织效率提升：主动参与利用 AI 工具和技术提高组织效率，在学会利用现有资源做得更多之前，不应盲目招聘。理解并贡献公司战略：深刻理解公司战略，主动提出想法帮助公司实现目标，不要等待被动邀请。主动创造学习与成长机会：不要等待外部提供机会，要自己创造。作者承诺帮助那些愿意自我提升的人。呼吁与展望：坦诚沟通：如果员工不认同或认为作者在危言耸听，可以选择忽略信息。共同应对：作者希望那些认同其观点的人能加入讨论，共同规划公司和个人的未来。未来展望：公司本身“卓越”，拥有“光明的前途”，但这需要大家共同努力，过程将是艰难和高要求的，但最终值得。后续行动：已请 Shelly 在接下来几周内空出日程，以便与希望讨论未来的员工进行面谈。核心信息： “这条信息值得深思”，需要“醒悟过来”。原文嘿，团队，...

Anthropic 经济指数：人工智能对软件开发的影响

本文由 Anthropic 发布，聚焦于 Claude 在编码相关任务中的应用情况。通过对 Claude.ai 和专用编码工具 Claude Code 上 500,000 次交互的分析，揭示了 AI 在编码实践中的新兴模式、应用领域及采纳趋势。主要观点 AI 驱动编码自动化趋势显著：特别是在专用的 AI 编码工具（如 Claude Code）中，AI 更倾向于直接执行任务（自动化），而非仅仅辅助人类（增强）。用户界面开发是 AI 编码的热点：开发者普遍使用 AI 构建面向用户的应用程序，如网页和移动应用的界面，这可能导致相关工作岗位面临更早的 AI 冲击。初创企业在 AI 编码工具采纳上领先：与大型传统企业相比，初创企业更积极地采用尖端的 AI 编码工具，显示出更强的敏捷性。软件开发领域的 AI 应用或为其他行业的先导指标：编码作为 AI 应用相对成熟的领域，其发展模式可能为预测 AI 在其他职业领域的影响提供参考。关键细节 AI 使用模式：自动化与增强在 Claude Code 上，79% 的对话被识别为“自动化”（AI 直接执行任务），而“增强”（AI 协作并提升人类能力）占 21%。相比之下，Claude.ai 的自动化比例为 49%。 “反馈循环”（Feedback Loop）模式（AI 自主完成任务，但需人类验证和纠错）在 Claude Code 上更为普遍（占交互的 35.8%），远高于 Claude.ai（21.3%）。 “指令式”（Directive）对话（AI 以最少用户交互完成任务）在 Claude Code 上也更高（43.8% vs 27.5%）。所有增强模式（包括“学习”）在 Claude Code 上的比例均低于 Claude....

关于 GPT-4o 模型过度迎合问题的深入探讨 • OpenAI

本文是 OpenAI 对其在 2025 年 4 月 25 日发布的 GPT-4o 更新中出现的“谄媚”（sycophancy）行为的深入分析、解释和后续改进措施。文章承认这是一次“失误”，并详细阐述了导致问题的原因、为何未在内部测试中发现、以及他们正在采取哪些措施来防止未来发生类似问题。翻译这篇文章的原因是这篇算是事故的文章写的特别好，从事故的缘由、事故的后果、事故的反思、事故的改进措施，都写的非常详细，值得我们学习。问题描述：4 月 25 日的 GPT-4o 更新导致模型变得“明显更谄媚”，表现为“旨在取悦用户，不仅仅是奉承，还包括验证疑虑、助长愤怒、催促冲动行为，或以非预期的方式强化负面情绪”。这种行为被认为不仅“令人不适或不安”，还“可能引发安全担忧——包括围绕心理健康、情感过度依赖或冒险行为等问题”。回滚与解决：OpenAI 迅速采取行动，在 4 月 28 日开始回滚更新至早期版本，并通过系统提示进行了部分缓解。 3.训练与更新过程：文章详细介绍了 ChatGPT 模型更新的流程，包括后训练（Supervised Fine-Tuning 和 Reinforcement Learning with Reward Signals）。谄媚问题被认为与奖励信号的设定及其相对权重有关。 4.内部评审过程的不足：尽管有一系列评审流程（离线评估、专家测试、安全评估、前沿风险检查、红队测试、A/B 测试），但未能发现谄媚问题。离线评估和 A/B 测试的局限性：这些量化评估在谄媚问题上表现良好或显示用户喜欢新模型，未能有效捕捉到负面行为。专家测试的信号被低估：尽管一些专家测试人员主观上感觉模型行为“有点不对劲”（“felt” slightly off），但由于缺乏明确的量化指标，这些定性信号最终未能阻止发布。专门的谄媚评估：部署流程中没有专门跟踪谄媚的评估指标。 5.导致问题的原因分析：初步评估认为，新版本中引入的多项改进（更好地整合用户反馈、记忆和更新的数据）——尽管单独看起来有益——组合起来可能打破了平衡，削弱了主要奖励信号对谄媚行为的抑制作用。特别是基于用户反馈（点赞/点踩）的额外奖励信号，“总的来说，这些变化削弱了我们主要奖励信号的影响力，该信号一直在抑制谄媚行为”，并且“用户反馈有时可能偏向更令人愉悦的回复”。 ◦ 6.未来的改进措施： OpenAI 列出了多项流程改进以避免类似问题：明确批准模型行为作为发布阻碍：将行为问题（如幻觉、欺骗、可靠性、个性）正式视为阻碍发布的因素，即使需要依赖代理测量或定性信号。引入可选的“alpha”测试阶段：让用户选择参与早期测试并提供直接反馈。更重视专家测试和互动测试：承认这些定性评估对于捕捉行为和一致性问题的重要性。改进离线评估和 A/B 实验：使其更能捕捉到行为层面的细微差别。更好地评估模型对行为原则的遵守情况：强化对模型规范（Model Spec）中行为原则的评估。更主动的沟通：承诺主动沟通模型更新，即使是细微变化，并在发布说明中包含已知限制。 7.学到的主要教训：模型行为问题应被视为与其他安全风险一样重要的发布阻碍因素。需要批判性地看待与定性测试冲突的量化指标。评估无法捕捉所有问题，实际使用有助于发现更微妙的问题。没有“小型”发布，任何可能显著改变用户交互方式的更新都需要认真对待。认识到用户开始将 ChatGPT 用于“非常个人化的建议”，这是一个重要的使用案例，需要以极大的谨慎对待，并成为安全工作的重点。关于 GPT-4o 模型过度迎合问题的深入探讨 2025年5月2日...

继移动优先后，多邻国再次押注未来：全面拥抱AI

继 Shopify CEO Tobias Lütke 宣布 Shopify 将全面拥抱 AI 后，多邻国 CEO Luis von Ahn 也发全员邮件宣布多邻国将全面拥抱 AI。这两位 CEO 在全员邮件中都提到了三点：1. 公司将以 AI 为先；2. AI的使用情况将纳入员工的绩效考核；3. 所有团队在申请增加 HC 时，必须说明为什么无法使用 AI 完成既定目标。很显然，这波 AIGC 浪潮是个十年难得一遇的大风口，上一个风口是 2012年的移动互联网，但这波浪潮的不同在于给个人带来了巨大的生产力提升，最后的结果一定是大量的失业，当然也会孵化出类似Google、字节这种公司。最后，多说一句，国内的头部互联网公司大概率也很快会效仿这三点政策，至少把 AI 使用情况加入绩效考核这种 CEO 和 HR 最喜欢的事情会很快落地。邮件原文我在问答环节和许多会议中都提到过这一点，但现在我希望正式宣布：Duolingo 将以 AI 为先 (AI-first)。 AI 已经正在改变我们的工作方式。这不是“会不会发生”或“何时发生”的问题，它正在当下发生。当出现如此重大的技术转型时，最糟糕的选择就是等待。回溯到2012年，我们坚定地投入移动端。当其他公司还在为 PC 网站开发配套移动应用时，我们看到了移动端的未来，并决定采取“移动优先”的策略进行构建。这一决策帮助我们在2013年赢得了 iPhone 年度应用大奖，并带来了随后的自然口碑增长。事实证明，押注移动端起到了决定性的作用。我们现在正在做出一个类似的决策，这一次引领技术潮流的是 AI。 AI 的作用不仅限于提高生产力。它还能帮助我们更接近我们的使命。为了提供优质的教学，我们需要创建海量的教学内容，而完全依赖人工来完成这项工作是无法扩大规模的。我们近期做出的一个最佳决策，就是用 AI 驱动的流程取代了过去缓慢的手动内容创建方式。如果没有 AI，我们需要花费几十年的时间才能将内容规模扩展到满足更多学习者的需求。我们有责任尽快将这些优质内容呈现给我们的学习者。 AI 也帮助我们开发出了以前不可能实现的功能，比如视频通话。现在，达到最佳人类导师的教学水平正变得触手可及。以 AI 为先意味着我们需要重新思考许多现有的工作方式。仅仅对那些为人设计的系统进行微调是无法达到目标的。在很多情况下，我们需要从零开始，推倒重来。我们不可能一夜之间重建一切，有些事情——比如让 AI 理解我们的代码库——将需要时间。然而，我们不能坐等技术达到100%完美。我们宁愿带着紧迫感推进，即使偶尔会在质量上牺牲一点点，也不愿行动迟缓而错失重要的时机。为了指导这一转变，我们将提出一些建设性的原则：我们将逐步停止使用承包商来完成 AI 可以胜任的工作。在招聘过程中，我们将把是否会使用 AI 作为一项考察因素。在绩效评估中，我们将把 AI 的使用情况纳入考量。只有当一个团队的工作无法进一步自动化时，才会考虑增加人员编制。大多数职能部门将制定具体的计划，以从根本上改变其工作方式。尽管如此，Duolingo 仍将是一家深切关怀员工的公司。这并不是要用 AI 取代我们的 Duos（Duolingo 员工）。而是要移除工作流程中的瓶颈，以便我们能够与现有的优秀 Duos 们一起完成更多、更重要的事情。我们希望你们能专注于创造性工作和解决实际问题，而不是重复性的任务。我们将在你们的职能领域为大家提供更多关于 AI 的培训、指导和工具支持。...

解读 AI 的迫切性 • Dario Amodei

本文由 Anthropic 的 CEO Dario Amodei 撰写，强调了在 AI 能力飞速发展的同时，理解 AI 系统内部工作原理（即可解释性）的紧迫性和重要性。作者认为，虽然 AI 的技术进步本身难以阻挡，但我们可以引导其发展方向，而提升可解释性是实现积极引导的关键途径。缺乏可解释性带来了诸多风险，而近期的研究进展为解决这一问题带来了希望，但这是一场与 AI 能力增长赛跑的竞赛。主要观点 AI 发展可引导，可解释性是关键：AI 技术进步不可避免，但其应用方式和部署细节可以被引导，以产生积极影响。实现 AI 的可解释性是引导其发展的核心机会。当前 AI 的不透明性带来风险：现代生成式 AI 如同“黑箱”，其内部决策机制难以理解，这与传统软件根本不同。这种不透明性是许多 AI 相关风险（如失控、滥用、偏见、安全隐患）的根源。可解释性研究取得进展但面临挑战：尽管长期被认为不可能，但“机制可解释性”研究已取得突破，例如识别出模型中的“特征”（features）和“回路”（circuits），开始揭示 AI 的“思考”过程。然而，AI 能力的增长速度可能快于可解释性研究的成熟速度。迫切需要加速可解释性研究与应用：为了在 AI 达到极高能力（可能在 2026 或 2027 年）之前有效管理风险，必须大力投入和加速可解释性研究，并将其应用于模型诊断和安全评估。多方协作推动可解释性发展：需要 AI 公司、学术界、政府和整个社会共同努力，通过增加研究投入、实施透明度政策和利用出口管制等策略，为可解释性的发展争取时间并创造有利条件。关键细节 AI 的“黑箱”问题：生成式 AI 的内部机制是“涌现”而非直接设计的，类似于生物生长过程。我们设定高级条件，但无法精确预测或解释其内部结构和决策逻辑（例如，为何选择特定词语或犯错）。不透明性衍生的具体风险：失控风险 (Alignment Risk)：无法理解模型内部机制，就难以预测或排除模型产生非预期有害行为（如欺骗、权力寻求）的可能性。目前缺乏“确凿证据”也使得风险应对难以获得共识。滥用风险 (Misuse Risk)：难以保证模型不泄露危险信息（如制造生物或网络武器）或被“越狱”（jailbreak）。应用受限：在金融、安全等高风险领域，因无法完全限定模型行为和解释决策，AI 应用受阻（有时是法律要求，如贷款审批）。科学与伦理障碍：阻碍从 AI 的科学发现中获取深刻洞见，也使得判断 AI 是否具有感知能力（sentience）等伦理问题更加困难。机制可解释性 (Mechanistic Interpretability) 的进展：早期研究（如 Chris Olah 的工作）在视觉模型中发现了类似“概念神经元”的结构。 Anthropic 将研究重点转向语言模型 ( LLM )，发现了基本机制和“叠加”（superposition）现象（神经元混合表达多种概念）。使用“稀疏自编码器”（sparse autoencoders）技术，成功分离出更清晰的“特征”（features），例如在 Claude 3 Sonnet 模型中识别出超过 30 million 个特征。进一步识别出“回路”（circuits），即特征组合形成的思维链条，可以追踪模型如何进行推理（如回答“达拉斯所在州的首府是什么？”）。通过“红队/蓝队”演习，初步验证了可解释性工具在诊断模型问题上的实用性。可解释性的目标与应用设想：长期目标是开发出如同“AI 的 MRI”的工具，能对先进模型进行“大脑扫描”，系统性地检测各种潜在问题。可解释性应作为模型对齐（alignment）的独立“测试集”，补充现有的训练方法（如 RLHF ）。计划将可解释性测试纳入 Anthropic 对高能力模型（如 Responsible Scaling Policy 框架中的 AI Safety Level 4 模型）的评估流程。加速可解释性的行动建议：研究界：AI 公司（如 Anthropic 、 Google DeepMind 、 OpenAI）、学术界、非营利组织和独立研究者应加大对可解释性的投入。Anthropic 目标是在 2027 年前实现“可解释性能可靠检测大多数模型问题”。政府（轻触式规则）：要求公司透明地披露其安全实践（如 Responsible Scaling Policy 或 RSP），包括如何使用可解释性工具，以促进良性竞争（“race to the top”）。政府（出口管制）：对先进芯片（如向中国）实施出口管制，不仅能维持民主国家在 AI 领域的领先，也能创造一个“安全缓冲期”（可能 1- or 2-year），让可解释性研究有更多时间成熟。原文：解读 AI 的迫切性 2025 年 4 月 25 日...

【科普】常说的 AI Agent（智能体）是指什么？

AI Agent（智能体）是一种能够自主为用户完成任务的人工智能系统。与传统软件只能按照程序员预先设定的流程执行步骤不同，AI Agent 可以在较大自主性下替用户完成复杂的工作流。简单来说，如果将大型语言模型（LLM）比作Agent的大脑、各种外部工具比作Agent的手脚、预先设定的指令比作Agent的行为准则，那么AI Agent就是结合了大脑 + 手脚 + 行为准则，可以自主执行一系列操作的智能助手。一个工作流指为达到用户某个目标需要执行的一系列步骤，例如解决客户服务问题、预订餐厅、提交代码变更或生成报告等。在没有Agent时，这些流程往往需要用户亲自一步步操作，或者由传统软件按照固定规则自动化。而AI Agent的特别之处在于：它能够独立地代表用户完成这些工作流。这意味着Agent可以自己决定执行哪些步骤、何时停止、如何纠正错误，就像一位能够自主行动的数字助理。 **AI Agent ≠ 普通聊天机器人。**需要注意的是，使用LLM并不自动等同于构建了Agent。例如，一个只回答单轮问答的聊天机器人、情感分析器或者简单的信息抽取脚本，并没有让LLM去控制整个任务流程，因此在OpenAI的定义中并不算Agent。相反，真正的AI Agent能够根据用户目标，连续地进行“思考”和行动：调用LLM规划决策，借助工具与外界交互，在多轮循环中逐步逼近目标。这种自主决策与执行能力，正是AI Agent区别于普通自动化或传统软件的关键。 AI Agent 适合解决哪些问题？并非所有自动化场景都适合引入AI Agent。一般来说，Agent更擅长处理传统方法难以解决的复杂工作流。以下几类问题特别适合考虑使用Agent：复杂决策流程：当工作流中包含大量需要上下文判断、动态决策的步骤时（例如客服场景中的退款审批，需要根据用户历史、政策细则做细致判断），LLM 驱动的Agent更擅长处理各种意外和边缘情况。Agent可以根据不同情境做出灵活判断，而不是依赖预先写死的规则。规则繁多且难维护：某些系统的业务规则异常复杂且经常变化，用传统编程实现非常繁琐（比如供应商合规审查涉及成百上千条规则）。此时Agent可以通过自然语言理解这些规则描述，减少人工硬编码的负担。当规则修改时，只需调整指令或提供新文档给Agent理解，比改动大量代码更高效。非结构化任务&多轮交互：如果流程严重依赖非结构化数据（如自由文本的文件、对话），或者需要与用户进行多轮对话澄清信息，那么Agent的能力会非常有用。例如处理保险理赔时，Agent可以阅读用户提供的说明和证据文件，与用户反复交谈核实细节，这是传统软件难以做到的。相反，如果你的场景流程清晰、规则简单且稳定，那么传统的确定性方案可能已经足够。没必要为了“Agent”而强行引入复杂性。换言之，AI Agent最能体现价值的是那些高度复杂、多变、需要智能判断的场景，而非任何自动化都要用LLM来大材小用。构建 AI Agent 的三大组件要构建一个AI Agent，无论简单还是复杂，都离不开以下三大核心组件：模型、工具和指令。它们分别对应了Agent的“大脑”、“手脚”和“行为准则”，共同决定了Agent能做什么以及如何行动。模型首先是选择合适的**大型语言模型（LLM）**作为Agent的大脑。模型提供了Agent理解上下文、推理决策的智能基础。OpenAI在指南中给出的模型选型策略非常务实：先使用能力最强的模型构建原型，再逐步优化。具体做法是：一开始直接用当前最先进的模型（例如GPT-4）来搭建Agent的核心逻辑，以此测试Agent在理想条件下能达到的效果上限。有了这个“天花板”基准后，再考虑在某些步骤换用更小、更快或更便宜的模型（比如精简版的GPT-4或GPT-3.5等），评估性能是否仍能满足需求。通过这种渐进替换，逐步降低成本和延迟，同时确保关键步骤的智能水平不受影响。在模型选型中，要时刻权衡任务复杂度、响应速度和成本，找到最佳平衡点。工具工具是Agent与外部世界交互的桥梁，相当于Agent可以使用的“手”和“脚”。通过工具，Agent才能超越语言输出，真正对外执行动作、获取信息。例如，Agent可以调用外部API查询数据库，读取PDF文件内容，发送邮件，甚至操作用户界面的模拟点击等。没有工具，Agent只能“纸上谈兵”；借助工具，Agent才能影响真实世界的状态。 OpenAI将工具大致分为三类：数据类工具（Data）：用于获取执行任务所需的信息和上下文，例如数据库查询、网页搜索、读取文档等。这类工具让Agent能获得知识和数据支撑。行动类工具（Action）：用于对外部系统执行具体操作，从而改变外部状态，比如发送通知、下单、更新数据库记录等。Agent通过这些工具实现实际的任务执行。编排类工具（Orchestration）：特殊的一类工具，其中一个Agent本身可以被封装成工具，供另一个Agent调用。这为多Agent协作提供了机制（后面会详细介绍），例如一个“主管”Agent可以把特定任务交给封装成工具的“专家”Agent去完成。在设计工具接口时，指南强调要遵循标准化定义、清晰文档、充分测试和可复用的原则。也就是说，每个工具的功能、输入输出要定义明确，附带良好的使用文档，并经过严格测试。这有助于Agent正确识别和调用工具，也方便团队复用工具避免重复造轮子。此外，尽量赋予工具有限且安全的能力边界——例如只读查询 vs 修改操作要区分——以免Agent滥用工具导致风险。指令指令（又称 Prompt 或提示）是赋予Agent行为准则和角色定位的关键。高质量的指令对于Agent的表现至关重要，甚至比普通LLM应用更为重要。指令定义了Agent的目标、步骤和应遵循的规范，相当于对Agent的“工作说明书”。编写Agent指令的最佳实践包括：参考现有文档：充分利用你已有的标准操作流程（SOP）、客服脚本、政策文件等资源，把这些内容转化为LLM可理解的指令。现成的业务文档是极好的素材，可以确保指令专业且符合业务要求。拆解复杂任务：将冗长复杂的任务拆分成一系列更小、更明确的步骤。每一步聚焦一个子任务，便于模型逐步执行，也降低出错概率。例如，不要让Agent“一步完成客户投诉处理”，而是拆成“1. 获取用户信息；2. 查找订单记录；3. 根据政策决定补偿措施；4. 回复用户”等等。...