FisherAI

为智能体编写有效的工具 • Anthropic

本文由 Anthropic 工程师 Ken Aizawa 所写：Writing effective tools for agents — with agents。其中介绍了一系列为 AI 代理（agents）构建高效工具的最佳实践和核心原则。为非确定性的 AI 代理设计工具与为传统的确定性软件系统编写函数或 API 有着根本性的不同，需要采取一种以代理为中心、由评估驱动的迭代开发方法。关键细节 1. 构建和优化工具的流程文章提出了一个与 AI 代理协作、以评估为驱动的迭代流程：构建原型：快速搭建工具原型，并利用 Claude Code 等 AI 代理辅助编写。可以通过本地 MCP (Model Context Protocol) 服务器或桌面扩展进行测试。运行综合评估：生成任务：与 AI 代理协作，生成大量源于真实世界、具有足够复杂度的评估任务。强任务可能需要多次、甚至数十次工具调用。运行评估：通过直接调用 LLM API，在简单的代理循环中运行评估。建议让代理输出推理过程（CoT）以更好地理解其行为。分析结果：代理是发现问题的合作伙伴。通过分析其推理过程、原始交互记录以及调用指标（如冗余调用、错误率），可以发现工具的不足之处。与代理协作改进：将评估结果和记录直接输入给 Claude Code，让它分析问题并重构优化工具代码和描述，从而形成一个持续改进的闭环。 2. 编写高效工具的核心原则选择合适的工具：质量优于数量。避免简单地将每个 API 端点都包装成一个工具。应构建少数几个针对高影响力工作流程的、经过深思熟虑的工具。例如，用一个 schedule_event 工具整合查找空闲时间和创建会议等多个步骤。命名空间（Namespacing）：当工具数量增多时，使用共同的前缀（如 asana_projects_search）对相关工具进行分组，可以帮助代理在不同工具间做出正确选择，避免混淆。返回有意义的上下文：工具返回的数据应优先考虑上下文相关性，而非技术细节。使用自然语言名称（name）代替晦涩的标识符（uuid）。提供多种响应格式（如 concise 和 detailed），让代理可以根据需要选择信息的详细程度，从而控制上下文的消耗。优化令牌（Token）效率：...

构建高效的智能体 • Anthropic

文本由 Anthropic 工程师由 Erik Schluntz 和 Barry Zhang 撰写：Building effective agents，文中探讨了构建高效 AI 代理（Agent）的最佳实践。最成功的 AI 代理系统并非建立在复杂的框架之上，而是采用简单、可组合的模式。开发者应从最简单的方案（如优化单个 LLM 调用）开始，仅在确实需要时才引入更复杂的代理系统。诸如 LangGraph 等框架虽然可以简化初始开发，但也可能引入不必要的抽象层，使调试变得困难。建议开发者直接使用 LLM API，并确保理解所使用框架的底层逻辑。代理系统的核心在于 LLM 与工具的交互。因此，投入精力设计一个清晰、易于使用的“代理-计算机接口” (ACI) 至关重要，这包括编写详尽的工具文档和进行充分的测试。文章提出了一系列从简单到复杂的构建模式，从基础的“增强型 LLM”到自主代理，开发者可以根据具体需求组合和定制这些模式。关键细节代理系统的类型工作流 (Workflows)：通过预定义的代码路径来编排 LLM 和工具，具有较高的可预测性。代理 (Agents)：LLM 能够动态地指导自己的流程和工具使用，更加灵活，适用于无法预知步骤的开放式问题。核心构建模式基础模块：增强型 LLM 这是所有代理系统的基础，即一个集成了检索、工具和记忆等增强功能的 LLM。工作流：提示链 (Prompt Chaining) 将一个任务分解为一系列连续的步骤，每一步的 LLM 调用处理上一步的输出。适用于可清晰分解为固定子任务的场景。工作流：路由 (Routing) 对输入进行分类，并将其引导至专门的下游任务或模型。例如，将简单的客户问题路由到成本更低的 Claude Haiku 4.5 模型。工作流：并行化 (Parallelization) 让 LLM 同时处理一个任务的不同部分。具体可分为：分片 (Sectioning)：将任务分解为独立的子任务并行运行。投票 (Voting)：多次运行同一个任务以获得多样化的输出或更可靠的结果。工作流：协调器-工作者 (Orchestrator-workers) 由一个中央 LLM（协调器）动态分解任务，并将其分配给多个 LLM（工作者）执行。适用于子任务无法预先确定的复杂场景，如编码。工作流：评估器-优化器 (Evaluator-optimizer) 一个 LLM 负责生成响应，另一个 LLM 在循环中提供评估和反馈，以迭代方式改进输出质量。自主代理 (Autonomous Agents) 适用场景：用于解决难以预测所需步骤的开放式问题。代理能够独立规划和执行，并通过与环境（如工具调用结果）的交互来评估进展。注意事项：自主代理的成本更高，且存在错误累积的风险。因此，必须在沙盒环境中进行广泛测试，并设置适当的护栏（如最大迭代次数）。实践应用领域客户支持：代理可以通过集成工具来查询客户数据、处理退款等，将对话与实际操作相结合。编码代理：代理可以根据需求描述自主修改多个代码文件，并通过自动化测试来验证解决方案的正确性，例如在 SWE-bench 基准测试中的应用。原文：构建高效的智能体发布于 2024年12月19日...

Claude Code 最佳实践 • Anthropic

本文由 Claude Code 负责人 Boris Cherny 所写：Claude Code: Best practices for agentic coding。本文档概述了高效使用 Claude Code 这一命令行编程工具的最佳实践。Claude Code 作为一个灵活、低阶的编程助手，旨在通过提供接近原始模型的访问能力，帮助工程师将其深度集成到开发工作流中。以下是核心观点和关键实践的总结。关键细节 1. 环境定制与配置创建 CLAUDE.md 文件：在项目根目录、父/子目录或用户主目录 (~/.claude/CLAUDE.md) 中创建此文件，用于提供项目特定的上下文，如常用命令、代码规范、测试指令等。Claude 会自动加载这些信息。优化 CLAUDE.md：像优化提示词一样迭代 CLAUDE.md 文件，保持其简洁有效。可以使用 # 键快速添加指令到该文件中。管理工具权限：通过会话中选择 “Always allow”、使用 /permissions 命令或编辑配置文件，自定义工具的白名单，以在安全和效率之间取得平衡。安装 gh CLI：若使用 GitHub，安装 gh 命令行工具能让 Claude 更高效地进行创建 issue、提交 PR 等操作。 2. 扩展 Claude 的工具集利用 bash 工具：Claude 可以直接使用您环境中的 bash 工具和自定义脚本，只需告知其工具名称和用法。使用 MCP (Model Context Protocol)：通过连接到 MCP 服务器，Claude 可以使用更复杂的外部工具，如 Puppeteer 或 Sentry。自定义斜杠命令：在 ....

段永平深度访谈：投资、AI与人生，我想说的都在这里

本文来自于雪球创始人方三文近期对段永平的深度访谈，访谈中他分享了“买股票就是买公司”的核心理念，探讨 AI 对未来的影响，以及他对企业文化、家庭教育和普通人投资的朴素建议。在雪球，他的ID是“大道无形我有形”，但更多人亲切地称他为“大道”或“阿段”。他就是段永平，小霸王和步步高的创始人，也是一位在中文互联网上极具影响力的传奇投资人。最近，雪球创始人方三文与他进行了一场深度对话。与其说是正式采访，不如说是一次朋友间的“陪聊”，话题从他的日常生活、成长经历，聊到企业经营的智慧，再到投资场上的洞见。这篇文章将带你走进这场对话，用最朴素的语言，梳理出那些散落在谈笑间的珍贵思考。从乡下少年到商界传奇：自由、信任与“做对的事” 很多人好奇，是怎样的成长环境塑造了今天的段永平？他的回答很实在：“我是在南昌出生，六七岁跟父母下放到江西农村，吃过苦。” 他坦言，很难说清成长环境与性格成就到底有多大关系，哥哥妹妹和他的性格也各不相同。但有一点他很确定：父母给了他充足的爱和安全感，但从不过多要求，更不会像现在的父母一样“卷”。 “我从小就很习惯自己做决策，”他说。这种源于父母充分信任的自由，让他养成了一种宝贵的习惯：当觉得环境不合适时，能果断离开。大学毕业后，他觉得北京的工作和生活不舒服，便毅然“投奔市场”，南下广东。在小霸王，他创造了辉煌的业绩，但当发现老板在股权激励上的承诺无法兑存，破坏了信任的根基时，他选择了离开。对他而言，这无关利益，而关乎契约精神。“你刮瓶盖刮出一个‘谢’字，肯定就不会再刮下去了。” 这种对“信任”和“对错”的较真，贯穿了他的整个职业生涯。步步高的密码：企业文化，是“选”出来的离开小霸王后，段永平创办了步步高。在这里，他从一开始就杜绝了“不守信”的问题。步步高的企业文化，也成了后来许多商业研究的范本。那么，好的企业文化是如何形成的？他的答案可能会让一些管理学大师失望：“企业文化跟创始人有很大关系，它不是写在纸上、照本宣科的，而是 fundador 的个人品性吸引了一群认同这种文化的人。” 简单来说，文化主要是“选择”出来的，而不是“培养”出来的。当然，好的环境可以唤醒人善的一面，但改变一个人的本质非常困难。所以，与其费力改造，不如一开始就“找对的人”。步步高文化的核心，听起来都很大白话：本分：其源头是德鲁克的“做对的事情，并把事情做对”（Do the right thing, and do things right）。这意味着，在考虑“能不能赚钱”之前，先花五秒钟想一想“这是不是一件对的事情”。用户导向：眼睛要盯着用户，而不是竞争对手或老板。更健康，更长久：不健康、不长久的事情不做。这个理念也演变成了一份宝贵的 “Stop Doing List”（不为清单）。比如，步步高很早就决定不做代工（OEM），不是因为代工不好，而是因为他们认识到这不符合自己的长处。“我知道做代工打不过郭台铭，但我们做品牌可以做得很好。”少做一些不适合自己的事，自然就少犯很多错误。三十年积累下来，这就是巨大的优势。投资的唯一秘诀：“买股票就是买公司” 退休后，段永平移居美国，过上了打球、陪伴家人的生活。很自然地，他把目光投向了投资。一开始，他也看K线图，但总觉得那些结论在逻辑上不成立。直到他看到巴菲特的一句话： “买股票就是买公司。” “我就看到那一句话，突然就明白了，就够了。”段永平说。剩下的事情，就是如何看懂公司，这不是别人能教的。因为自己做过企业，所以他看懂别人的生意，相对容易一些。巴菲特曾说，人生只需要一个有20个孔的打孔卡，每做一次重大投资就打一个孔。段永平数了数自己的“孔”：网易雅虎（实质是投阿里）苹果伯克希尔·哈撒韦茅台腾讯拼多多（算半个，因为是早期风险投资）西方石油（抄巴菲特的作业） GE（一次赚钱了但事后看是错误的投资）算下来，离20个孔还差得远。他说：“我还有很久可以做投资。” 案例复盘：我是如何看懂几家公司的？ “买股票就是买公司”，这句话理解起来容易，做到却很难。段永平分享了他对几家核心持仓公司的理解。苹果：文化与用户导向的极致段永平在2011年开始投资苹果。他看到的，远不止一个硬件公司。强大的生态系统：他很早就看清了苹果软件和服务业务的巨大潜力。优秀的企业文化：他认为苹果是“用户导向”的典范，极度在乎用户体验，绝不为了做生意而做产品。他曾笃定苹果一定会出大屏手机，因为那是用户的真实需求。虽然苹果“扛了三年”，但最终还是回归了正道。他也曾断言苹果一定不会造车，因为汽车这个产品，苹果无法提供足够的、差异化的价值。“他们做不出来，不是技术问题，是他们不知道自己到底能干什么。” 最终，苹果放弃了造车项目，印证了他的判断。好的文化不能保证不犯错，但能确保在犯错后，有强大的力量把它纠正回来。茅台：最好的创新就是“不变” 对于茅台，他的观点简单而犀利：“白酒分两种，茅台和其他。” 独特的口味和文化认同：茅台的核心价值在于其无可替代的口味，以及目标用户对这种口味的长期认同和习惯。这是一个文化符号。 “不变”的价值：对于茅台这样的公司，最怕的就是新来的领导“乱创新”，改变配方。他认为，茅台的国企身份在某种程度上反而是好事，森严的规矩让“乱改”的风险变小了，有助于维持品质的稳定性。如何看待估值？即使在2600元的高点，他也没有卖出。因为他问了自己一个关键问题：“卖了之后，钱投到哪里去？” 在当时，他找不到比持有茅台更好的选择。投资是比较，是机会成本的选择。对他来说，拿着茅台，即使股价下跌，也比换成一个自己不懂、且可能亏得更多的股票要好。英伟达：在AI浪潮中“掺和一下” 起初，段永平对半导体行业保持距离，认为它变化快、资产重，很难看懂。但AI的浪潮改变了他的看法。强大的护城河：他观察到，英伟达已经建立了一个极其强大的生态系统，所有想在AI领域有所作为的大公司都离不开它。它与AMD在行业内的地位差异，就体现了其垄断性优势。有远见的领导者：他看了黄仁勋十几年前的视频，发现他讲的东西和今天一样，证明他早就预见到了未来并持续投入。这让他相信，黄仁勋现在讲的未来，大概率也会实现。 “你爱这个东西，我觉得至少才要掺和一下，不要未来十年跟自己完全没关系。” 他坦言，对英伟达的理解还没有到苹果的程度，所以投入的仓位有限，但这是一个值得拥有的“参与感”。...

介绍一下 GPT-5.1 API 对开发者的一些特色

2025 年 11 月 13 日 OpenAI 面向开发者发布 GPT-5.1 模型。GPT-5.1 是一款更快速、更高效、更智能的 AI 模型，专为开发者设计。它通过动态调整思考深度来优化简单任务的速度和成本，同时在复杂任务上保持强大的性能。该模型还增强了编码能力，并引入了两个新工具，旨在帮助开发者更可靠、更高效地构建复杂的代理工作流。关键细节效率与推理动态推理：GPT-5.1 能根据任务复杂性动态调整其“思考”时间。对于简单任务，它使用更少的 token，响应速度更快（例如，一个 npm 命令的查询从 10 秒缩短到 2 秒）；对于复杂任务，它会投入更多资源以确保可靠性。无推理模式：新增了 reasoning_effort 设置为 'none' 的模式，适用于对延迟敏感的应用场景。该模式在保持高智能的同时，能实现更快的响应和更高效的并行工具调用。性能提升：与 GPT-5 及其他竞品相比，GPT-5.1 在速度和 token 效率上均有显著提升。Balyasny Asset Management 发现其速度是 GPT-5 的 2-3 倍，而 token 消耗仅为竞品的一半。扩展缓存：引入了长达 24 hour 的提示缓存（prompt caching）功能，显著降低了在多轮对话或编码会话等长交互场景中的延迟和成本。编码能力性能增强：GPT-5.1 在编码方面更具可控性，代码质量更高，并且减少了不必要的“过度思考”。在 SWE-bench Verified 基准测试中，其准确率达到了 76.3%。业界好评：多家公司如 Cognition、Warp 和 JetBrains 对其给予了高度评价，认为它在理解用户意图、响应速度和自主性方面表现出色。新增工具： apply_patch 工具：允许模型通过生成结构化的 diff 来可靠地创建、更新或删除代码文件，使多步骤代码编辑更加流畅。 shell 工具：允许模型通过受控的命令行界面与本地计算机交互，执行检查系统、运行程序等任务。定价与可用性可用性：GPT-5.1 和 gpt-5....

快速了解一下 GPT-5.1：一个更智能、更健谈的 ChatGPT

2025年 11 月 12 日，OpenAI 宣布了对 GPT-5 系列的重大升级，推出了 GPT-5.1。这次更新的核心目标是让 ChatGPT 不仅更智能，而且在对话交流上更令人愉悦。新版本引入了两个升级模型：GPT-5.1 Instant 和 GPT-5.1 Thinking，它们在智能、沟通风格和指令遵循方面都有显著提升。此外，本次更新还提供了更直观、更有效的工具，让用户可以轻松定制 ChatGPT 的语调和风格，使其更符合个人偏好。核心内容 GPT-5.1 Instant: 作为最常用的模型，其默认风格变得更热情、更具对话感。提升了指令遵循能力，能更可靠地回答用户提出的问题。首次引入了“自适应推理” (adaptive reasoning) 功能，使其在处理数学（如 AIME 2025）和编程（如 Codeforces）等复杂问题时，能花更多时间思考，从而提供更准确的答案，同时对简单问题保持快速响应。 GPT-5.1 Thinking: 作为高级推理模型，它在效率和易用性上得到提升，能根据问题难度精确调整思考时间。回答变得更清晰，减少了专业术语，使其更易于理解。默认语调也变得更热情和富有同理心。发布与过渡计划推出时间: GPT-5.1 将从即日开始向付费用户（Pro, Plus, Go, Business）推出，随后覆盖免费用户。企业和教育版用户将获得为期七天的提前体验权限。 API 集成: GPT-5.1 Instant 和 GPT-5.1 Thinking 将在本周晚些时候登陆 API。旧版模型: 原有的 GPT-5 模型将在付费用户的下拉菜单中保留三个月，以便用户比较和适应。个性化定制功能语调预设: 更新并优化了语调选项，保留了 Default、Friendly 和 Efficient，并新增了 Professional、Candid 和 Quirky 等选项。精细化控制: 正在试验一项新功能，允许用户在个性化设置中直接微调 ChatGPT 的特征，如简洁度、热情度或表情符号使用频率。即时生效: 个性化设置的更改将立即在所有对话（包括正在进行的对话）中生效，确保体验的一致性。命名与未来命名原因: 本次更新命名为 GPT-5....

快速了解一下 Artificial Analysis 发布的 2025 年第三季度 AI 现状报告的核心内容

Artificial Analysis 发布了《2025 年第三季度 AI 状况报告》，以下是该报告的核心内容： 2025 年第三季度，人工智能行业呈现出空前激烈的竞争和加速创新的态势。各大 AI 实验室不仅在模型的智能、效率和速度上持续突破，竞争者的数量也在各个领域迅速增长。本季度的核心趋势表现为：竞争全面加剧：领先的 AI 实验室在模型性能上的差距逐渐缩小，同时，新的参与者不断涌现，尤其是在中国。智能体（Agent）成为焦点：AI 实验室的研发重点正转向提升模型的“智能体”能力，使其能够自主使用工具、执行更复杂的多步骤任务。图像与视频生成技术普及：随着 Gemini 2.5 Flash 等模型的发布，图像编辑功能在质量和普及度上显著提升，视频生成技术也日益成熟。开源模型加速发布：以 OpenAI 发布的 gpt-oss-20B 为代表，高质量的开源模型发布速度达到历史新高，与众多来自中国实验室的模型展开竞争。语音技术成熟并投入应用：语音转录、语音生成以及原生的语音对语音（Speech to Speech）技术日趋成熟，为实现更自然的生产级语音智能体铺平了道路。关键细节行业概览垂直整合：在 AI 价值链中，Google 凭借其从 TPU 芯片到 Gemini 应用的全面布局，成为垂直整合程度最高的公司。资本支出：大型科技公司持续增加对 AI 基础设施的投资，预计这一趋势将持续到 2026 年。例如，xAI 计划为其数据中心采购 300,000 个 Nvidia GPU。市场格局：中美的大型科技公司在语言、图像、视频等多个 AI 领域展开竞争，而规模较小的挑战者则倾向于专注于特定领域。语言模型 (LLM) 智能水平：OpenAI 凭借 GPT-5 模型重新夺回智能指数榜首，但与 xAI 的 Grok 4、Anthropic 的 Claude 4.5 和 Google 的 Gemini 2.5 Pro 差距极小，竞争异常激烈。成本与效率：尽管 GPT-4 级别的智能成本已降低了 100 倍，但智能体、长文本推理等新应用对计算资源的需求仍在急剧增加。同时，模型推理的价格在各个智能等级上持续下降。开源模型：虽然性能最强的模型仍是闭源的，但 OpenAI 发布的 gpt-oss-120B 等模型正在推动开源模型接近性能前沿。智能体（Agents）：智能体被定义为由大语言模型驱动、能自主使用工具完成端到端任务的系统。Q3 2025 发布的新模型普遍针对工具使用和智能体任务进行了优化。图像与视频模型视频技术：视频模型的质量进步神速，中国实验室在视频生成领域处于领先地位，例如快手的 Kling 2....

斯坦福 AI 俱乐部：Jason Wei 谈 2025 年 AI 领域的 3 个关键理念

文本来自于 Jason Wei 在斯坦福 AI 俱乐部上的分享。Jason Wei 是一位杰出的 AI 研究员，目前在 Meta Superintelligence 实验室工作。在加入 Meta 之前，Jason 帮助在 OpenAI 共同创建了 o1 模型和 Deep Research 产品。他也是思维链 (Chain of Thought) 推理的发明者之一，并在 Google Brain 记录了关于涌现现象的重要研究。当我们谈论AI将如何改变世界时，常常会听到两种截然不同的声音。一边是我那位做量化交易的朋友，他觉得ChatGPT虽然酷，但离他工作中真正需要的复杂技能还差得远。另一边，一位顶尖AI实验室的研究员却告诉我，他觉得我们人类“打工人”的好日子可能只剩下两三年了。巨大的认知差异背后，是我们对AI本质理解的偏差。 Jason Wei，这位曾在Google Brain推动了“思维链（Chain of Thought）”、在OpenAI共同创造了Q*和深度研究（Deep Research）、如今在Meta超级智能实验室工作的AI大牛，为我们提供了一个更清晰的思考框架。他认为，要看清2025年乃至未来的AI图景，你只需要理解三个简单又深刻的观点。这三个观点，就像三把钥匙，能帮我们打开对AI未来的认知大门，看清哪些是触手可及的现实，哪些又是遥远的幻想。趋势一：智能将变得像水电一样，随取随用想象一下，AI的发展有两个阶段。第一阶段是“开疆拓土”。在这个阶段，AI还无法很好地完成某项任务，研究人员的目标是努力解锁新能力。就像我们在过去几年看到的，AI在MMLU（一个衡量多任务语言理解能力的通用基准）上的得分逐年攀升，这就是在不断拓展能力的边界。第二阶段则是“商品化”。一旦某个能力被AI攻克，获取这项能力的成本就会急剧下降，最终趋近于零。我们可以看到一个清晰的趋势：要达到MMLU某个固定的分数，每一年所需要花费的计算成本（美元）都在断崖式下跌。为什么这个趋势会持续下去？一个关键原因是**“自适应计算”（Adaptive Compute）**的成熟。在过去，无论问题多简单（比如“加州的首都是哪里？”）还是多复杂（比如一道奥数题），模型处理它花费的计算量基本是固定的。但现在，我们可以根据任务的难度动态调整计算资源。简单的任务用小模型或少量的计算就能解决，这使得“智能”的成本可以无限逼近于零。这个趋势最直接的体现，就是**“即时知识”**的实现。获取公开信息的门槛正在被彻底踏平。不妨用一个例子来感受一下：问题1：1983年釜山的人口是多少？前互联网时代：你可能得花几小时开车去图书馆，翻阅一堆百科全书。互联网时代：几分钟的搜索和网页浏览。聊天机器人时代：几乎是瞬间得到答案。问题2：1983年釜山有多少对新人结婚？前互联网时代：这可能需要你飞到韩国，去政府档案馆翻阅几十本尘封的记录簿，耗时数周。互联网时代：如果你不懂韩语，可能要在无数网站中大海捞针，花上好几个小时。 AI智能体时代：像OpenAI的Operator这样的工具，可以通过访问KOSIS（韩国统计信息服务）数据库，经过一系列点击和查询，在几分钟内找到答案。问题3：1983年，亚洲人口最多的30个城市，按当年的结婚数量排序？前互联网时代：这几乎是个不可能完成的任务，可能需要耗费数月甚至几年。 AI智能体时代：虽然现在可能还需要几小时，但已经从“不可能”变成了“可能”。这对我们意味着什么？知识壁垒的消融：像编程、个人健康管理这些过去因知识门槛而显得“高大上”的领域，将被大众化。以前你想搞点“生物黑客”实验，医生可能只会给你一些标准建议；现在，ChatGPT能给你提供不亚于一个优秀医生的专业信息。私人信息的价值提升：当所有公开信息的获取成本都趋近于零时，那些未公开的、私人的、内幕的信息（比如市场上还没挂出来的待售房源）的相对价值就会飙升。个性化互联网的到来：未来，我们访问的可能不再是千人一面的公共互联网，而是一个为你量身定制的、能即时解答你任何疑问的“私人互联网”。趋势二：验证者定律——AI能做什么，取决于我们能多容易地评判它在计算机科学中，有一个很经典的概念叫**“验证不对称性”**（Asymmetry of Verification），说白了就是：对于某些任务，验证一个答案是否正确，远比从零开始找出这个答案要容易得多。我们可以把各种任务放到一个二维坐标系里，X轴代表“生成难度”，Y轴代表“验证难度”：数独：生成（解决）很难，但验证（检查）非常容易。编写Twitter的代码：生成极其困难（需要数千工程师），但验证相对简单（打开网站点几下看看功能是否正常）。奥数题：有时生成和验证的难度差不多。写一篇充满事实的论文：生成一篇看起来煞有其事的文章很容易，但要逐一核实每个事实（Fact-checking）却极其耗时和困难。提出一种新的饮食法：我花10秒钟就能声称“只吃野牛是最好的饮食法”，但要科学地验证这个说法的真伪，可能需要长达数十年的大规模、低噪音的实验。基于此，Jason提出了一个他称之为**“验证者定律”（Verifier’s Law）**的观点：...

六位人工智能先驱、2025年伊丽莎白女王工程奖得主罕见同台，分享他们的“顿悟时刻”，激辩 AI 泡沫论，并预测 AGI 的未来

Yoshua Bengio、Geoffrey Hinton、John Hopfield、 Yann LeCun、黄仁勋、比尔·戴利、李飞飞七人获得2025 年英国女王工程奖，以表彰他们在现代机器学习发展方面做出开创性贡献。本文来自于 11 月 6 日黄仁勋 (Jensen Huang)、Yoshua Bengio、Geoffrey Hinton、李飞飞 (Fei-Fei Li)、杨立昆 (Yann LeCun) 和 Bill Dally 在伦敦举行的英国《金融时报》人工智能未来峰会上与英国《金融时报》人工智能编辑 Madhumita Murgia 进行的对话。他们共同回顾了数十年的开创性工作——从神经网络到生成式 AI，并讨论了他们帮助创造的这项技术所带来的伦理、社会和经济影响。想象一下，把当今人工智能领域最顶尖、最具影响力的大脑们聚在同一张桌子旁，会碰撞出怎样的火花？最近，2025年伊丽莎白女王工程奖的六位获奖者——这个星球上最聪明、最举足轻重的一群人——就进行了一场这样的对话。他们是Geoffrey Hinton、Yann LeCun、Yoshua Bengio、Fei-Fei Li、Bill Dally和Jensen Huang（黄仁勋）。从奠定深度学习基石的理论家，到打造AI算力帝国的实干家，他们的工作共同塑造了我们今天所处的AI时代。在这场难得的围炉夜话中，他们不仅分享了职业生涯中那些“灵光一闪”的时刻，还就当下的AI热潮、未来的技术走向，甚至是“机器何时超越人类”等终极问题，展开了坦诚而深刻的讨论。灵光一闪：六位巨擘的AI觉醒时刻每个伟大的征程都始于一个微小的起点。对于这些AI先驱来说，那些决定性的“啊哈！”时刻，不仅改变了他们个人的轨迹，也为整个科技世界埋下了伏笔。 Yoshua Bengio：从兴奋到警觉 Bengio分享了两个截然不同的时刻。第一次是在他还是研究生时，读到Geoffrey Hinton的早期论文，他兴奋地想：“哇！也许有几个简单的物理定律就能帮我们理解人类智能。”这颗种子让他投身AI研究。而第二次，则是在ChatGPT问世后，一种“我们到底在做什么？”的警觉感油然而生。他对拥有目标且可能比人类更聪明的机器感到担忧，这促使他彻底转变了研究方向，致力于解决AI安全问题。 Bill Dally：从“内存墙”到“找猫实验” 在90年代末，Bill Dally致力于解决“内存墙”问题——访问内存比计算本身更耗时耗能。他提出的“流处理”概念，为后来的GPU计算铺平了道路。而真正的转折点，是2010年他与吴恩达（Andrew Ng）的一次早餐会。那时，吴恩达正用16000个CPU和神经网络技术在互联网上“找猫”。Dally和同事用48块Nvidia GPU重复了这个实验，结果让他大为震撼。他立刻意识到，Nvidia应该全力投入深度学习，专门为AI优化GPU。 Geoffrey Hinton：40年前的“迷你”语言模型早在1984年，Hinton就在尝试用反向传播算法来预测词语序列中的下一个词。他惊喜地发现，这个“迷你”语言模型仅仅通过预测，就能学习到词语的深层含义。这其实就是今天大语言模型（LLM）的雏形。那么，为什么花了40年才走到今天？Hinton坦言：“我们当时没有足够的算力，也没有足够的数据。” Jensen Huang：芯片设计与AI软件的惊人相似作为Nvidia的掌门人，黄仁勋大约在2010年同时从多伦多大学、纽约大学和斯坦福大学的研究者那里，接触到了深度学习的早期形态。他发现，设计深度学习软件的模式，和他过去设计芯片的思路惊人地相似——都是通过高层次的表示和结构化设计来构建复杂系统。这种“可伸缩性”的洞察至关重要：一个算法如果能在一个GPU上高效运行，就能在多个GPU、多个系统，甚至多个数据中心上运行。这为Nvidia的算力帝国奠定了基础。 Fei-Fei Li（李飞飞）：数据是那块缺失的拼图 2006年前后，作为一名年轻的助理教授，李飞飞痴迷于解决机器的视觉识别问题。她尝试了当时所有的算法，但都无法突破“泛化能力”的瓶颈。她和学生们意识到，机器和人类幼儿最大的区别在于——机器被“饿”着，缺乏足够的数据。于是，他们决定做一件当时看起来很“疯狂”的事：创建一个互联网规模的、手动标注的数据集——ImageNet。这个包含1500万张图片的数据集，成为了引爆深度学习革命的关键燃料。而她的第二个顿悟时刻是在谷歌担任首席科学家时，她意识到AI是一项“文明级技术”，必须将人文价值置于其核心，这也是她后来回到斯坦福创办“以人为本AI研究院”（Human-Centered AI Institute）的初衷。 Yann LeCun：从“仰慕者”到论战伙伴 LeCun年轻时就对“让机器自我学习”的想法着迷。他形容自己当时“要么太笨要么太懒”，不想从零开始编程一个智能机器。他希望能找到一种方法让机器自我组织和训练。在遍寻无果时，他发现了Hinton的论文，并视其为“1983年全世界最想见的人”。两年后，两人终于见面，在一次午餐上，他们发现彼此简直能补完对方的句子。LeCun早期痴迷于解决多层网络训练的难题，这正是反向传播的关键。后来，他与Hinton就“监督学习”和“无（自）监督学习”的路线展开了多年的辩论。有趣的是，ImageNet的巨大成功让监督学习大放异彩，整个社区都暂时“放弃”了自监督学习。但LeCun认为，LLM的成功恰恰证明了自监督学习的潜力，而下一个挑战，将是把这种能力应用到视频等更复杂的数据上。是泡沫还是革命？顶级大脑激辩AI算力狂热随着Nvidia成为全球市值最高的公司，一个问题盘旋在每个人心头：当前的AI热潮是可持续的革命，还是另一个即将破裂的科技泡沫？...

科技圈的疯狂一周：OpenAI 求政府“兜底”，马斯克拿万亿薪酬包，亚马逊发起对 Perplexity 的诉讼

本文来自于 Youtube 知名博主 Alex Kantrowitz 每周一次的最新科技新闻讨论。这周的科技圈，简直比好莱坞大片还精彩。OpenAI似乎在暗示，如果玩脱了，希望美国政府能来“兜底”；特斯拉的股东们大手一挥，批准了马斯克那份价值可能高达一万亿美元的薪酬计划，只为让他打造一个“全新的特斯拉”；而另一边，亚马逊已经把AI新贵Perplexity告上了法庭。这些看似孤立的事件，背后其实都指向了同一个问题：在这场狂飙突进的AI革命中，我们究竟身在何处？是泡沫破裂的前夜，还是新纪元的黎明？ OpenAI想要的“政府兜底”：一场公关灾难的诞生 “这周最大的‘社会主义’新闻，居然来自OpenAI。”播客一开场，主持人就忍不住调侃道。事情的起因是OpenAI的首席财务官Sarah Friar在《华尔街日报》的科技大会上的一番言论。当被问及如何为庞大的AI基础设施融资时，她直白地表示，公司正在寻求政府的“支持（backstop）”或“担保（guarantee）”，以便在出现问题时，能有政府来兜底。 “……也就是政府能提供的支持……比如担保，这能让融资顺利进行。” 记者追问：“所以是某种形式的芯片投资支持？” Friar肯定地回答：“正是如此。” 她将此举包装成国家战略安全的需要，声称为了在与中国的AI竞赛中保持领先，美国需要不惜一切代价加速AI生态系统的发展。站在OpenAI的角度，这个请求虽然听起来疯狂，却有其扭曲的逻辑。毕竟，这家公司近来予取予求，几乎没有什么是他们得不到的。既然AI是国家战略资产，那让纳税人为这个“国家冠军”的债务做担保，又何乐而不为呢？然而，互联网并不买账。消息一出，舆论瞬间爆炸。人们的反应很直接：凭什么要让普通纳税人为一家估值可能高达5000亿美元的私营公司承担风险？紧接着，更戏剧性的一幕发生了。面对汹涌的舆论，OpenAI开始了笨拙的“危机公关”。Sarah Friar在LinkedIn上发文，称自己用了“支持（backstop）”这个词“混淆了视听”，说自己的本意是强调公私合作的重要性。CEO萨姆·奥特曼（Sam Altman）也赶紧在推特上澄清： “我们没有、也不想要政府为OpenAI的数据中心提供担保。政府不应该挑选赢家和输家，纳税人也不应该为那些做出错误商业决策的公司买单。” 这番操作让人啼笑皆非。明明是自己亲口说出的话，被记者反复确认，现在却矢口否认。这已经不是简单的“口误”，而是一次暴露了公司沟通策略混乱的公关灾难。这场风波为何如此引人注目？这不仅仅是因为“向政府要钱”这个行为本身。更深层次的原因在于，整个市场对OpenAI的依赖和担忧。不匹配的数字游戏：不久前，当被问及如何用130亿美元的年收入支撑起1.4万亿美元的支出承诺时，奥特曼显得相当不耐烦。现在，CFO又公开“求兜底”，这让外界不得不怀疑：OpenAI的财务状况是不是真的像看上去那么光鲜？他们描绘的宏伟蓝图，是不是一个无法兑现的空头支票？系统性风险：如今，OpenAI几乎成了整个AI浪潮，乃至全球股市的“金字塔尖”。从英伟达、微软到甲骨文，无数公司的命运都与OpenAI的成功息息相关。如果OpenAI的根基不稳，其引发的连锁反应将是灾难性的。不成熟的领导层：Sarah Friar并非新手，她曾在高盛工作十余年，担任过上市公司CFO。但在OpenAI，她的言行却像个初入职场的菜鸟。这不禁让人怀疑，是不是OpenAI内部那种混乱、缺乏纪律的文化，正在侵蚀着这些经验丰富的职业经理人？这场闹剧暴露出的，是一家在技术上飞速前进，但在公司治理和沟通上却极度不成熟的“巨婴”形象。当一家公司的体量和影响力达到如此规模时，每一个公开表态都应慎之又慎。显然，OpenAI还没学会这一点。马斯克的万亿薪酬与人形机器人大军就在OpenAI焦头烂额之际，埃隆·马斯克却迎来了自己的高光时刻。在德州奥斯汀总部，伴随着跳舞的人形机器人和炫目的灯光，特斯拉股东大会通过了那份备受争议的薪酬方案。这份方案如果完全实现，将为马斯克带来近万亿美元的财富。但这钱也不是白拿的。马斯克得把特斯拉的市值从现在的5000亿美元左右，一路推高到惊人的8.5万亿美元，同时还要达成一系列近乎疯狂的营收和利润目标。这究竟意味着什么？这标志着特斯拉作为一家“汽车公司”的时代可能已经结束了。马斯克的目标不再是多卖几辆电动车，他的野心是RoboTaxi（自动驾驶出租车）和人形机器人。他直言不讳地表示，需要拥有公司25%的股份，以确保他正在创造的“机器人大军”不会落入坏人之手。这番话听起来像是一种威胁，又像是一种承诺。他仿佛在对股东们说：“把控制权给我，否则这支强大的机器人军队可能会失控，只有我能驾驭它。” 从某种意义上说，如果马斯克真的能实现这个科幻般的愿景，那这份万亿薪酬或许是值得的。毕竟，相较于已经略显拥挤的电动车市场，一个由机器人提供无尽劳力的未来，其想象空间要大得多。所以，别再盯着特斯拉的汽车销量看了。这家公司的未来，藏在那尚未成形的机器人大军里。亚马逊 vs. Perplexity：互联网经济的未来之战当我们在讨论万亿市值和机器人军队时，一场更接地气、却可能决定互联网未来的战斗已经打响。亚马逊正式起诉了AI搜索创业公司Perplexity。原因是Perplexity推出了一项名为“Comet”的AI代理功能，它可以代替用户在亚马逊等网站上自动完成购物流程。亚马逊认为，Perplexity的机器人没有表明自己的“非人类”身份，这是“计算机欺诈”。这起诉讼的背后，是新旧两种互联网模式的根本冲突。亚马逊的“万物商店”模式：亚马逊的成功，在于它将自己打造成了用户购物的唯一入口。你想买任何东西，第一个想到的就是去亚马逊。它通过锁定用户，控制了整个购物流程，并在此基础上建立了庞大的广告业务。 AI代理的“新万物商店”模式: 而Perplexity这样的AI代理，则彻底颠覆了这个逻辑。用户不再需要访问亚马逊，他们只需对AI说：“帮我买最好的纸巾。”AI就会自动浏览全网，比较价格，然后直接下单。在这个模式下，聊天机器人本身就成了新的“万物商店”。亚马逊的护城河瞬间被夷为平地。它从一个用户离不开的平台，降级成了AI代理的一个可选项。这才是亚马逊真正恐惧并必须反击的原因。这场诉讼引出了一个更宏大的问题：如果AI代理可以自动化人类在互联网上的一切行为，那么现有的商业模式将如何维系？一个依赖广告的地图应用，如果用户只是通过AI获取路线，从不看页面上的广告，它还能生存吗？一个内容网站，如果流量都来自不产生广告价值的AI爬虫，它还有动力创作吗？这不禁让人联想到马斯克的机器人。如果亚马逊可以合法地禁止Perplexity的机器人流量，那么，线下的沃尔玛能不能禁止我的人形机器人进店购物呢？“机器人不得入内”的牌子会成为常态吗？我们玩笑般讨论的“机器人权利”，或许在不远的将来，真的会成为一个严肃的法律和社会问题。写在最后：当科幻照进现实回顾这一周，充满了荒诞与现实的交织。 OpenAI内部“政变”的法庭文件被披露，我们看到的不是“为了全人类”的高尚情怀，而是一场充满谎言、背叛和权力斗争的办公室政治，甚至连双方律师都在庭上互呛“管好你自己（Check yourself）”。可与此同时，一位接受采访的普通农民却告诉记者：“我现在用Claude，Google太难用了。” 这或许就是AI时代的真相：一边是精英们不成熟的权谋和资本市场的狂热泡沫，另一边是这项技术正以不可阻挡之势，渗透到我们生活的每一个角落，并确实在创造价值。至于未来，它可能既混乱又充满希望。我们或许终将要为这些AI公司的疯狂买单，但我们也确实站在一场前所未有的技术革命的门槛上。正如播客里开的玩笑，也许我们的未来，就是去竞选一个“USGPT”（美国政府版GPT）平台，然后领导我们的人形机器人大军，去定义下一个时代。毕竟，掌控机器人军队的人，才能掌控未来，不是吗？