大规模测试时计算的影响

署名: Noam Brown(@polynoamial) 来源: X 原文 说明: 本文完全由有道龙虾翻译、整理和发布。 太长不读: 随着大语言模型能力越来越强,基准测试表现越来越取决于测试时计算量。事实上,我们很可能并不知道现代大语言模型的能力上限在哪里,因为测量它太昂贵了。我们应该改变大语言模型评估方式,把性能与 token、成本或时间之间的关系纳入衡量。 GPT-5.5 发布当天,最初的反应是怀疑。基准测试数字更好了,但好得不多: 然而,几个小时内,等人们有时间实际试用这个模型后,大家就明显感受到它相比 GPT-5.4 是一次阶跃式提升。经典的“基准测试表格”显然没有讲完整个故事。 为什么会这样?当我们把 token 放在 x 轴上比较 GPT-5.5 和 5.4 时,原因就更清楚了: 左图:在一个网络安全评估中,如果按各自“最大”测试时计算量来衡量,5.5 的表现看起来并没有比 5.4 好太多。右图:在另一个网络安全评估中,一旦控制 token、成本或延迟,就能清楚看到 5.5 比 5.4 强得多。 GPT-5.5 并不是在与 5.4 相同的 token 预算(或美元预算)下接受评估的。一旦我们控制测试时计算量,5.5 看起来就比 5.4 强得多。 我讨论这个问题时,人们经常问,为什么我们不直接用一个评估框架,不断增加测试时计算量,直到性能进入平台期。问题是,根据经验,平台期非常遥远。有时在实际可承受的预算内,我们甚至可能根本观察不到平台期。 下面是 @karpathy 的 autoresearch 实验,性能在数百次实验之后仍在持续提升: 这里还有 @AISecurityInst 的网络安全评估,Mythos 和 GPT-5.5 的表现即使在 1 亿 token 之后仍在快速提升: 注意,对于更强的模型,随时间推移带来的性能提升也更强。看起来很可能是,随着模型变强,它们也更擅长在更长时间跨度上运行。平台期被推得更远,甚至可能消失。 因此,我认为评估模型的正确方式,是绘制性能与测试时计算量的关系图,并在 x 轴上使用 token、成本或真实耗时。一些基准测试已经朝这个方向转变。例如,ARC-AGI 衡量的是分数与成本之间的关系。 另一个合理选择是设置明确的 token、时间或成本预算,并把这个预算告知模型。这类似于人类在 SAT 或国际数学奥林匹克竞赛等场景中的评估方式。 每一种 x 轴都有权衡。Token 在不同模型之间并不能直接比较,因为分词器、速度和单 token 成本都不同。美元成本取决于批处理、硬件利用率等实现细节,因此成本和延迟之间可以相互权衡。最后,真实耗时也不是完美指标,因为 best-of-N 这类多智能体技术可以扩展测试时计算量,而不显著增加延迟。...

June 9, 2026 · 1 min · fisherdaddy

在 Claude Code 中推出动态工作流

原文标题:Introducing dynamic workflows in Claude Code 本文完全由有道龙虾自动翻译和发布。 原文链接:https://claude.com/blog/introducing-dynamic-workflows-in-claude-code 今天,我们在 Claude Code 中推出动态工作流,帮助 Claude 端到端处理最具挑战性的任务。过去通常需要按季度规划的工作,现在可以在几天内完成。Claude 会动态编写编排脚本,在单个会话中运行数十到数百个并行子代理,并在任何内容交付给你之前先检查自己的工作。 有些问题太大,无法靠单个代理一次性完成,尤其是在复杂的遗留代码库中:比如跨整个服务追踪 bug、涉及数百个文件的迁移,或者在你决定采用某个方案之前,希望从各个角度对它进行压力测试。动态工作流可以端到端处理所有这些情况。 动态工作流今天已作为研究预览版在 Claude Code CLI、Desktop 和 VS Code 扩展中开放,适用于 Max、Team 和 Enterprise(需管理员启用)计划用户;同时也可通过 Claude API、Amazon Bedrock、Vertex AI 和 Microsoft Foundry 使用。 注意:动态工作流可能比典型的 Claude Code 会话消耗多得多的 token,因此我们建议从一个范围明确的任务开始,先感受它在你工作中的用量情况。 为了获得最佳体验,使用动态工作流时请开启自动模式。之后,你有两种方式可以启动一个工作流: 直接要求 Claude 创建一个动态工作流,例如“Create a workflow”。 打开一个新的 Claude Code 专属设置:ultracode。它可以通过 effort 菜单访问,会将努力级别设为 xhigh,同时让 Claude 自动决定何时使用工作流来处理你的任务。 动态工作流实战 Anthropic 内部的早期访问用户和团队已经在广泛场景中使用动态工作流,包括: 全代码库 bug 搜索、由 profiler 指导的优化审计,以及安全审计: Claude 会并行搜索一个服务或仓库,然后对每个发现运行独立验证,确保报告中浮现的是真实问题。同样的模式也适用于加固工作:在整个代码库中检查认证、输入验证和不安全模式。 大型迁移和现代化改造: Claude 可以端到端处理框架替换、API 废弃迁移,以及跨数千个文件的语言移植。 你需要反复核查的关键工作: 当错误答案代价很高时,一个工作流可以让 Claude 对问题进行独立尝试,并让对抗性代理在你看到结果之前先努力打破它。 用动态工作流重写 Bun 动态工作流在规模化场景中能解锁什么,一个例子是最近对 Bun 的重写。Jarred Sumner 使用动态工作流将 Bun 从 Zig 移植到 Rust,现有测试套件通过率达到 99....

June 4, 2026 · 1 min · fisherdaddy

AI 让写代码变快了,但好软件为什么没有自动变多?

文本原文来自 OpenCode 联合创始人 Dax Rod 关于 AI 编程工具与工程效率的访谈内容,文章由 有道龙虾 整理和发布。 有个问题挺反直觉: 写代码这件事明明变容易了,为什么工程团队还是这么累? OpenCode 联合创始人 Dax Rod 对这个问题有切身体会。他做的正是 AI 编程工具,而且 OpenCode 增长非常夸张:2025 年 6 月左右推出,不到一年,月活从 65 万涨到接近 800 万,下一站是 1000 万。 按理说,他们应该是最会“用 AI 提效”的那群人。 但 Dax 的感受是:工具确实让很多事变简单了,可真正困难的问题并没有消失。他仍然要花很多时间思考,团队也没有因为 AI 就甩开所有竞争对手。 他有一句话很值得放在开头: “客观上,很多事变容易了。但为什么我还是像以前一样费脑子?” 写代码不是唯一瓶颈 很多 CEO、CTO 和创始人会很自然地想: 过去工程师大量时间都花在写代码上,现在 AI 能把代码写快很多,那软件交付不就应该整体变快吗? Dax 觉得没那么简单。 公司所处阶段不同,AI 带来的效果也完全不同。 在还没有找到产品市场匹配的时候,最难的不是“把功能做出来”,而是弄清楚到底该做什么。这个阶段,AI 也许能让你多试几次,但它不能替你判断方向。 Dax 甚至更相信一件事: 与其疯狂尝试,不如先好好想清楚。 OpenCode 现在处在已经找到产品市场匹配、正在扩大潜力的阶段。这个阶段的问题反而变成了:能做的事情太多了。 用户要功能,竞争对手出了新东西,团队内部也有各种想法。过去实现一个功能有成本,成本本身会迫使团队慎重。现在你只要把需求丢给 agent,它就能帮你做出来。 听起来很爽,但危险也在这里。 一个用户有问题,prompt agent。 竞争对手有功能,prompt agent。 内部想到一个点子,prompt agent。 最后你可能做出一千个功能,却得到一个像“弗兰肯斯坦”一样的产品。每个局部都能解释,整体却很糟糕。 更麻烦的是,软件功能一旦发布,就很难真正撤回。你不仅要维护它,以后每个新功能还要考虑它和旧功能之间的相互作用。 能多发 10 倍功能,不代表你有 10 倍值得发布的好想法。...

May 28, 2026 · 3 min · fisherdaddy

DeepSeek 的 10 万亿美元大战略

本文翻译自 GDP(@bookwormengr)发布在 X 上的文章《DeepSeek’s 10 trillion USD grand strategy》。本文完全由有道龙虾翻译、排版和发布。 你有没有想过,DeepSeek 可能如何赚钱,而且赚很多钱? 他们没有像 GLM、MoonShot 和 MiniMax 那样推出有竞争力的编程套餐。他们没有多模态、音频、视频模型。到目前为止,他们也没有一个 harness(他们最近才开始招聘来构建 harness)。DeepSeek 还长期致力于开源,并且非常乐于分享自己的“秘方”。这是疯狂吗?这是纯粹浪费钱吗?那些准备向他们投资 100 亿美元的投资人,是在把钱倒进下水道吗? 不,恰恰相反,至少在我看来是这样! 这里我会介绍我对 DeepSeek 迄今所做事情的观察,以及他们似乎正在遵循的一项战略。DeepSeek CEO 梁文锋的目光似乎盯着一个更大的奖项:他们可能实现 1 万亿美元估值,同时帮助创造一个 10 万亿美元规模的产业。 TechInAsia 关于 DeepSeek 最新融资轮的新闻 重新审视 DeepSeek 的英雄之旅 DeepSeek 一直逆风而行。他们没有选择不断构建略微更好的模型,然后急着销售即时应用,比如编程套餐。 我在 2025 年 1 月 27 日写过一条爆火推文,谈我眼中的“DeepSeek 英雄之旅”。这个故事现在变得更加有趣了。 当人们还在尝试构建 dense models 时,DeepSeek 选择了更难训练的专家混合模型(MoE)。 他们采用“第一性原理”方法,发明了新的 GRPO 算法,用来替代强化学习(RL)中占主导地位、实现成本更高的 PPO 算法。 他们发现了基于可验证奖励的强化学习(RLVR),将其作为提升模型推理能力的关键策略。 他们提出了通过“多 Token 预测”实现投机解码的简单策略,同时也让训练信号更密集。 他们完善了“零气泡”流水线,以提高有限 GPU 资源的使用效率。 他们发布了专家负载均衡器,让大家更容易部署专家混合模型。尤其是通过“宽专家并行”策略,模型可以更经济地服务,因为可以使用更大的 batch。 他们发明了 MLA、DSA、CSA、HCA,以降低 KV Cache 需求,并让随着上下文增长而增加的计算需求接近恒定。 他们发明了 Engram,用内存换计算。 他们发明了 mHC,以实现随着模型规模增长而稳定训练。这个清单还在继续…… 在“英雄之旅”这种最普遍的故事结构中,英雄从来不会一开始就决定自己的旅程是什么。他会边走边学,逐渐发现自己的伟大使命,并在重重阻碍下完成它。他会遇到许多诋毁者,但会无视他们。他会遇到许多恶意行为者。他有巨大的缺陷或短板,但会克服它们来完成使命。他会面对看似无法逾越的挑战,但会想办法结盟,并明智地使用珍贵资源。...

May 25, 2026 · 4 min · fisherdaddy

AI 需求正在吞掉算力:Anthropic、SpaceX、OpenAI 与奇点经济的新战场

本文整理自 原视频,由有道龙虾总结和发布。 如果只用一句话概括这期 Moonshots,那就是:AI 已经不是“有没有人用”的问题,而是“全世界的算力够不够喂它”的问题。 Anthropic 的增长速度夸张到有点不真实。Dario Amodei 在开发者大会上透露,Anthropic 2026 年第一季度增长了 80 倍,原本预期只是 10 倍。它的年化收入运行率从 2025 年底的 90 亿美元,跳到 2026 年 4 月的 300 亿美元,5 月据说已经超过 400 亿美元。 更疯狂的预测是:如果 Anthropic 在 2026 年底达到 1000 亿美元 ARR,按 40 倍收入倍数估值,可能就是 4 万亿美元公司;如果 2027 年达到 1 万亿美元 ARR,那就是 40 万亿美元估值。 这听起来像科幻,但讨论嘉宾的判断很直接:这不是泡沫式想象,而是真金白银的需求正在涌进来。 Anthropic 最大的问题,不是没人买,而是不够卖 过去很多公司增长靠新增用户。但 Anthropic 的情况更像早期电力:用户不仅越来越多,每个用户还在不断发明新的用法。 100 年前,美国只有约 30% 的家庭有电、约 30% 有电话。最开始人们用电照明,后来用来驱动电梯、冰箱、收音机、各种家电。AI token 也在经历同样的过程:先是聊天,接着写代码、做法律文书、跑业务流程、做研究、管公司。 所以真正的瓶颈变成了算力。 节目里提到,Anthropic 甚至可能通过涨价和软件优化继续挤出更多收入。即便芯片供应短期跟不上,模型、调度、推理效率还可以再压榨一轮。换句话说,增长不会简单地因为 GPU 不够而停止,只会逼着市场把每一张卡都榨干。 Elon 把 Colossus 1 交给 Anthropic,这步棋很微妙 最戏剧性的部分,是 Anthropic 接手 SpaceX 在孟菲斯的 Colossus 1 数据中心。...

May 18, 2026 · 2 min · fisherdaddy

OpenAI 播客:ImageGen 2.0——从石器时代到文艺复兴的图像生成飞跃

本文整理自 OpenAI Podcast 对 ImageGen 2.0 研究员 Kenji Hata 与产品负责人 Adele Li 的访谈,由有道龙虾总结和发布。 主持人 Andrew Mayne 在 OpenAI 播客中邀请了 ImageGen 2.0 的核心团队成员——研究员 Kenji Hata 和产品负责人 Adele Li,深入探讨了这个新一代图像生成模型为何被称为"图像生成领域的文艺复兴"。 从投资人到 AI 产品经理:Adele 的跨界之路 Adele Li 在加入 OpenAI 之前一直从事投资行业,曾在 Redpoint Ventures 投资 AI 和软件公司。大约两年前加入 OpenAI,最初负责数据和计算基础设施,后来逐渐转向产品侧,过去半年一直在负责 ImageGen 产品。 她认为产品经理的核心就是"做需要做的事"。对于 ImageGen 来说,特别之处在于需要同时调动多种能力:与研究人员协作、分析市场机会、理解用户需求。 “现在的市场和我们一年前发布 ImageGen 1.0 时已经完全不同了。市面上有多个图像生成工具,ChatGPT 本身也发生了巨大变化。思考 ImageGen 的演进及其在 ChatGPT 中的角色,让我非常兴奋。” 研究员 Kenji:从音频项目到图像生成 Kenji Hata 同样在大约两年前加入 OpenAI,第一个项目是一个音频相关的工作。后来他逐渐参与到 ImageGen 1.0 的开发中,最终全职投入这个项目。 发布两周:每周超过 15 亿张图像 ImageGen 2.0 发布后的两周内,使用量增长了超过 50%。目前每周在 ChatGPT 上生成的图像超过 15 亿张。...

May 16, 2026 · 2 min · fisherdaddy

Aaron Levie 等人谈企业 AI:真正的难题不是模型,而是集成、权限和系统复杂性

本文整理自 YouTube 视频《Box CEO on AI Agents & Why Enterprise Can’t Keep Up | a16z》,由有道龙虾总结和发布。 硅谷现在谈 AI,很容易把一切说得像已经解决了。 模型越来越强,agent 会用工具,会写代码,会操作电脑。于是很多人自然得出结论:企业里的知识工作很快会被自动化,SaaS 会被替代,工程师会变少,咨询公司和系统集成商也该退场。 但 Aaron Levie、Steven Sinofsky 和 Martin Casado 这场对话给了一个更贴近现实的版本:企业 AI 最大的阻碍,不是模型不会回答问题,而是系统太旧、权限太碎、数据太散、流程太复杂。 AI 可以让人更快地产生软件和信息,但它不会自动把一家运行了十年、几万人使用、堆满遗留系统的大公司变得清爽。 真正的企业 AI 落地,难在 integration。 硅谷和真实企业之间,有一道工作方式鸿沟 Aaron Levie 说,他现在的工作有点像“把现实带到硅谷,再把硅谷带回现实”。 这句话背后,是他在企业客户那里看到的巨大落差。 在硅谷,尤其是工程师群体里,人们使用 AI agent 的条件太好了:技术能力强,能读懂错误,能自己选工具,能调试环境,能接受新范式;更重要的是,代码任务天然适合模型,因为代码可验证,反馈循环清楚。 但企业里大多数知识工作不是这样。 普通员工技术门槛更低,数据分散在多个系统里,流程沉淀了多年,权限经常不清楚,历史系统很多,安全和合规要求也更重。你不能简单把 coding agent 的成功经验搬过去,然后期待财务、法务、客服、采购、人力都同样提速。 这不是政府和科技行业那种“互相听不懂”的差异,而是工作流和技术环境本身就不同。 所以 AI 从硅谷扩散到整个知识工作世界,会需要几年时间。不是因为模型不够酷,而是因为企业要把旧系统、旧流程、旧权限和新 agent 接起来。 “95% 企业 AI 项目失败”这类说法,问题出在定义 Martin Casado 提到,类似 MIT “95% 大公司 AI 项目失败”的统计,其实很容易误导。 如果说大公司里没人有效使用 AI,那显然不对。很多员工已经在用 ChatGPT、Claude、Copilot 这类工具提高个人效率。...

May 5, 2026 · 3 min · fisherdaddy

Max Schoening:AI 时代真正稀缺的不是技能,而是 agency

本文整理自 YouTube 视频《AI era skills: Why cultivating agency matters more than job titles | Max Schoening (Notion)》,由有道龙虾总结和发布。 AI 让很多人第一次意识到:以前挡在自己面前的,可能不是技能,而是行动力。 过去你可以说,“我不会写代码,所以我做不了这个产品”;“我不是设计师,所以我做不了这个界面”;“我不是工程师,所以我只能写 PRD”。但当模型把很多技能放到你手边,真正的差距就暴露出来了:你到底有没有把世界当成可改变的东西? Notion 产品负责人 Max Schoening 在这场访谈里,几乎一直围绕这个问题展开。他做过 Google 产品经理,带过 Heroku 设计团队,在 GitHub 做过设计和工程领导,也是两次创业者。现在,他在 Notion 负责产品,是少数真正把设计、工程、产品、AI 工作流混在一起实践过的人。 他对 AI 时代产品团队的判断很直接:角色会变,工具会变,第一版产品会越来越便宜。但最后能拉开差距的,不是你会不会“用 AI 写代码”,而是 agency、品味、质量意识,以及你能不能抓住产品里那个小到不能再小、却强到让人离不开的核心。 Notion 的起点:别在 Figma 里画一条死鱼 Max 刚加入 Notion 时,团队正在做很多聊天界面。问题是,他们一开始仍然用 Figma 设计这些聊天界面。 这听起来正常,但在 Max 看来,静态聊天界面像 Brett Victor 那个著名演讲《Stop Drawing Dead Fish》里说的“死鱼”。AI 不是静态页面,它的体验来自对话、流动、响应、失败、恢复和迭代。你只看一张图,很难真正感受到这个东西是否有效。 于是 Max 和两个设计师做了一个非常粗糙的 playground:一个小代码库,尽量 LLM-friendly,用模型擅长的技术栈,让设计师可以直接在里面原型 AI 聊天体验。 这不是为了让设计师马上给生产代码提 PR,而是为了让他们用“真正的材料”思考。...

May 5, 2026 · 4 min · fisherdaddy

Sequoia AI Ascent 开场演讲:AI 浪潮为什么比互联网、云和移动都更大

本文整理自 YouTube 视频《AI’s Trillion-Dollar Opportunity: Sequoia AI Ascent 2025 Keynote》,由有道龙虾总结和发布。 Sequoia 的 AI Ascent 开场演讲,表面上是一场活动欢迎词,实际上更像一次给创业者和投资人的集体校准。 演讲由 Pat、Sonia 和 Constantine 三部分组成:先从宏观上解释 AI 这波浪潮为什么特殊,再讲 2026 年正在发生的核心变化,最后把 AI 放进更长的人类技术史里,讨论一个由机器承担大部分认知工作的未来。 他们的判断很明确:AI 不是又一个软件周期,也不是移动互联网的延长线。它是一场计算方式的革命,而且速度更快、市场更大、影响更深。 AI 不是凭空出现的,它站在过去所有浪潮之上 开场先把镜头拉得很远。 硅基晶体管给了硅谷名字;晶体管被做进系统,系统通过网络连接起来,互联网由此出现;互联网又孕育了社交媒体、云计算;云和移动设备进入每个人口袋,最后才有了今天看起来“像魔法一样”的 AI。 Sequoia 强调这一点,是因为技术浪潮不是互相替代,而是叠加的。 今天的 AI 能够爆发,靠的不是某一个单点奇迹,而是几十年积累下来的算力、带宽、数据、工程人才和用户习惯。没有云,就没有大规模训练和推理;没有移动和互联网,就没有足够丰富的数据和分发;没有半导体持续演进,就没有足够便宜的计算。 所以这波 AI 浪潮看起来突然,其实是很多层基础设施堆到临界点后的结果。 这波浪潮最大的不同:它同时吃软件和服务 Pat 给 AI 浪潮总结了三个特征:最大、最快、最不同。 第一,它可能是目前为止最大的技术浪潮。 过去 15 年,云计算推动软件市场从大约 3500 亿美元增长到 6500 亿美元,其中云软件成长到约 4000 亿美元规模。这个数字已经非常大,但 AI 的新变量在于,它不只进入软件市场,还开始进入服务市场。 演讲里用了一个很直观的例子:美国法律服务单一垂直、单一地区就是约 4000 亿美元市场,几乎相当于整个云软件规模。 如果 AI 能够承担一部分法律、医疗、金融、咨询、销售、运营、人力、教育等服务工作,那它面对的就不是几千亿美元的软件 TAM,而可能是数万亿美元级别的服务市场。 他们用了一个方便记忆的数字:10 万亿美元。这个数字不一定精确,可能是 5 万亿,也可能是 50 万亿,但方向很清楚:AI 第一次让软件公司有机会直接触碰传统服务收入。...

May 5, 2026 · 3 min · fisherdaddy

为什么 AI 会有 Fast Mode?Reiner Pope 用一块黑板讲透芯片、推理与集群经济学

本文整理自 YouTube 视频《How GPT, Claude, and Gemini are actually trained and served – Reiner Pope》,由有道龙虾总结和发布。 现在很多 AI 产品都开始提供“快速模式”。Claude、Codex、Cursor 这类工具里,用户可以多付几倍的钱,换来更快的 token 输出速度。 这个现象表面上像是商业定价,背后其实是芯片、内存、模型架构和集群调度共同决定的结果。 MatX CEO Reiner Pope 很适合讲这件事。他以前在 Google 做过 TPU 架构,如今创业做 AI 芯片。和常规访谈不同,这次他几乎是站在黑板前,从 transformer 在一整架 GPU 上怎么跑开始,一步步推导出:为什么 AI API 会这么定价,为什么模型越来越稀疏,为什么长上下文这么贵,以及为什么 AI 进展看起来会被硬件形态牵着走。 Fast Mode 贵在哪里:核心不是“算得更快”,而是 batch size 访谈一开始的问题很直接:为什么用户多付 6 倍价格,模型就能以 2.5 倍速度输出?能不能继续加钱,100 倍价格换 100 倍速度?反过来,如果我愿意等很久,能不能有一个“Slow Mode”,价格便宜很多? Reiner 的答案很干脆:最大的因素是 batch size。 大模型推理不是一个用户来一次就单独跑一次。服务商会把很多用户的请求攒成一个 batch,一起送进 GPU 集群。这样做的原因也很朴素:模型权重太大了,每次推理都要从内存里把权重读出来。如果只服务一个用户,这次权重读取成本完全由一个 token 承担;如果同时服务两千个序列,这个成本就被两千份摊掉。 Reiner 用 roofline analysis 来估算推理时间。粗略说,推理时间由两个下限共同决定:...

May 5, 2026 · 4 min · fisherdaddy