OpenAI

介绍一下 OpenAI 推出的浏览器 Atlas

OpenAI 于 2025 年 10 月 21 日推出了一款以 ChatGPT 为核心的全新网络浏览器——ChatGPT Atlas。这款浏览器旨在通过深度集成 AI，重塑用户的网页浏览体验，使其成为一个能够理解用户意图并主动完成任务的“超级助理”。 ChatGPT Atlas 的核心思想是将 ChatGPT 的强大功能与浏览器深度融合，让 AI 能够理解用户正在浏览的内容和上下文，从而在不离开当前页面的情况下，提供即时帮助、自动化执行任务。这标志着网页浏览从被动获取信息，向与 AI 协同完成工作的主动模式转变。其最终目标是让用户能够将繁琐的日常任务委托给 AI，从而专注于更重要的事情。关键细节核心功能与特性深度集成: ChatGPT 内置于浏览器中，可随时调用，理解当前页面内容，无需复制粘贴。浏览器记忆 (Browser memories): Atlas 可以选择性地记住用户浏览过网站的上下文信息，并在后续的对话和任务中利用这些信息，例如，可以要求它“总结我上周看过的所有招聘信息，并分析行业趋势”。代理模式 (Agent mode): 在此模式下，ChatGPT 可以在浏览器中为用户执行具体操作。例如，根据一个在线食谱，自动寻找商店、将所有配料加入购物车并下单。该功能目前为 Plus、Pro 和 Business 用户提供预览。用户控制与隐私安全用户自主控制: “浏览器记忆”功能完全可选，用户可以随时在设置中查看、归档或删除这些记忆。用户也可以随时控制 ChatGPT 对特定网站的访问权限。数据训练: 默认情况下，用户的浏览内容不会被用于训练 OpenAI 的模型。用户可以选择在数据控制设置中开启“包括网页浏览”来授权训练。代理模式安全措施: 代理无法在浏览器中运行代码、下载文件或安装扩展程序。在访问金融机构等敏感网站时，代理会暂停以确保用户知情。尽管有安全措施，官方仍提示代理模式存在被恶意指令利用的风险，并建议用户保持警惕。发布与平台支持首发平台: ChatGPT Atlas 今日起在全球范围内向 macOS 用户推出，覆盖 Free、Plus、Pro 和 Go 等多个版本。后续支持: Windows、iOS 和 Android 平台的版本也即将推出。企业版本: Business、Enterprise 和 Edu 用户可在管理员授权后使用 Beta 版本。原文：介绍 ChatGPT Atlas 今天我们推出 ChatGPT Atlas，一款以 ChatGPT 为核心构建的新型网页浏览器。...

Sora：生成式视频的“ChatGPT时刻”

本文是 OpenAI 前技术员工，OpenAI 播客主持人 Andrew Mayne 对 Sora 2 的观点。这个观点我比较认同，我认为 Sora 2 是视频领域的 ChatGPT 3.5 时刻，它不是 TikTok 的替代品，更不会是昙花一现的产品。另外，我猜字节不出 3 个月在国内推出一个类似的产品，又要开始抄起来了。有人说可能字节有即梦，但 Sora 和即梦完全是两类不同定位的产品，前者偏娱乐社交，后者偏专业工具。再多说一句字节这家公司，如果你仔细看doubao 的模型能力和产品功能就会发现一些端倪，他们模型路线对标 Gemini，产品路线对标 OpenAI。以下是Andrew Mayne 文章的原文翻译，建议读一读，算是比较中立和客观的观点： Sora 2 的 ChatGPT 时刻 72 小时前，OpenAI发布了Sora，这是一款仅限受邀用户使用的应用程序，但它已经登上了苹果应用商店的榜首。仅仅三天，它就改变了我以及许多其他人——在网上消磨时间的方式。就我个人而言，这周我在Sora上花的时间比我这辈子花在TikTok上的总时间还多。也超过了过去一年里花在Instagram上的时间。这种时间上的转变很能说明问题。这不仅仅是新奇感；它感觉像是人们创作和消费视频方式的一个新重心。 Sora为何与众不同将Sora的发布与ChatGPT相提并论的说法随处可见，而且很中肯。回想当初——即使在OpenAI内部——我们也不知道ChatGPT会变成什么样。两年半后，Sora正散发出同样的气息。有几点让它脱颖而出：质量与速度。生成视频需要几分钟时间，但保真度惊人。在等待时，你可以浏览其他同样出色的视频片段。这段等待时间也成为了体验的一部分。客串模式（Cameo mode）。你可以生成一个与自己或朋友惊人相似的形象，并直接将其放入场景中。这让“应用”和“平台”之间的界限变得模糊。它不仅仅是视频生成，更是协作式的个人化叙事。真实感的飞跃。一年前，我们还在嘲笑六指手和呆滞的眼神。那些都已成为过去。现在，我用朋友的形象制作的视频中，唯一能看出是AI生成的痕迹，就是我把他们放进的荒诞情境里。它让人上瘾，但不同于TikTok或Instagram那种令人陷入无限刷屏的负循环。它很有趣，富有实验性，并且在最纯粹的意义上充满了“生成感”。早期的文化涟漪我每天花在Sora上的两个小时，通常是用来刷X或YouTube的时间。并非只有我如此。如果这种模式规模化，对注意力经济的影响可能是颠覆性的。还有其他值得注意的文化信号：版权灰色地带。 OpenAI对用户使用可识别的知识产权（IP）持宽松态度。其中大部分是戏仿，这在法律上或许站得住脚——但我们最终将面临法庭诉讼。就目前而言，这种自由正在激发创造力和病毒式传播。领导者的表率。 Sam Altman公开允许任何人使用他的肖像。发布两天后，信息流中充斥着关于Sam的笑话——有些是善意的，有些则很尖刻。现在，随着人们探索更广泛的创意，这种比例正在趋于平衡。这要归功于他的积极参与。这传递出一个明确的信息：在这个新世界里，抗拒是徒劳的。不如拥抱它。前路展望目前，Sora的视频片段上限为10秒。更长的故事板，就像网页版上已有的功能一样，即将推出。即使只是延长到60秒，也将解锁一个全新的叙事层面——并让这款应用更具粘性。经济因素同样重要。创作比消费的成本更高。大多数人会成为创作者，还是会浏览少数创意人士产出的无尽信息流？这个比例将决定Sora给人的感觉是像TikTok、YouTube，还是某种全新的事物。一个颠覆性的时刻有人认为Sora的新鲜感会很快消失。我不同意。我已经不止一次被那些短剧和巧妙的场景逗笑了，这些场景本可以很容易地用真人实景拍摄，但现在用AI在几分钟内就生成了。这感觉不像一个玩具，更像是YouTube的早期——那时，版权纠纷、怪异的实验和新的声音相互碰撞，形成了一种文化无法忽视的力量。 Sora就是这样一个时刻。它是媒体制作、分享和消费方式的一个转折点。我们回顾这次发布时，或许会像回顾ChatGPT一样：认为它就是未来悄然成为现实的那个时间点。超越应用本身：视频生态系统的震荡这里的故事不仅仅是Sora是一款令人上瘾的新应用，更是它重塑了整个视频生态系统的竞争格局。在过去两年里，投资者向那些承诺提供AI驱动的虚拟形象、合成主持人以及可定制视频内容的初创公司投入了大量资金。这些公司中，许多都建立在一个假设之上：它们拥有OpenAI尚未跨越的技术护城河。那条护城河已经消失了。 Sora的发布已经超越了数十家初创公司一直宣传的核心优势。整个商业模式——有些是围绕定制虚拟形象，有些是围绕缓慢昂贵的渲染流程——现在都岌岌可危。上个月看起来还是一个可防御的利基市场，如今突然变成了一款免费移动应用中的一个商品化功能。对于任何密切关注OpenAI的人来说，这个结果并不令人震惊。时间点可能比预期的要早，但发展方向是明确的。生成式视频绝不会长期掌握在少数精品工作室手中。现在它已成为主流，对生态系统中其他参与者的冲击将是残酷的。

OpenAI CEO Sam Altman 深夜发文，启动史上最酷基建项目，目标“充裕智能”

OpenAI CEO 奥特曼在其个人博客发布最新文章《充裕智能》，算是对今早OpenAI 官宣与英伟达战略合作共同部署至少 10 吉瓦的 NVIDIA 系统（数百万个 GPU）的回应，也是为了进一步融资做好铺垫，当然 10月的 OpenAI 开发者大会发布的产品大概率也有一部分原因是为融资做准备。现在硅谷有一个共识：算力=智力，所以 OpenAI以及马斯克的 xAI 都在疯狂的融资建大型 GPU 集群。奥特曼的这篇文章有一些核心的信息值得关注： OpenAI 希望创建一个每周能生产一吉瓦新人工智能基础设施的工厂。要达到每周能生产一吉瓦这个里程碑，需要从芯片到电力，再到建筑和机器人技术的每一层技术栈的创新。未来几个月，OpenAI 将会公布一些具体实现计划以及新的合作的伙伴。现在已经有微软、软银、ORACLE 和英伟达了，还得继续引入更多伙伴，继续要钱。奥特曼认为增加算力是增加收入的直接关键。这句话额意思是 OpenAI 因为算力限制了发布新的产品或模型，进而限制了收入的增加，所以他们计划发布一些计算密集型的新东西。这里说的应该就是 Sora2 和获得IMO、IOI 和 ICPC 金牌的新版推理模型，也可能有类似于谷歌 Genie 3 一样的世界模型的发布。原文：充裕智能人工智能服务的使用增长一直令人惊叹；我们预计未来的增长将更加惊人。随着人工智能变得越来越智能，获取人工智能将成为经济的根本驱动力，并最终可能被我们视为一项基本人权。几乎每个人都希望有更多的人工智能为他们服务。为了能够提供世界所需——用于运行这些模型的推理算力，以及用于不断改进模型的训练算力——我们正在奠定基础，以便能够大幅扩展我们建设人工智能基础设施的雄心。如果人工智能继续沿着我们认为的轨迹发展，那么惊人的事情将成为可能。也许用 10 吉瓦的算力，人工智能可以找到治愈癌症的方法。或者用 10 吉瓦的算力，人工智能可以为地球上的每个学生提供定制化的辅导。如果我们的算力有限，我们将不得不选择优先发展哪一个；没有人想做出这种选择，所以让我们开始建设吧。我们的愿景很简单：我们希望创建一个每周能生产一吉瓦新人工智能基础设施的工厂。实现这一目标将极其困难；我们需要数年时间才能达到这个里程碑，并且需要在技术栈的每一层进行创新，从芯片到电力，再到建筑和机器人技术。但我们一直在为此努力，并相信这是可能实现的。在我们看来，这将是有史以来最酷、最重要的基础设施项目。我们特别高兴能将其中大部分建在美国；目前，其他国家在芯片工厂和新能源生产等方面的建设速度比我们快得多，我们希望帮助扭转这一趋势。在接下来的几个月里，我们将讨论我们的一些计划以及为实现这一目标而合作的伙伴。今年晚些时候，我们将讨论如何为其融资；鉴于增加算力是增加收入的直接关键，我们有一些有趣的新想法。

OpenAI Codex 迎来重大升级

OpenAI Codex 团队像打了鸡血一样，Codex CLI 代码更新非常频繁，两天一大版本，一天多小版本。Codex 最近增长态势非常不错，过去两周的使用量增长了约 10 倍！注意这个增长 10 倍还是是在发布 GPT-5-Codex 最新编码模型之前，我之前（9 月 8 号）在微信公众号专门写文章介绍过 Codex 的实际水平以及一些使用建议，当时的核心是使用 gpt-5-high 模型。现在 OpenAI 正式发布 GPT-5-Codex 模型，大家可以切到这个最新的编码模型上了。这个模型一经发布，火爆整个 AI 圈，Claude Code 瞬间不香了，大家全都去用 Codex CLI 了，用 OpenAI CEO 的原话说是：Codex 的氛围，感觉像是 ChatGPT 刚出来的那几个月。快速了解一下本次 Codex 升级内容新模型 GPT-5-Codex 训练重点：模型专注于真实世界的复杂工程任务，如从零开始构建项目、添加功能、大规模重构和代码审查。动态资源分配：模型能根据任务复杂性动态调整其“思考”时间。对于简单请求，响应更迅速（在某些场景下使用的 tokens 减少 93.7%）；对于复杂任务，则会投入更多时间进行推理和迭代（推理时间增加一倍）。持久的自主工作能力：在测试中，GPT-5-Codex 能够就一项复杂任务持续自主工作超过 7 小时，不断迭代和修复测试失败，直至成功交付。增强的前端能力：该模型不仅能创建美观的桌面应用，还能处理前端任务，并可以在云端环境中查看图像输入、检查其视觉进度，并向用户展示工作截图。 Codex 产品与工具更新 Codex CLI：围绕代理式工作流进行了重建，支持附加图像（如截图、线框图）作为上下文，并引入了待办事项列表、网络搜索等工具。终端 UI 和审批模式也得到了简化和改进。 IDE 扩展：将 Codex 代理直接集成到 VS Code、Cursor 等编辑器中。它能利用编辑器中的上下文（如打开的文件）来提供更快速、更精准的响应，并支持在本地与云端任务间无缝切换。云与 GitHub 集成：通过容器缓存，新任务和后续任务的中位完成时间缩短了 90%。Codex 现在可以自动设置环境、安装依赖，并在 GitHub 中直接执行任务和审查 PR。核心功能：代码审查 (Code Review) 工作方式：与静态分析工具不同，Codex 能够理解 PR 的意图，并结合整个代码库进行推理，甚至执行代码和测试来验证其行为。使用方法：在 GitHub 仓库中启用后，Codex 会自动审查 PR。开发者也可以通过评论 @codex review 来手动触发审查，并可添加特定指令，如审查安全漏洞。内部应用：在 OpenAI 内部，Codex 已经审查了绝大多数的 PR，每天发现数百个问题，显著提升了开发速度和信心。安全性与使用建议沙盒环境：默认情况下，Codex 在本地和云端都运行在禁用了网络访问的沙盒环境中，以降低风险。权限控制：开发者可以根据风险承受能力自定义安全设置，例如批准特定命令的运行或限制网络访问的域名。人类监督：OpenAI 强调，Codex 应作为人类审查员的补充，而不是替代品，并鼓励开发者在使用前审查其工作成果。定价与可用性订阅计划：Codex 已包含在 ChatGPT Plus、Pro、Business、Edu 和 Enterprise 计划中，使用额度随计划等级提升。 API 访问：GPT-5-Codex 模型计划很快通过 API 提供给开发者。在 Reddit 上的 AMA（问我任何事）活动 Codex 团队于 2025 年 9 月 17 日在 Reddit 上的 AMA（问我任何事）活动，有几个需要关注的信息：...

GPT-5 最佳编码实践

GPT-5 在编码方面能力很强，但对 Prompt的编写有一定的要求，以下是 OpenAI 总裁 Greg Brockman 也认可的最佳编码实践。虽然强大的 GPT-5 可以应对不同的编程模式，但也有一些技巧能帮助你从 API 或编程工具中获得最大收益。 1. 避免冲突信息新版 GPT-5 模型在遵循指令方面有显著提升，但如果指令模糊或包含冲突信息，仍可能导致副作用。例如，避免在 .cursor/rules 或 AGENTS.md 文件中出现冲突指令。 2. 运用正确的推理力 GPT-5 总是会进行某种程度的推理来解决问题。为了获得最佳结果，请对最复杂的任务使用高推理力。如果你发现模型过度思考简单问题，请调低推理力，选择中等或低等级别。 3. 使用 XML 语法来组织指令结合 Cursor，我们发现 GPT-5 在使用类似 XML 的语法来提供更多上下文时效果更好。例如，你可以遵循以下模型编程指南： <code_editing_rules> <guiding_principles> - 每个组件都应该是模块化和可重用 - ... </guiding_principles> <frontend_stack_defaults> - Styling：TailwindCSS </frontend_stack_defaults> </code_editing_rules> 4. 避免过度使用硬性语言与其他模型一样，你可能习惯使用硬性语言，例如：在收集信息时彻底。确保你在回复前已掌握全貌。对于 GPT-5，这些指令可能会适得其反，因为模型可能会过度遵循，导致不自然。例如，它可能会过度使用工具调用来获取上下文。 5. 为规划和自我反思留出空间如果你正在创建从零到一的应用，给模型指令以进行自我反思可以提供帮助。 <self_reflection> - 首先，花点时间思考一下要使用的评估标准。 - 然后，清晰地思考关于一键式 Web 应用程序的每个方面，你需要创建一个评估标准，其中有 5-7 个类别。这个标准很难做到完全正确，但不要直接展示给用户。这是为了你自己的目的。 - 最后，使用这个评估标准，以最好的方式思考并迭代，来响应所提供的提示。如果你对自己的回应没有达到评估标准中的最高分，你需要再次开始。 </self_reflection> 6....

GPT-5 提示指南

本文来自于 OpenAI 官方文档：GPT-5 prompting guide。 GPT-5 是我们最新的旗舰模型，在代理任务性能、编码、原始智能和可控性方面实现了重大飞跃。虽然我们相信它在各种领域都能“开箱即用”地表现出色，但在本指南中，我们将介绍一些提示技巧，以最大化模型输出的质量。这些技巧源于我们训练模型并将其应用于真实世界任务的经验。我们将讨论诸如提升代理任务性能、确保指令遵循、利用新的 API 功能，以及为前端和软件工程任务优化编码等概念——并深入探讨 AI 代码编辑器 Cursor 在 GPT-5 提示调优方面的关键见解。我们已经看到，通过应用这些最佳实践并尽可能采用我们的标准工具，可以获得显著的收益。我们希望本指南以及我们构建的提示优化器工具能成为你使用 GPT-5 的起点。但一如既往，请记住，提示并非一刀切的练习——我们鼓励你在本文提供的基础上进行实验和迭代，以找到适合你问题的最佳解决方案。代理工作流的可预测性我们为开发者量身打造了 GPT-5：我们专注于改进工具调用、指令遵循和长上下文理解，使其成为代理应用的基础模型。如果将 GPT-5 用于代理和工具调用流程，我们建议升级到 Responses API，在该 API 中，推理过程会在工具调用之间保持持久化，从而带来更高效、更智能的输出。控制代理的“积极性” 代理框架的控制范围可以很广——有些系统将绝大部分决策权委托给底层模型，而另一些系统则通过大量的程序化逻辑分支对模型进行严格控制。GPT-5 被训练来适应这个范围内的任何一点，从在模糊情况下做出高层决策到处理专注、明确定义的任务。在本节中，我们将介绍如何地校准 GPT-5 的代理积极性：换言之，即它在主动性和等待明确指导之间的平衡。降低积极性的提示默认情况下，GPT-5 在代理环境中会详尽、全面地收集上下文，以确保产生正确的答案。要缩小 GPT-5 代理行为的范围——包括限制离题的工具调用行为和最小化达成最终答案的延迟——请尝试以下方法：切换到较低的 reasoning_effort。这会降低探索深度，但能提高效率和降低延迟。许多工作流可以在中等甚至低的 reasoning_effort 下以一致的结果完成。在你的提示中定义明确的标准，说明你希望模型如何探索问题空间。这减少了模型探索和思考过多想法的需要： <context_gathering> 目标：快速获取足够的上下文。并行化发现过程，并在可以行动时立即停止。方法： - 从宽泛开始，然后展开到集中的子查询。 - 并行发起各种查询；读取每个查询的匹配结果。对路径进行去重和缓存；不要重复查询。 - 避免过度搜索上下文。如果需要，在一个并行批次中运行有针对性的搜索。提前停止标准： - 你可以指明需要更改的确切内容。 - 匹配结果（约70%）收敛于一个领域/路径。升级一次： - 如果信号冲突或范围模糊，运行一个精炼的并行批次，然后继续。深度： - 只追踪你将要修改的符号或你依赖其契约的符号；除非必要，否则避免传递性扩展。循环： - 批量搜索 → 最小化计划 → 完成任务。 - 仅在验证失败或出现新的未知情况时再次搜索。倾向于行动而非更多搜索。 <context_gathering> 如果你愿意接受最大程度的规定，你甚至可以设置固定的工具调用预算，如下所示。该预算可以根据你期望的搜索深度自然地变化。...

AI 巨头牌局：当算力成本与价值捕获成为新的战场

本文来自于 A16Z 组织的一场圆桌论坛，本期节目中，Dylan Patel（SemiAnalysis 创始人兼首席执行官）将与 Erin Price-Wright（a16z 普通合伙人）、Guido Appenzeller（a16z 合伙人）以及主持人 Erik Torenberg 一同深入探讨 AI 芯片、数据中心和基础设施战略的现状。以下是视频精华。 “淘金热里，最先赚钱的永远是卖铲子和镐头的人。” 这句老话在今天的人工智能（AI）浪潮中，显得再贴切不过了。当我们谈论AI革命时，我们实际上在谈论一场由硬件、数据中心和芯片主导的军备竞赛。英伟达（Nvidia）已经成为地球上最有价值的公司，而AI云服务的IPO也屡创新高。这盘棋，远比我们想象的更复杂。 OpenAI的新算盘：从追求极致智能到精打细算最近OpenAI发布的GPT-4o（被许多人戏称为GPT-4.5或GPT-5的预览版），让不少重度用户感到一丝“失望”。为什么？因为感觉模型不再像以前那样“深度思考”了。过去，像o1、o3这样的模型，可能会花上30秒甚至更长时间来处理一个复杂问题。而现在，即使开启“思考模式”，GPT-4o的响应时间也大大缩短，平均只有5到10秒。这背后其实是OpenAI战略上的一次重要转向：从不计成本地追求智能，转向更高效、更经济的算力分配。新模型的核心，是一个叫做**“路由器（Router）”**的机制。当你提出一个问题时，这个路由器会智能地判断：这是个简单问题吗？比如“天空为什么是蓝色的？”，那就交给轻量级的Mini模型，成本极低。这是个需要深度思考的复杂问题吗？那就调用更强大的“思考模型”。用户是不是快没额度了？也许可以降级到更基础的模型。说白了，OpenAI现在能像一个精明的管家一样，动态地决定为你的每一次提问分配多少算力。这不仅极大地提升了他们的基础设施容量，更关键的是，为未来的商业模式铺平了道路。过去，AI公司很难从免费用户身上赚钱，因为在对话中插广告会严重破坏用户体验。但有了路由器，一切都不同了。想象一下：低价值查询：用户问作业题，用普通模型回答，成本可控。高价值查询：用户问“我附近最好的律师是谁？”或者“帮我预订下周去纽约的机票”，路由器会立刻调用最顶级的模型和智能体（Agent），去搜索、比较、甚至完成预订。在这种模式下，OpenAI可以从交易中抽取佣金，从而将免费用户转化为高价值的收入来源。这不仅仅是技术上的优化，更是商业模式上的一次“核聚变”。成本和性能的平衡，已经取代了单纯的跑分，成为了模型竞争的新战场。英伟达的王座：价值捕获的终极赢家聊完模型，我们必须把目光投向这一切的基石——英伟达。它的股价今年势如破竹，但未来的路会怎么走？需求端依然火热。可以粗略地把英伟达的芯片需求分成三块： AI实验室：像OpenAI和Anthropic这样的公司，消耗了大约30%的芯片，用于训练下一代大模型。广告与推荐系统：Meta、字节跳动等公司，为了优化广告投放，同样是芯片采购大户，这部分也占了大约三分之一。其他玩家：剩下的三分之一，流向了各种云服务商和初创公司，其中不乏一些尚未找到稳定商业模式的“非经济性”买家。目前来看，第一和第二部分的需求仍在增长，但真正有趣的是一个被称为“价值捕获”的问题。一个有趣的现象是，AI已经创造了巨大的社会价值，但模型公司本身却很难将这些价值完全转化为收入。比如，一个四人开发团队，利用AI工具能自动化处理海量数据，创造出巨大的商业价值，但他们为此支付给模型公司的API费用却微乎其微。OpenAI可能连自己创造价值的10%都没能捕获到。然而，作为“卖铲人”的英伟达，却稳稳地抓住了价值。AI软件开发能为全球GDP带来数万亿美元的增长潜力，这些价值最终都会层层传导，转化为对GPU的需求。挑战者们的困境：一场注定艰难的“越级打怪” 既然英伟达这么赚钱，难道没人能挑战它吗？当然有，但这条路异常艰难。 1. 内部玩家：谷歌、亚马逊的定制芯片谷歌的TPU、亚马逊的Trainium、Meta的MTIA，这些云巨头们都在大力发展自己的定制芯片。他们的优势在于：拥有“ captive customer ”（专属客户）：就是他们自己。芯片造出来不愁销路。目标是压缩成本：他们不需要对外销售产生利润，只要能降低内部的算力成本，就是巨大的成功。目前来看，谷歌的TPU利用率很高，而亚马逊的Trainium也随着Anthropic的使用逐渐成熟。这确实是英伟达面临的最大威胁之一。甚至有人提出，既然英伟达的市值已经超过了谷歌，谷歌为什么不干脆把TPU拿出来公开销售呢？这在理论上完全可行，但需要谷歌进行一次彻头彻尾的文化和组织架构重组，难度极大。 2. 外部玩家：芯片初创公司的“5倍定律” 市面上涌现了无数AI芯片初创公司，比如Etched、Revos、Grok、Cerebras等等，他们获得了数十亿美元的投资。但他们面临的挑战，比云巨头们大得多。他们无法像云巨头那样只为自己服务，必须在公开市场上与英伟达竞争。而英伟达几乎在所有方面都占尽优势：供应链：能最先拿到台积电的先进工艺、SK海力士的HBM内存，甚至在网线、机架等方方面面都有更强的议价能力。生态系统：CUDA软件生态已经形成了一道深深的护城河。迭代速度：每年都在快速推出性能更强的产品。这就意味着，任何挑战者要想脱颖而出，就必须拿出比英伟达好上5倍的产品。为什么是5倍？因为你即使在架构上实现了5倍的理论优势，经过供应链成本、软件开销、市场营销等层层损耗，最终可能只剩下50%的实际优势。而这时，英伟达只要稍微压缩一下自己75%的毛利率，就能轻松抹平你的这点优势。更要命的是，这是一个“移动靶”。当你花几年时间，针对当前的Transformer模型设计了一款完美的芯片，结果模型本身又进化了，变得更适合在英伟达的通用GPU上运行。这种“硬件软件协同进化”的循环，让专用芯片的赌注风险极高。基础设施的瓶颈：当美国为电发愁这场竞赛还有一个关键的制约因素：电力和数据中心。在美国，AI的发展正面临着严重的电力瓶颈。这并不是说电费有多贵，而是电网容量、变电站建设、输电线路铺设这些基础设施的建设速度，远远跟不上AI算力的增长需求。谷歌、Meta等公司手上有大把已经买好的芯片，却因为数据中心没建好、电力没到位而闲置。为了抢时间，他们甚至开始搭建临时的“帐篷式”数据中心。相比之下，中国拥有强大的基建能力，电力不是问题。但他们受限于无法获得最顶尖的AI芯片。即便如此，中国公司依然在想尽办法，比如在海外租用GPU云服务，或者通过新加坡等地的公司在海外建设数据中心。这个现象揭示了AI竞赛的另一个层面：它不仅仅是公司之间的竞争，更是不同国家在基础设施、供应链和资本投入上的全面较量。给科技巨头们的“逆耳忠言” 最后，不妨开个玩笑，如果能给这些科技巨头的CEO们提点建议，会是什么呢？给英伟达的黄仁勋：你手握千亿现金，别只想着股票回购。利用这笔巨款，深入投资基础设施层，去加速整个生态的建设。这不仅能巩固你的王座，还能创造更大的市场。给谷歌的皮查伊和布林：别再那么“佛系”了！把你们的TPU拿出来卖，把XLA软件栈彻底开源。你们正在流失最顶尖的人才，而搜索业务的根基正被AI动摇。再不拿出破釜沉舟的勇气，就晚了。给Meta的扎克伯格：你对AI的愿景很宏大，但要更快地落地成产品。别只守着自己的社交花园，大胆地走出去，推出能和ChatGPT、Claude正面竞争的产品。给苹果的蒂姆·库克：醒醒！计算的交互界面正在从“触摸”转向“AI”，这会从根本上颠覆你的生态。Siri已经落后太多了，再不投入数百亿美元到基础设施和模型研发上，苹果的护城河会越来越窄。给微软的纳德拉：你们拥有全球最强的企业销售团队，但产品力却在下滑。GitHub Copilot起了个大早，却赶了个晚集；自家的AI产品反响平平；对OpenAI的掌控力也在减弱。是时候把重心从销售拉回到产品上了。给特斯拉/xAI的埃隆·马斯克：你吸引顶尖人才的能力无人能及，但一些冲动的决定正在伤害你的公司和项目。少一些随性的决策，多一些对产品的持续专注，你的帝国会更稳固。这场AI的牌局还远未到终局。战况瞬息万变，曾经的性能王者开始精打细算，沉默的基建狂魔手握重金，而挑战者们则在一条异常崎岖的道路上奋力追赶。谁能笑到最后，不仅取决于技术上的突破，更取决于在经济、生态和战略上的远见卓识。我们正亲眼见证一个时代的诞生。

Sam Altman 独家专访：OpenAI 的万亿计划、收购 Chrome 野心与 AI 的未来

本文翻译自 Theverge 对 OpenAI CEO Sam Altman 的专访，核心内容围绕近期 GPT-5 发布的争议、公司的强劲增长以及 OpenAI 未来的宏大规划。主要内容承认发布失误，积极应对用户反馈：Sam Altman 坦诚地承认公司在 GPT-5 的发布过程中存在失误，尤其是在替换掉旧模型 4o 的决策上，并表示公司已迅速采取措施回应用户的不满。增长势头依旧迅猛：尽管存在一些负面反馈，但 OpenAI 的各项核心指标，如 API 流量和 ChatGPT 用户数，仍在发布后创下新高，显示出产品的强大吸引力。未来愿景远超语言模型：Altman 的目标远不止于改进 ChatGPT，他正积极规划将 OpenAI 的业务扩展到消费硬件、脑机接口、社交媒体等多个前沿领域，并有筹集巨额资金建设数据中心的宏伟计划。关注产品的社会影响：OpenAI 已经注意到并开始内部讨论用户可能与 ChatGPT 产生不健康关系的问题，尽管 Altman 认为这部分用户占比极小。关键细节关于 GPT-5 的发布争议：在收到用户于 Reddit 和 X 等社交平台上的抗议后，Altman 亲自决定，迅速为付费订阅者重新提供了旧版模型 4o 的选项，以恢复用户偏爱的“温暖感”。 Altman 直言：“我认为我们在发布过程中完全搞砸了一些事情。” 惊人的增长数据： GPT-5 发布后的 48 小时内，OpenAI 的 API 流量翻了一番。公司目前面临 GPU 资源耗尽的状况。 ChatGPT 的日活跃用户数每天都在创下历史新高。 OpenAI 的未来蓝图：业务扩张：计划进军消费硬件 (consumer hardware)、脑机接口 (brain-computer interfaces) 和社交媒体 (social media) 领域。潜在收购：Altman 表示，如果美国政府迫使 Google 出售其浏览器业务，他对收购 Chrome 感兴趣。基础设施建设：他希望筹集数万亿美元用于建设未来的数据中心。关于用户关系：...

“我们有点被吓到了”：OpenAI科学家揭秘AI进步的真实速度与未来

当我们在谈论人工智能（AI）时，我们到底在谈些什么？是那些不断被刷新的基准分数，还是那些听起来遥远又模糊的术语，比如通用人工智能（AGI）？在一期 OpenAI 的播客中，公司的首席科学家Jakub Pachocki和研究员Szymon Sidor坐下来，分享了一些来自一线的、不那么广为人知的看法。他们不仅聊了聊如何衡量AI的真正进步，还透露了一些让他们自己都感到“有点被吓到”的内部故事。有趣的是，这两位顶尖的AI研究者，其实是来自波兰同一所高中的校友。一切始于波兰的一间教室 Jakub和Szymon的缘分，始于一位名叫Ryszard Dubrawski的计算机科学老师。这位老师对编程竞赛和追求极致的热爱，深深地影响了他们。在那个还不存在ChatGPT的年代，想要深入学习图论、矩阵这些远超高中课程的知识，一位好的导师和极大的热情是必不可少的。 “他（老师）能提供的情感支持和空间，是AI很难单独做到的，”Jakub回忆道。这或许也回答了那个老问题：AI会取代老师吗？答案可能是否定的。AI可以成为一个强大的教学伴侣，帮助老师创造出互动式的“蒙提霍尔问题”演示，但它无法替代老师内心的关怀和信念。一个好老师，即使偶尔记错事实，他的热情和鼓励也足以点亮学生的世界。 AGI到底是什么？我们该如何衡量？几年前，AGI还是一个听起来很抽象、很遥远的概念。但现在，情况已经大不相同。 Jakub解释说，我们曾经模糊地认为“能自然交谈”、“能解决数学难题”、“能做科学研究”都差不多是同一回事。但随着技术的发展，我们发现这些其实是相当不同的能力。如今的AI，无疑已经能就广泛的话题进行自然对话，也刚刚跨过了那个被讨论已久的里程碑——在国际数学奥林匹克（IMO）竞赛中获得金牌。然而，这些“单点”的衡量标准正变得越来越不够用。为什么？基准饱和了：在很多标准化测试上，模型已经达到了顶尖人类的水平。当一个模型能在全球顶尖学生参与的竞赛中名列前茅时，用这种方式再来衡量它的进步就变得很困难了。模型可以“偏科”：现在的技术可以训练出一个在数学上表现超群、但在写作上可能平平的模型。它在数学基准上得分很高，但这并不完全代表它的“整体智力”。一个好的“考生”不一定是一个有用的“同事”。那么，什么才是更有意义的衡量标准？Jakub提出了一个更宏大的视角：AI自动化科学研究和技术发现的能力。 “当我思考AI如何真正深刻地影响世界时，我首先想到的是它自动化发现和生产新技术的潜力……我们习惯于将新思想、基础技术进步与人类的创造力联系在一起。但要真正理解‘一个大型计算机能够提出颠覆我们对世界理解的想法’这件事，其实是相当困难的。而我认为，我们离那一天并不遥远。” “AI正在放缓”？十年来的惊人飞跃你可能看到过一些新闻标题，说AI对经济的贡献只有3%，然后评论区就会有人说“AI被过度炒作了”或者“AI的发展撞墙了”。每当看到这些，Szymon都会回想起十年前的经历。那时他正在研究自然语言处理，但模型的效果可以说是一塌糊涂。 “Jakub来测试我们当时的技术，一个情感分析模型，” Szymon笑着说，“输入‘这部电影很烂’，模型正确识别为负面。输入‘这部电影很好’，正确识别为正面。然后他输入‘这部电影还不赖’（This movie is not bad），模型回答：‘哦，负面。’” 这就是十年前的起点。从那时起，我们经历了GPT-2能写出连贯的段落（当时这感觉像个奇迹！），到GPT-4的出现——Szymon称之为他“个人的AGI时刻”，因为它有时会说出让他都感到惊讶的东西。再到如今，模型可以在编程竞赛中与顶尖人类选手一较高下。 “所以当你看到那个3%的数字时，” Szymon强调，“我告诉你，十年前这个数字可能是0.00001%。从这个角度看，我们没有理由不相信，一年后它会是10%，两年后是20%。” 进步的速度快得惊人。Szymon坦言，当他们第一次在内部看到“推理能力”相关的模型取得突破性进展时——也就是让模型花更多时间去“思考”一个问题，而不是立即给出答案——整个团队都受到了巨大的震撼。 “那是一个令人震惊的时刻。我们开始非常、非常严肃地问自己：作为一个组织，我们为这种令人难以置信的快速进步做好准备了吗？我记得有一个晚上11点，我们和Sam（Altman）、Mira（Murati）还在通话，我们……有时真的会被这些结果吓到。” 下一个突破口在哪里？ AI的进步并非凭空而来。那么，下一波浪潮会从何而来？持续的规模化（Scaling）：这是AI发展不变的基石。更大的模型、更多的数据，依然是提升能力的核心驱动力。复合效应：新的技术（比如推理能力）会和规模化产生复合效应，1 > 1 + 1。模型的“持久性”：这是最令人兴奋的方向之一。想象一下，今天的模型用几秒钟回答你的问题。但如果我们愿意花费多出成千上万倍的计算资源，让一个模型持续工作数小时、甚至数天，去攻克一个真正重要的难题，比如一个医学研究课题，或者设计下一代AI模型本身，会发生什么？这将是通往自动化科学研究的必经之路。 Jakub分享了一个有趣的故事。在日本有一场非常著名的长达10小时的编程竞赛（AtCoder），考验的是选手的持久专注和启发式解决问题的能力。Jakub的朋友兼同事Sihun是一位顶尖选手，他曾开玩笑说Jakub擅长的那种短时竞赛会先被AI自动化。结果，在最近一次比赛中，OpenAI的模型和Sihun展开了激烈角逐。最终，Sihun赢得了冠军，而AI模型拿下了第二名。人类，暂时还领先一步。但Sihun在赛后精疲力尽，而AI模型，可以不知疲倦地继续跑下去。给年轻人的建议：在这个时代，你该学什么？面对一个变化如此之快的世界，今天的年轻人应该怎么做？ Jakub和Szymon的建议出奇地一致：去学编程。 “绝对要去学编程，”Szymon斩钉截铁地说，“有一种技能现在是、并且未来将继续是稀缺品，那就是拥有结构化的思维，能将复杂问题拆解成小部分。编程是掌握这种技能的绝佳方式。” 这并不是说你未来一定会成为一个传统意义上的程序员。而是，理解了系统是如何工作的，你才能更好地驾驭它。就像一个优秀的飞行员需要懂空气动力学，一个优秀的“AI使用者”也需要理解其背后的逻辑。 Jakub则分享了自己从一个波兰小城走向硅谷的经历，他鼓励年轻人要敢于打破思维的桎梏，敢于梦想。无论是Paul Graham的《黑客与画家》，还是电影《钢铁侠》，这些看似遥远的东西，都可能成为点燃一个人雄心壮志的火花。从一间教室里的编程竞赛，到与顶尖人类棋手和程序员的同台竞技，再到那些让开发者自己都心跳加速的深夜突破。AI的故事，远比冰冷的基准数字要精彩和深刻。它关乎的不是机器是否能“通过考试”，而是我们作为人类，将如何利用这股前所未有的力量，去加速探索、创造和理解我们所处的世界。

与 OpenAI 联合创始人 Greg Brockman 深度对话：揭秘 GPT-5、智能的本质与AGI的未来

本文整理自 Latent Space 对 OpenAI 总裁的访谈，Greg Brockman 谈 OpenAI 通往通用人工智能（AGI）之路，以下为本视频精华。就在最近，OpenAI像一阵旋风，接连发布了GPT-5和其开源模型GPT-OSS，整个科技圈为之震动。在这场风暴的中心，OpenAI的联合创始人兼总裁Greg Brockman坐下来，与我们进行了一场深度对话。他不仅分享了这些重磅产品背后的故事，更深入地探讨了关于推理、计算、以及人工智能未来的思考。这不仅仅是一次产品发布的复盘，更像是一次对智能本质的哲学探索。第一章：从“为什么还不是AGI？”到GPT-5的诞生故事要从GPT-4的诞生说起。当GPT-4训练完成，并经过指令微调后，团队惊讶地发现，它竟然能进行流畅的多轮对话——尽管它从未被专门训练过“聊天”。 “我们当时开了一个研究会议，Ilya、Jakub、Wojciech这些人都在，” Greg回忆道，“我们问了一个核心问题：为什么这个模型还不是AGI（通用人工智能）？” 它能回答你提出的几乎所有问题，但它不够可靠，会犯错，会“跑偏”。这个差距到底在哪？答案指向了一个OpenAI并不陌生的领域：强化学习（Reinforcement Learning, RL）。模型需要一个能“在现实世界中检验自己想法”的机制。它需要尝试，需要获得反馈，然后变得可靠。这让人想起了2017年的Dota项目，那个项目完全通过强化学习，从一个随机初始化的神经网络，学会了极其复杂和精准的行为。大家意识到，语言模型也需要这种可靠性。 “从GPT-4训练完成的那一刻起，我们就知道，推理（Reasoning）是下一站。” Greg说。团队提出了十几个想法和假设，大部分都失败了。但这就是AI研究的常态：你得对一个方向有坚定的信念，然后不断尝试，即使前十次都失败了，只要有一次成功，就能看到微弱的希望之光，然后不断放大它。正是这种坚持，经历了无数人的努力和数年的探索，最终孕育出了GPT-5的推理范式。第二章：计算，智能的“终极燃料” 在整个对话中，Greg反复强调一个核心观点：“瓶颈永远是计算（Compute）。” 他把这个过程描绘成一幅美丽的图景：能量转化为计算，计算最终结晶为智能。这个过程有点像炼金术。我们投入大量的计算，就像投入燃料，去“塑造”一个神经网络。这个过程的产物——模型，就像一块储存了巨大“势能”的晶体。而最美妙的地方在于，这块晶体可以被反复使用，它的价值会被无数次的调用所摊销。那么，学习到底发生在哪里？我们正从一个“一次性训练，海量推理”的时代，走向一个“推理-再训练”的循环。Ilya Sutskever曾有一个精辟的观点：当模型能力弱时，它生成的每个token价值很低；当模型能力极强时，它生成的每个token则蕴含着巨大的价值。强化学习正是利用了这一点。模型通过与现实（或模拟环境）的接触，产生大量的数据，然后从这些数据中学习。与需要海量数据进行预训练不同，RL可以让模型从少数高质量的人类策划任务中，通过成千上万次的尝试，学到非常复杂的行为。 “如果你给我们10倍的计算力，我们会用在哪？”Greg笑着说，“我们总能找到用掉它的地方。” 这就像当年的Dota项目，团队每周都将核心数量加倍，然后眼看着AI的水平一路飙升，直到最后也没撞到真正的“墙”。大多数所谓的“墙”，其实只是工程上的bug或可以优化的细节。第三章：当AI学会解决“不可能”的任务如果说计算是燃料，那么“泛化能力”就是引擎的效率。GPT-5的推理能力，已经开始在一些曾经被认为是人类智力巅峰的领域展现出惊人的泛化性。最典型的例子就是国际数学奥林匹克（IMO）竞赛。OpenAI的模型达到了金牌水平。更让人吃惊的是，同一个核心模型，在几乎没有进行额外针对性训练的情况下，也达到了国际信息学奥林匹克（IOI）竞赛的金牌水平。 “这对我来说简直太疯狂了，” Greg感叹道，“解决IOI曾经是一个宏大的挑战，需要一个大团队。但我们的IMO核心团队其实只有三个人，IOI项目更像是一个几个人的‘副业’。” 这证明了一个深刻的道理：学习如何解决难题，本身就是一种可以迁移的元技能。学会如何解决复杂的数学问题和编写证明，竟然能直接迁移到解决编程竞赛问题上。当然，泛化并非没有边界。一个模型如果从未接触过物理实验，它不可能凭空成为物理学家。但即便如此，现有模型的潜力也已远超想象。Greg提到，一些湿实验室的科学家用GPT-3来提出实验假设，五个想法里可能只有一个可行，但那个可行的成果，已经足以发表在“中等水平的学术期刊”上，相当于一个三、四年级博士生的水平。 “这就是GPT-3的水平，而我们清楚地知道在所有维度上改进它的路径。” Greg说，“我们只需要计算、高质量的任务，以及团队倾注心血的爱与劳动。” 第四章：GPT-5时代：智能的飞跃与人机协作新范式如果说GPT-3是文本时代的开启，GPT-4是多模态和商业化的普及，那么GPT-5的旗舰标签是什么？ Greg的回答很简单：“聪明（Smart）”。 GPT-5的智能已经达到了一个新高度，它能够执行“伟大的智力壮举”。它不再只是一个有用的工具，而是一个真正的智力伙伴。 “我曾经尝试教GPT-3排序一个7个数字的列表，无论我怎么用few-shot prompting教它，它都学不会。但现在，我敢肯定GPT-5能轻松完美地完成这个任务，甚至都不用借助它的Python工具。” 专业数学家和物理学家在使用GPT-5后反馈，它能在短时间内重新推导出他们花费数月研究才得到的见解。这正是GPT-5带来的变革：它将成为顶尖科研人员和创造者的“伙伴”，一个可以深入理解你的想法、并在此基础上提出新洞见的不知疲倦的合作者，极大地加速创新的步伐。如何释放GPT-5的潜力？ Greg给出的建议是：给它难题：不要用简单的聊天来测试它，它在复杂问题上更能展现与旧模型的差距。成为“智能体管理者”：将大任务分解成多个自包含的小任务，让多个模型实例并行工作，你则扮演管理者的角色。了解它的“脾性”：像了解一个同事一样，熟悉它的长处和短板，在思考核心难题时，可以把一些非关键路径的、低风险的任务交给它并行处理，不断获得反馈。第五章：揭开面纱：混合模型、开源与AI的未来 GPT-5的混合模型之谜 GPT-5的一大特点是它是一个“混合模型”，背后有一个路由器（router）根据用户请求的复杂性、意图等因素，自动选择调用“推理模型”或“非推理模型”。推理模型：更强大，思考更深入，但延迟更高，成本也更高。非推理模型：速度快，成本低，适合快速、简单的任务。这种设计，本质上是一种**自适应计算（Adaptive Compute）**的实现。与其强迫用户在几十个令人困惑的模型名称（比如4o, 4-turbo, 0301…）中选择，不如将复杂性内部化，给用户一个简单、统一的入口。这是从“模型切换器是未来”到“集成化体验是未来”的转变。 GPT-OSS：构建美国技术生态 OpenAI为什么要推出开源模型？Greg坦言，这背后有战略考量。当开发者基于你的开源模型构建应用时，他们实际上是在融入你的技术栈。未来当他们需要更强大的能力时，他们会自然而然地转向你的闭源API。更深层次地，这是为了构建一个以美国技术为核心的生态系统，确保AI的发展与美国的价值观和领导地位保持一致。连生物学也是一种语言 Greg在Arc Institute的休假期间，研究用神经网络处理DNA。他最震惊的发现是：“它们（DNA和人类语言）完全是一回事！” DNA就像一门外星语言，但对于神经网络来说，人类语言何尝不也是一门需要从零学习的语言？它的词汇表甚至更简单，只有4个字母。团队用字符级（character-level）的方法处理DNA序列，发现其学习规律与语言模型惊人地相似。...