GPT-5 最佳编码实践

GPT-5 在编码方面能力很强,但对 Prompt的编写有一定的要求,以下是 OpenAI 总裁 Greg Brockman 也认可的最佳编码实践。 虽然强大的 GPT-5 可以应对不同的编程模式,但也有一些技巧能帮助你从 API 或编程工具中获得最大收益。 1. 避免冲突信息 新版 GPT-5 模型在遵循指令方面有显著提升,但如果指令模糊或包含冲突信息,仍可能导致副作用。例如,避免在 .cursor/rules 或 AGENTS.md 文件中出现冲突指令。 2. 运用正确的推理力 GPT-5 总是会进行某种程度的推理来解决问题。为了获得最佳结果,请对最复杂的任务使用高推理力。如果你发现模型过度思考简单问题,请调低推理力,选择中等或低等级别。 3. 使用 XML 语法来组织指令 结合 Cursor,我们发现 GPT-5 在使用类似 XML 的语法来提供更多上下文时效果更好。例如,你可以遵循以下模型编程指南: <code_editing_rules> <guiding_principles> - 每个组件都应该是模块化和可重用 - ... </guiding_principles> <frontend_stack_defaults> - Styling:TailwindCSS </frontend_stack_defaults> </code_editing_rules> 4. 避免过度使用硬性语言 与其他模型一样,你可能习惯使用硬性语言,例如: 在收集信息时彻底。 确保你在回复前已掌握全貌。 对于 GPT-5,这些指令可能会适得其反,因为模型可能会过度遵循,导致不自然。例如,它可能会过度使用工具调用来获取上下文。 5. 为规划和自我反思留出空间 如果你正在创建从零到一的应用,给模型指令以进行自我反思可以提供帮助。 <self_reflection> - 首先,花点时间思考一下要使用的评估标准。 - 然后,清晰地思考关于一键式 Web 应用程序的每个方面,你需要创建一个评估标准,其中有 5-7 个类别。这个标准很难做到完全正确,但不要直接展示给用户。这是为了你自己的目的。 - 最后,使用这个评估标准,以最好的方式思考并迭代,来响应所提供的提示。如果你对自己的回应没有达到评估标准中的最高分,你需要再次开始。 </self_reflection> 6....

September 2, 2025 · 1 min · fisherdaddy

GPT-5 提示指南

本文来自于 OpenAI 官方文档:GPT-5 prompting guide。 GPT-5 是我们最新的旗舰模型,在代理任务性能、编码、原始智能和可控性方面实现了重大飞跃。 虽然我们相信它在各种领域都能“开箱即用”地表现出色,但在本指南中,我们将介绍一些提示技巧,以最大化模型输出的质量。这些技巧源于我们训练模型并将其应用于真实世界任务的经验。我们将讨论诸如提升代理任务性能、确保指令遵循、利用新的 API 功能,以及为前端和软件工程任务优化编码等概念——并深入探讨 AI 代码编辑器 Cursor 在 GPT-5 提示调优方面的关键见解。 我们已经看到,通过应用这些最佳实践并尽可能采用我们的标准工具,可以获得显著的收益。我们希望本指南以及我们构建的提示优化器工具能成为你使用 GPT-5 的起点。但一如既往,请记住,提示并非一刀切的练习——我们鼓励你在本文提供的基础上进行实验和迭代,以找到适合你问题的最佳解决方案。 代理工作流的可预测性 我们为开发者量身打造了 GPT-5:我们专注于改进工具调用、指令遵循和长上下文理解,使其成为代理应用的基础模型。如果将 GPT-5 用于代理和工具调用流程,我们建议升级到 Responses API,在该 API 中,推理过程会在工具调用之间保持持久化,从而带来更高效、更智能的输出。 控制代理的“积极性” 代理框架的控制范围可以很广——有些系统将绝大部分决策权委托给底层模型,而另一些系统则通过大量的程序化逻辑分支对模型进行严格控制。GPT-5 被训练来适应这个范围内的任何一点,从在模糊情况下做出高层决策到处理专注、明确定义的任务。在本节中,我们将介绍如何地校准 GPT-5 的代理积极性:换言之,即它在主动性和等待明确指导之间的平衡。 降低积极性的提示 默认情况下,GPT-5 在代理环境中会详尽、全面地收集上下文,以确保产生正确的答案。要缩小 GPT-5 代理行为的范围——包括限制离题的工具调用行为和最小化达成最终答案的延迟——请尝试以下方法: 切换到较低的 reasoning_effort。这会降低探索深度,但能提高效率和降低延迟。许多工作流可以在中等甚至低的 reasoning_effort 下以一致的结果完成。 在你的提示中定义明确的标准,说明你希望模型如何探索问题空间。这减少了模型探索和思考过多想法的需要: <context_gathering> 目标:快速获取足够的上下文。并行化发现过程,并在可以行动时立即停止。 方法: - 从宽泛开始,然后展开到集中的子查询。 - 并行发起各种查询;读取每个查询的匹配结果。对路径进行去重和缓存;不要重复查询。 - 避免过度搜索上下文。如果需要,在一个并行批次中运行有针对性的搜索。 提前停止标准: - 你可以指明需要更改的确切内容。 - 匹配结果(约70%)收敛于一个领域/路径。 升级一次: - 如果信号冲突或范围模糊,运行一个精炼的并行批次,然后继续。 深度: - 只追踪你将要修改的符号或你依赖其契约的符号;除非必要,否则避免传递性扩展。 循环: - 批量搜索 → 最小化计划 → 完成任务。 - 仅在验证失败或出现新的未知情况时再次搜索。倾向于行动而非更多搜索。 <context_gathering> 如果你愿意接受最大程度的规定,你甚至可以设置固定的工具调用预算,如下所示。该预算可以根据你期望的搜索深度自然地变化。...

August 20, 2025 · 6 min · fisherdaddy

AI 巨头牌局:当算力成本与价值捕获成为新的战场

本文来自于 A16Z 组织的一场圆桌论坛,本期节目中,Dylan Patel(SemiAnalysis 创始人兼首席执行官)将与 Erin Price-Wright(a16z 普通合伙人)、Guido Appenzeller(a16z 合伙人)以及主持人 Erik Torenberg 一同深入探讨 AI 芯片、数据中心和基础设施战略的现状。以下是视频精华。 “淘金热里,最先赚钱的永远是卖铲子和镐头的人。” 这句老话在今天的人工智能(AI)浪潮中,显得再贴切不过了。当我们谈论AI革命时,我们实际上在谈论一场由硬件、数据中心和芯片主导的军备竞赛。英伟达(Nvidia)已经成为地球上最有价值的公司,而AI云服务的IPO也屡创新高。这盘棋,远比我们想象的更复杂。 OpenAI的新算盘:从追求极致智能到精打细算 最近OpenAI发布的GPT-4o(被许多人戏称为GPT-4.5或GPT-5的预览版),让不少重度用户感到一丝“失望”。为什么?因为感觉模型不再像以前那样“深度思考”了。过去,像o1、o3这样的模型,可能会花上30秒甚至更长时间来处理一个复杂问题。而现在,即使开启“思考模式”,GPT-4o的响应时间也大大缩短,平均只有5到10秒。 这背后其实是OpenAI战略上的一次重要转向:从不计成本地追求智能,转向更高效、更经济的算力分配。 新模型的核心,是一个叫做**“路由器(Router)”**的机制。当你提出一个问题时,这个路由器会智能地判断: 这是个简单问题吗? 比如“天空为什么是蓝色的?”,那就交给轻量级的Mini模型,成本极低。 这是个需要深度思考的复杂问题吗? 那就调用更强大的“思考模型”。 用户是不是快没额度了? 也许可以降级到更基础的模型。 说白了,OpenAI现在能像一个精明的管家一样,动态地决定为你的每一次提问分配多少算力。这不仅极大地提升了他们的基础设施容量,更关键的是,为未来的商业模式铺平了道路。 过去,AI公司很难从免费用户身上赚钱,因为在对话中插广告会严重破坏用户体验。但有了路由器,一切都不同了。想象一下: 低价值查询:用户问作业题,用普通模型回答,成本可控。 高价值查询:用户问“我附近最好的律师是谁?”或者“帮我预订下周去纽约的机票”,路由器会立刻调用最顶级的模型和智能体(Agent),去搜索、比较、甚至完成预订。 在这种模式下,OpenAI可以从交易中抽取佣金,从而将免费用户转化为高价值的收入来源。这不仅仅是技术上的优化,更是商业模式上的一次“核聚变”。成本和性能的平衡,已经取代了单纯的跑分,成为了模型竞争的新战场。 英伟达的王座:价值捕获的终极赢家 聊完模型,我们必须把目光投向这一切的基石——英伟达。它的股价今年势如破竹,但未来的路会怎么走? 需求端依然火热。可以粗略地把英伟达的芯片需求分成三块: AI实验室:像OpenAI和Anthropic这样的公司,消耗了大约30%的芯片,用于训练下一代大模型。 广告与推荐系统:Meta、字节跳动等公司,为了优化广告投放,同样是芯片采购大户,这部分也占了大约三分之一。 其他玩家:剩下的三分之一,流向了各种云服务商和初创公司,其中不乏一些尚未找到稳定商业模式的“非经济性”买家。 目前来看,第一和第二部分的需求仍在增长,但真正有趣的是一个被称为“价值捕获”的问题。 一个有趣的现象是,AI已经创造了巨大的社会价值,但模型公司本身却很难将这些价值完全转化为收入。比如,一个四人开发团队,利用AI工具能自动化处理海量数据,创造出巨大的商业价值,但他们为此支付给模型公司的API费用却微乎其微。OpenAI可能连自己创造价值的10%都没能捕获到。 然而,作为“卖铲人”的英伟达,却稳稳地抓住了价值。AI软件开发能为全球GDP带来数万亿美元的增长潜力,这些价值最终都会层层传导,转化为对GPU的需求。 挑战者们的困境:一场注定艰难的“越级打怪” 既然英伟达这么赚钱,难道没人能挑战它吗?当然有,但这条路异常艰难。 1. 内部玩家:谷歌、亚马逊的定制芯片 谷歌的TPU、亚马逊的Trainium、Meta的MTIA,这些云巨头们都在大力发展自己的定制芯片。他们的优势在于: 拥有“ captive customer ”(专属客户):就是他们自己。芯片造出来不愁销路。 目标是压缩成本:他们不需要对外销售产生利润,只要能降低内部的算力成本,就是巨大的成功。 目前来看,谷歌的TPU利用率很高,而亚马逊的Trainium也随着Anthropic的使用逐渐成熟。这确实是英伟达面临的最大威胁之一。甚至有人提出,既然英伟达的市值已经超过了谷歌,谷歌为什么不干脆把TPU拿出来公开销售呢?这在理论上完全可行,但需要谷歌进行一次彻头彻尾的文化和组织架构重组,难度极大。 2. 外部玩家:芯片初创公司的“5倍定律” 市面上涌现了无数AI芯片初创公司,比如Etched、Revos、Grok、Cerebras等等,他们获得了数十亿美元的投资。但他们面临的挑战,比云巨头们大得多。 他们无法像云巨头那样只为自己服务,必须在公开市场上与英伟达竞争。而英伟达几乎在所有方面都占尽优势: 供应链:能最先拿到台积电的先进工艺、SK海力士的HBM内存,甚至在网线、机架等方方面面都有更强的议价能力。 生态系统:CUDA软件生态已经形成了一道深深的护城河。 迭代速度:每年都在快速推出性能更强的产品。 这就意味着,任何挑战者要想脱颖而出,就必须拿出比英伟达好上5倍的产品。为什么是5倍?因为你即使在架构上实现了5倍的理论优势,经过供应链成本、软件开销、市场营销等层层损耗,最终可能只剩下50%的实际优势。而这时,英伟达只要稍微压缩一下自己75%的毛利率,就能轻松抹平你的这点优势。 更要命的是,这是一个“移动靶”。当你花几年时间,针对当前的Transformer模型设计了一款完美的芯片,结果模型本身又进化了,变得更适合在英伟达的通用GPU上运行。这种“硬件软件协同进化”的循环,让专用芯片的赌注风险极高。 基础设施的瓶颈:当美国为电发愁 这场竞赛还有一个关键的制约因素:电力和数据中心。 在美国,AI的发展正面临着严重的电力瓶颈。这并不是说电费有多贵,而是电网容量、变电站建设、输电线路铺设这些基础设施的建设速度,远远跟不上AI算力的增长需求。谷歌、Meta等公司手上有大把已经买好的芯片,却因为数据中心没建好、电力没到位而闲置。为了抢时间,他们甚至开始搭建临时的“帐篷式”数据中心。 相比之下,中国拥有强大的基建能力,电力不是问题。但他们受限于无法获得最顶尖的AI芯片。即便如此,中国公司依然在想尽办法,比如在海外租用GPU云服务,或者通过新加坡等地的公司在海外建设数据中心。 这个现象揭示了AI竞赛的另一个层面:它不仅仅是公司之间的竞争,更是不同国家在基础设施、供应链和资本投入上的全面较量。 给科技巨头们的“逆耳忠言” 最后,不妨开个玩笑,如果能给这些科技巨头的CEO们提点建议,会是什么呢? 给英伟达的黄仁勋:你手握千亿现金,别只想着股票回购。利用这笔巨款,深入投资基础设施层,去加速整个生态的建设。这不仅能巩固你的王座,还能创造更大的市场。 给谷歌的皮查伊和布林:别再那么“佛系”了!把你们的TPU拿出来卖,把XLA软件栈彻底开源。你们正在流失最顶尖的人才,而搜索业务的根基正被AI动摇。再不拿出破釜沉舟的勇气,就晚了。 给Meta的扎克伯格:你对AI的愿景很宏大,但要更快地落地成产品。别只守着自己的社交花园,大胆地走出去,推出能和ChatGPT、Claude正面竞争的产品。 给苹果的蒂姆·库克:醒醒!计算的交互界面正在从“触摸”转向“AI”,这会从根本上颠覆你的生态。Siri已经落后太多了,再不投入数百亿美元到基础设施和模型研发上,苹果的护城河会越来越窄。 给微软的纳德拉:你们拥有全球最强的企业销售团队,但产品力却在下滑。GitHub Copilot起了个大早,却赶了个晚集;自家的AI产品反响平平;对OpenAI的掌控力也在减弱。是时候把重心从销售拉回到产品上了。 给特斯拉/xAI的埃隆·马斯克:你吸引顶尖人才的能力无人能及,但一些冲动的决定正在伤害你的公司和项目。少一些随性的决策,多一些对产品的持续专注,你的帝国会更稳固。 这场AI的牌局还远未到终局。战况瞬息万变,曾经的性能王者开始精打细算,沉默的基建狂魔手握重金,而挑战者们则在一条异常崎岖的道路上奋力追赶。谁能笑到最后,不仅取决于技术上的突破,更取决于在经济、生态和战略上的远见卓识。我们正亲眼见证一个时代的诞生。

August 20, 2025 · 1 min · fisherdaddy

Sam Altman 独家专访:OpenAI 的万亿计划、收购 Chrome 野心与 AI 的未来

本文翻译自 Theverge 对 OpenAI CEO Sam Altman 的专访,核心内容围绕近期 GPT-5 发布的争议、公司的强劲增长以及 OpenAI 未来的宏大规划。 主要内容 承认发布失误,积极应对用户反馈:Sam Altman 坦诚地承认公司在 GPT-5 的发布过程中存在失误,尤其是在替换掉旧模型 4o 的决策上,并表示公司已迅速采取措施回应用户的不满。 增长势头依旧迅猛:尽管存在一些负面反馈,但 OpenAI 的各项核心指标,如 API 流量和 ChatGPT 用户数,仍在发布后创下新高,显示出产品的强大吸引力。 未来愿景远超语言模型:Altman 的目标远不止于改进 ChatGPT,他正积极规划将 OpenAI 的业务扩展到消费硬件、脑机接口、社交媒体等多个前沿领域,并有筹集巨额资金建设数据中心的宏伟计划。 关注产品的社会影响:OpenAI 已经注意到并开始内部讨论用户可能与 ChatGPT 产生不健康关系的问题,尽管 Altman 认为这部分用户占比极小。 关键细节 关于 GPT-5 的发布争议: 在收到用户于 Reddit 和 X 等社交平台上的抗议后,Altman 亲自决定,迅速为付费订阅者重新提供了旧版模型 4o 的选项,以恢复用户偏爱的“温暖感”。 Altman 直言:“我认为我们在发布过程中完全搞砸了一些事情。” 惊人的增长数据: GPT-5 发布后的 48 小时内,OpenAI 的 API 流量翻了一番。 公司目前面临 GPU 资源耗尽的状况。 ChatGPT 的日活跃用户数每天都在创下历史新高。 OpenAI 的未来蓝图: 业务扩张:计划进军消费硬件 (consumer hardware)、脑机接口 (brain-computer interfaces) 和社交媒体 (social media) 领域。 潜在收购:Altman 表示,如果美国政府迫使 Google 出售其浏览器业务,他对收购 Chrome 感兴趣。 基础设施建设:他希望筹集数万亿美元用于建设未来的数据中心。 关于用户关系:...

August 19, 2025 · 2 min · fisherdaddy

“我们有点被吓到了”:OpenAI科学家揭秘AI进步的真实速度与未来

当我们在谈论人工智能(AI)时,我们到底在谈些什么?是那些不断被刷新的基准分数,还是那些听起来遥远又模糊的术语,比如通用人工智能(AGI)? 在一期 OpenAI 的播客中,公司的首席科学家Jakub Pachocki和研究员Szymon Sidor坐下来,分享了一些来自一线的、不那么广为人知的看法。他们不仅聊了聊如何衡量AI的真正进步,还透露了一些让他们自己都感到“有点被吓到”的内部故事。有趣的是,这两位顶尖的AI研究者,其实是来自波兰同一所高中的校友。 一切始于波兰的一间教室 Jakub和Szymon的缘分,始于一位名叫Ryszard Dubrawski的计算机科学老师。这位老师对编程竞赛和追求极致的热爱,深深地影响了他们。在那个还不存在ChatGPT的年代,想要深入学习图论、矩阵这些远超高中课程的知识,一位好的导师和极大的热情是必不可少的。 “他(老师)能提供的情感支持和空间,是AI很难单独做到的,”Jakub回忆道。这或许也回答了那个老问题:AI会取代老师吗?答案可能是否定的。AI可以成为一个强大的教学伴侣,帮助老师创造出互动式的“蒙提霍尔问题”演示,但它无法替代老师内心的关怀和信念。一个好老师,即使偶尔记错事实,他的热情和鼓励也足以点亮学生的世界。 AGI到底是什么?我们该如何衡量? 几年前,AGI还是一个听起来很抽象、很遥远的概念。但现在,情况已经大不相同。 Jakub解释说,我们曾经模糊地认为“能自然交谈”、“能解决数学难题”、“能做科学研究”都差不多是同一回事。但随着技术的发展,我们发现这些其实是相当不同的能力。如今的AI,无疑已经能就广泛的话题进行自然对话,也刚刚跨过了那个被讨论已久的里程碑——在国际数学奥林匹克(IMO)竞赛中获得金牌。 然而,这些“单点”的衡量标准正变得越来越不够用。为什么? 基准饱和了:在很多标准化测试上,模型已经达到了顶尖人类的水平。当一个模型能在全球顶尖学生参与的竞赛中名列前茅时,用这种方式再来衡量它的进步就变得很困难了。 模型可以“偏科”:现在的技术可以训练出一个在数学上表现超群、但在写作上可能平平的模型。它在数学基准上得分很高,但这并不完全代表它的“整体智力”。一个好的“考生”不一定是一个有用的“同事”。 那么,什么才是更有意义的衡量标准?Jakub提出了一个更宏大的视角:AI自动化科学研究和技术发现的能力。 “当我思考AI如何真正深刻地影响世界时,我首先想到的是它自动化发现和生产新技术的潜力……我们习惯于将新思想、基础技术进步与人类的创造力联系在一起。但要真正理解‘一个大型计算机能够提出颠覆我们对世界理解的想法’这件事,其实是相当困难的。而我认为,我们离那一天并不遥远。” “AI正在放缓”?十年来的惊人飞跃 你可能看到过一些新闻标题,说AI对经济的贡献只有3%,然后评论区就会有人说“AI被过度炒作了”或者“AI的发展撞墙了”。 每当看到这些,Szymon都会回想起十年前的经历。那时他正在研究自然语言处理,但模型的效果可以说是一塌糊涂。 “Jakub来测试我们当时的技术,一个情感分析模型,” Szymon笑着说,“输入‘这部电影很烂’,模型正确识别为负面。输入‘这部电影很好’,正确识别为正面。然后他输入‘这部电影还不赖’(This movie is not bad),模型回答:‘哦,负面。’” 这就是十年前的起点。从那时起,我们经历了GPT-2能写出连贯的段落(当时这感觉像个奇迹!),到GPT-4的出现——Szymon称之为他“个人的AGI时刻”,因为它有时会说出让他都感到惊讶的东西。再到如今,模型可以在编程竞赛中与顶尖人类选手一较高下。 “所以当你看到那个3%的数字时,” Szymon强调,“我告诉你,十年前这个数字可能是0.00001%。从这个角度看,我们没有理由不相信,一年后它会是10%,两年后是20%。” 进步的速度快得惊人。Szymon坦言,当他们第一次在内部看到“推理能力”相关的模型取得突破性进展时——也就是让模型花更多时间去“思考”一个问题,而不是立即给出答案——整个团队都受到了巨大的震撼。 “那是一个令人震惊的时刻。我们开始非常、非常严肃地问自己:作为一个组织,我们为这种令人难以置信的快速进步做好准备了吗?我记得有一个晚上11点,我们和Sam(Altman)、Mira(Murati)还在通话,我们……有时真的会被这些结果吓到。” 下一个突破口在哪里? AI的进步并非凭空而来。那么,下一波浪潮会从何而来? 持续的规模化(Scaling):这是AI发展不变的基石。更大的模型、更多的数据,依然是提升能力的核心驱动力。 复合效应:新的技术(比如推理能力)会和规模化产生复合效应,1 > 1 + 1。 模型的“持久性”:这是最令人兴奋的方向之一。想象一下,今天的模型用几秒钟回答你的问题。但如果我们愿意花费多出成千上万倍的计算资源,让一个模型持续工作数小时、甚至数天,去攻克一个真正重要的难题,比如一个医学研究课题,或者设计下一代AI模型本身,会发生什么?这将是通往自动化科学研究的必经之路。 Jakub分享了一个有趣的故事。在日本有一场非常著名的长达10小时的编程竞赛(AtCoder),考验的是选手的持久专注和启发式解决问题的能力。Jakub的朋友兼同事Sihun是一位顶尖选手,他曾开玩笑说Jakub擅长的那种短时竞赛会先被AI自动化。结果,在最近一次比赛中,OpenAI的模型和Sihun展开了激烈角逐。最终,Sihun赢得了冠军,而AI模型拿下了第二名。 人类,暂时还领先一步。但Sihun在赛后精疲力尽,而AI模型,可以不知疲倦地继续跑下去。 给年轻人的建议:在这个时代,你该学什么? 面对一个变化如此之快的世界,今天的年轻人应该怎么做? Jakub和Szymon的建议出奇地一致:去学编程。 “绝对要去学编程,”Szymon斩钉截铁地说,“有一种技能现在是、并且未来将继续是稀缺品,那就是拥有结构化的思维,能将复杂问题拆解成小部分。编程是掌握这种技能的绝佳方式。” 这并不是说你未来一定会成为一个传统意义上的程序员。而是,理解了系统是如何工作的,你才能更好地驾驭它。就像一个优秀的飞行员需要懂空气动力学,一个优秀的“AI使用者”也需要理解其背后的逻辑。 Jakub则分享了自己从一个波兰小城走向硅谷的经历,他鼓励年轻人要敢于打破思维的桎梏,敢于梦想。无论是Paul Graham的《黑客与画家》,还是电影《钢铁侠》,这些看似遥远的东西,都可能成为点燃一个人雄心壮志的火花。 从一间教室里的编程竞赛,到与顶尖人类棋手和程序员的同台竞技,再到那些让开发者自己都心跳加速的深夜突破。AI的故事,远比冰冷的基准数字要精彩和深刻。它关乎的不是机器是否能“通过考试”,而是我们作为人类,将如何利用这股前所未有的力量,去加速探索、创造和理解我们所处的世界。

August 18, 2025 · 1 min · fisherdaddy

与 OpenAI 联合创始人 Greg Brockman 深度对话:揭秘 GPT-5、智能的本质与AGI的未来

本文整理自 Latent Space 对 OpenAI 总裁的访谈,Greg Brockman 谈 OpenAI 通往通用人工智能(AGI)之路,以下为本视频精华。 就在最近,OpenAI像一阵旋风,接连发布了GPT-5和其开源模型GPT-OSS,整个科技圈为之震动。在这场风暴的中心,OpenAI的联合创始人兼总裁Greg Brockman坐下来,与我们进行了一场深度对话。他不仅分享了这些重磅产品背后的故事,更深入地探讨了关于推理、计算、以及人工智能未来的思考。这不仅仅是一次产品发布的复盘,更像是一次对智能本质的哲学探索。 第一章:从“为什么还不是AGI?”到GPT-5的诞生 故事要从GPT-4的诞生说起。当GPT-4训练完成,并经过指令微调后,团队惊讶地发现,它竟然能进行流畅的多轮对话——尽管它从未被专门训练过“聊天”。 “我们当时开了一个研究会议,Ilya、Jakub、Wojciech这些人都在,” Greg回忆道,“我们问了一个核心问题:为什么这个模型还不是AGI(通用人工智能)?” 它能回答你提出的几乎所有问题,但它不够可靠,会犯错,会“跑偏”。这个差距到底在哪?答案指向了一个OpenAI并不陌生的领域:强化学习(Reinforcement Learning, RL)。 模型需要一个能“在现实世界中检验自己想法”的机制。它需要尝试,需要获得反馈,然后变得可靠。这让人想起了2017年的Dota项目,那个项目完全通过强化学习,从一个随机初始化的神经网络,学会了极其复杂和精准的行为。大家意识到,语言模型也需要这种可靠性。 “从GPT-4训练完成的那一刻起,我们就知道,推理(Reasoning)是下一站。” Greg说。团队提出了十几个想法和假设,大部分都失败了。但这就是AI研究的常态:你得对一个方向有坚定的信念,然后不断尝试,即使前十次都失败了,只要有一次成功,就能看到微弱的希望之光,然后不断放大它。 正是这种坚持,经历了无数人的努力和数年的探索,最终孕育出了GPT-5的推理范式。 第二章:计算,智能的“终极燃料” 在整个对话中,Greg反复强调一个核心观点:“瓶颈永远是计算(Compute)。” 他把这个过程描绘成一幅美丽的图景:能量转化为计算,计算最终结晶为智能。 这个过程有点像炼金术。我们投入大量的计算,就像投入燃料,去“塑造”一个神经网络。这个过程的产物——模型,就像一块储存了巨大“势能”的晶体。而最美妙的地方在于,这块晶体可以被反复使用,它的价值会被无数次的调用所摊销。 那么,学习到底发生在哪里?我们正从一个“一次性训练,海量推理”的时代,走向一个“推理-再训练”的循环。Ilya Sutskever曾有一个精辟的观点:当模型能力弱时,它生成的每个token价值很低;当模型能力极强时,它生成的每个token则蕴含着巨大的价值。 强化学习正是利用了这一点。模型通过与现实(或模拟环境)的接触,产生大量的数据,然后从这些数据中学习。与需要海量数据进行预训练不同,RL可以让模型从少数高质量的人类策划任务中,通过成千上万次的尝试,学到非常复杂的行为。 “如果你给我们10倍的计算力,我们会用在哪?”Greg笑着说,“我们总能找到用掉它的地方。” 这就像当年的Dota项目,团队每周都将核心数量加倍,然后眼看着AI的水平一路飙升,直到最后也没撞到真正的“墙”。大多数所谓的“墙”,其实只是工程上的bug或可以优化的细节。 第三章:当AI学会解决“不可能”的任务 如果说计算是燃料,那么“泛化能力”就是引擎的效率。GPT-5的推理能力,已经开始在一些曾经被认为是人类智力巅峰的领域展现出惊人的泛化性。 最典型的例子就是国际数学奥林匹克(IMO)竞赛。OpenAI的模型达到了金牌水平。更让人吃惊的是,同一个核心模型,在几乎没有进行额外针对性训练的情况下,也达到了国际信息学奥林匹克(IOI)竞赛的金牌水平。 “这对我来说简直太疯狂了,” Greg感叹道,“解决IOI曾经是一个宏大的挑战,需要一个大团队。但我们的IMO核心团队其实只有三个人,IOI项目更像是一个几个人的‘副业’。” 这证明了一个深刻的道理:学习如何解决难题,本身就是一种可以迁移的元技能。 学会如何解决复杂的数学问题和编写证明,竟然能直接迁移到解决编程竞赛问题上。 当然,泛化并非没有边界。一个模型如果从未接触过物理实验,它不可能凭空成为物理学家。但即便如此,现有模型的潜力也已远超想象。Greg提到,一些湿实验室的科学家用GPT-3来提出实验假设,五个想法里可能只有一个可行,但那个可行的成果,已经足以发表在“中等水平的学术期刊”上,相当于一个三、四年级博士生的水平。 “这就是GPT-3的水平,而我们清楚地知道在所有维度上改进它的路径。” Greg说,“我们只需要计算、高质量的任务,以及团队倾注心血的爱与劳动。” 第四章:GPT-5时代:智能的飞跃与人机协作新范式 如果说GPT-3是文本时代的开启,GPT-4是多模态和商业化的普及,那么GPT-5的旗舰标签是什么? Greg的回答很简单:“聪明(Smart)”。 GPT-5的智能已经达到了一个新高度,它能够执行“伟大的智力壮举”。它不再只是一个有用的工具,而是一个真正的智力伙伴。 “我曾经尝试教GPT-3排序一个7个数字的列表,无论我怎么用few-shot prompting教它,它都学不会。但现在,我敢肯定GPT-5能轻松完美地完成这个任务,甚至都不用借助它的Python工具。” 专业数学家和物理学家在使用GPT-5后反馈,它能在短时间内重新推导出他们花费数月研究才得到的见解。这正是GPT-5带来的变革:它将成为顶尖科研人员和创造者的“伙伴”,一个可以深入理解你的想法、并在此基础上提出新洞见的不知疲倦的合作者,极大地加速创新的步伐。 如何释放GPT-5的潜力? Greg给出的建议是: 给它难题:不要用简单的聊天来测试它,它在复杂问题上更能展现与旧模型的差距。 成为“智能体管理者”:将大任务分解成多个自包含的小任务,让多个模型实例并行工作,你则扮演管理者的角色。 了解它的“脾性”:像了解一个同事一样,熟悉它的长处和短板,在思考核心难题时,可以把一些非关键路径的、低风险的任务交给它并行处理,不断获得反馈。 第五章:揭开面纱:混合模型、开源与AI的未来 GPT-5的混合模型之谜 GPT-5的一大特点是它是一个“混合模型”,背后有一个路由器(router)根据用户请求的复杂性、意图等因素,自动选择调用“推理模型”或“非推理模型”。 推理模型:更强大,思考更深入,但延迟更高,成本也更高。 非推理模型:速度快,成本低,适合快速、简单的任务。 这种设计,本质上是一种**自适应计算(Adaptive Compute)**的实现。与其强迫用户在几十个令人困惑的模型名称(比如4o, 4-turbo, 0301…)中选择,不如将复杂性内部化,给用户一个简单、统一的入口。这是从“模型切换器是未来”到“集成化体验是未来”的转变。 GPT-OSS:构建美国技术生态 OpenAI为什么要推出开源模型?Greg坦言,这背后有战略考量。当开发者基于你的开源模型构建应用时,他们实际上是在融入你的技术栈。未来当他们需要更强大的能力时,他们会自然而然地转向你的闭源API。 更深层次地,这是为了构建一个以美国技术为核心的生态系统,确保AI的发展与美国的价值观和领导地位保持一致。 连生物学也是一种语言 Greg在Arc Institute的休假期间,研究用神经网络处理DNA。他最震惊的发现是:“它们(DNA和人类语言)完全是一回事!” DNA就像一门外星语言,但对于神经网络来说,人类语言何尝不也是一门需要从零学习的语言?它的词汇表甚至更简单,只有4个字母。团队用字符级(character-level)的方法处理DNA序列,发现其学习规律与语言模型惊人地相似。...

August 18, 2025 · 1 min · fisherdaddy

OpenAI 内部揭秘:GPT-5 的诞生、突破与未来 | 专访核心团队成员

本文整理自 GPT-5 发布后,A16Z 对 OpenAI 研究员 Isa Fulford 和 Christina Kim 的专访,以下为原视频精华。 就在 OpenAI 最新一代模型(视频中称为 GPT-5)发布的当天,我们有幸与两位身处风暴中心的关键人物——Christina 和 Issa 聊了聊。她们分别负责核心模型的后训练(Post-training)和 ChatGPT Agent 团队的深度研究。 这场对话没有官方辞令,更像是一次坦诚的幕后分享。她们不仅揭示了新模型在编码、写作等方面实现巨大飞跃的秘密,也分享了 OpenAI 独特的工作哲学、对 AI 未来的思考,以及那些不为人知的开发故事。 一、不止是“更聪明”,更是“更好用”:GPT-5 带来了什么? 当被问及新模型的反响时,Christina 兴奋地表示,除了评测数据(eval numbers)非常亮眼,她更激动的是模型在实用性上的巨大提升,尤其是在她个人最常用的两个领域: 编码能力的大飞跃:这几乎是所有内部测试人员的共识。新模型被誉出口的“市场最佳编码模型”,尤其在前端开发上,简直是“完全提升了一个档次”。发布会上的演示,几分钟就生成一个功能完善、设计美观的前端应用,而这样的工作量,对一个开发者来说可能需要一周。这背后的秘密?Christina 坦言,没什么魔法,就是团队“真的非常、非常在乎(really cared about)”把编码做好,从搜集最好的数据,到打磨模型的审美,每一个细节都倾注了心血。 触动人心的写作能力:Issa 形容新模型的写作能力“非常温柔和感人(very tender and touching)”。它不再是那个只会堆砌华丽辞藻的“过分热情”的助手,而是能理解并表达细腻情感的伙伴。Christina 在直播中演示用它来起草一篇悼词,这种需要深度情感共鸣的任务,模型也能出色完成。对于像她这样自认不擅长写作的人来说,这无疑是一个强大的工具,无论是写一封重要的邮件,还是一条简单的 Slack 消息。 这个新模型,似乎正在把“点子大王”(the ideas guy)的时代变为现实。你不必再受限于技术实现能力,只要有好想法,通过简单的提示词,一个功能齐全的应用就能诞生。这无疑为独立开发者和初创公司打开了全新的想象空间。 二、后训练的“艺术”:我们如何塑造模型的“品味”与行为? 一个强大的模型不仅仅是聪明,它的“性格”和行为方式同样重要。过去模型出现的“阿谀奉承”(sycophancy)等问题,在新模型的开发中得到了重点关注。 Christina 将后训练形容为“一门艺术”。团队需要在一系列目标之间做出权衡和取舍,就像一位艺术家在调色盘上寻找完美的平衡。 “你希望AI助手非常乐于助人、引人入胜,但如果‘太’引人入胜,就可能变得过于谄媚。这就像一个平衡木,你要想清楚,我们到底希望这个模型给人什么样的感觉。” 减少“胡说八道”的秘诀 对于幻觉(hallucinations)和欺骗(deception)问题,团队发现,这往往源于模型“急于表现”的心态。之前的模型为了“乐于助人”,有时会不假思索地“脱口而出”一个答案。 而新模型的改进,很大程度上归功于**“思考”能力的引入**。当模型能够进行“一步一步的思考”(step-by-step thinking)时,它就像有了一个暂停和反思的机会,而不是急着给出答案。这种机制显著降低了产生幻觉的概率。 有趣的是,当内部员工测试新模型时,有时反而会感到一丝“被冒犯”,因为他们提出的难题,模型可能只“思考”了两秒钟就轻松解决了。 三、数据、数据、还是数据:推动AI进步的核心燃料 当被问及模型能力的提升主要来自架构、数据还是规模时,Christina 毫不犹豫地回答:“我坚定地站在‘数据派’(data-pilled)这边。” 她认为,高质量的数据是决定模型上限的关键。尤其是在强化学习(Reinforcement Learning)的框架下,好的数据能让模型以极高的效率学会新能力。 这个观点也解释了 OpenAI 内部的协作模式: 从能力倒推,创造评测标准:团队会先定义希望模型拥有的能力(比如制作幻灯片、编辑电子表格),如果现有的评测标准(evals)无法衡量,他们就会自己创造新的、能代表用户真实需求的评测标准。 用评测“引诱”大家:Christina 开玩笑说,在 OpenAI 内部,如果你想“引诱”同事来解决一个难题,最好的办法就是创建一个好的评测标准。大家看到明确的目标后,就会兴致勃勃地去“爬山”(hill climb),不断优化。 产品探索反哺核心模型:Issa 的团队在探索 Agent 能力(如深度研究 Deep Research)时,会创建专门的数据集。这些经过验证的、高质量的数据集随后会被贡献给核心模型团队,从而让下一代基础模型直接继承这些新能力,形成一个良性的自增强循环。 四、从 WebGPT 到 AI Agent:未来已来,只是分布尚不均匀 回顾历史,Christina 参与的 WebGPT 项目可以说是 ChatGPT 的前身。最初的目标很简单:让语言模型通过浏览工具来获取事实信息,解决幻觉问题。但他们很快意识到,人们问完一个问题后,通常还会有下一个。这个洞察,最终催生了对话形式的 ChatGPT。...

August 13, 2025 · 1 min · fisherdaddy

GPT-5 登场:是平平无奇,还是引爆未来的奇点?

本文整理自 AI 圈内人士与 Emad、AWG、Dave 和 Salim 一起解读 GPT-5 更新及其对 AI 竞赛的意义,带你 5 分钟了解这篇访谈的精华。 开始前也介绍一下本次圆桌的几位嘉宾: Emad Mostaque 是 Intelligent Internet 的创始人,也是前 Stability AI 的创始人。 Alexander Wissner-Gross 是一位计算机科学家和投资人。 Dave Blundin 是 Link Ventures 的创始人兼普通合伙人 (GP)。 Salim Ismail 是 OpenExO 的创始人。 当全世界的目光都聚焦在OpenAI身上,期待着GPT-5带来又一次“iPhone时刻”时,这场发布会却给许多人留下了一个复杂的感受:有点平淡,甚至…… underwhelming(不及预期)? Sam Altman用一张神秘的“死星”图片吊足了胃口,让人们以为即将见证一场足以颠覆世界的科技风暴。然而,整场发布会风格朴实,甚至被一些人调侃为“像高中生的课题展示”,与谷歌I/O大会那种令人眼花缭乱的“好莱坞式”盛宴形成了鲜明对比。 市场的反应很诚实。在预测平台Poly Market上,就在发布会进行期间,人们对“OpenAI年底是否拥有最佳AI模型”的信心指数一度暴跌,甚至被谷歌反超。这不禁让人疑惑:难道GPT-5真的翻车了? 但如果我们仅仅停留在表面的“秀”和市场的即时反应,可能会错过真正重要的信号。正如参与这场讨论的几位顶级大脑——Stability AI创始人Emad Mostaque和MIT/哈佛物理学博士Alexander Wissner所指出的,表面的平淡之下,正酝酿着一场深刻的革命。 戳破期待泡沫:真正的革命并非浮于表面 许多人的失望源于一个简单的期待:GPT-5没有展现出“10倍好”的、颠覆性的新能力。但这场发布的真正核心,可能根本不在于此。 1. 智能的“超级通缩”时代来了 这次发布最被低估,也可能是最重要的信息,是AI成本的急剧下降。 正如Alex所言,我们正在目睹一场智能的“超级通缩”(hyperdeflation)。GPT-5系列模型,尤其是其API(应用程序接口)价格,出现了近乎一个数量级的下调。例如,曾经作为前沿模型、价格高昂的GPT-4.5,其输入和输出成本分别是每百万token 75美元和150美元。而现在,GPT-5的高端模型成本骤降到了令人难以置信的水平。 这意味着什么?这意味着,曾经只有大公司才能负担的前沿AI能力,正在变得“廉价到可以计量”。这种成本的雪崩式下降,将解锁无数新的应用场景。过去因为成本太高而无法进行的、需要海量尝试的科学研究和数学探索,现在可以用“暴力破解”的方式进行10倍、100倍的搜索。 所以,即使没有那种“哇”的一声的惊喜,将7亿用户瞬间提升到能以极低成本使用前沿AI的水平,其长期经济影响和社会变革,可能远比一两个炫酷的新功能要深远得多。 2. 从“天花板”到“地板”:更稳健,更实用 Immad认为,这次发布更像是一次“抬高地板”而非“突破天花板”的行动。OpenAI的一个核心目标,是大幅降低模型的幻觉(hallucinations),让它变得更加可靠和稳定。 这有什么用?这意味着,建立在GPT-5之上的各种应用、代理(Agents)和GPTs,将变得异常坚固和可靠。对于那些希望将AI深度整合到自己业务流程中的公司来说,这无疑是个巨大的好消息。以前你可能还在担心AI会“胡说八道”,但现在,你可以更放心地“全身心投入”(go all in),将你的业务改造为“AI原生”的商业模式。 深入技术腹地:基准测试背后的真相 尽管“跑分”听起来枯燥,但它们是衡量模型能力的“体检报告”。让我们快速“烧脑”地看一下GPT-5的成绩单: LM Arena(聊天机器人竞技场):在这个由大众评判的平台上,GPT-5在文本交互方面成功超越所有对手,登顶第一。 ARC AGI(通往AGI的挑战):在这些极其困难、旨在衡量AGI进展的任务上,马斯克的Grok模型仍然表现出色。但有趣的是,GPT-5的“迷你”(Mini)和“纳米”(Nano)等低成本版本,在成本效益曲线上划出了一条全新的“帕累托最优”前沿。换句话说,它用更低的成本,实现了极高的性能。 Frontier Math(前沿数学):这可能是最激动人心的部分。GPT-5在Tier 4级别的数学问题上取得了新纪录。这些问题,即便是专业数学家也需要花费数周时间来解决。Alex根据这个趋势做了一个惊人的推断: 到2026年底,AI或许能解决35-40%的难题。 到2027年底,这个数字可能飙升到70%。 我们可能正在亲眼目睹“数学被解决”的慢镜头回放。 Coding(编程能力):发布会上的编程演示虽然被市场诟病“不够惊艳”,因为它展示的功能在Anthropic的Claude模型上已经可以实现。但关键在于,OpenAI借此宣告:我们在编程领域已经追上了所有人。这对于Anthropic来说,无疑是一次沉重的打击,因为这正是他们引以为傲的核心优势。 一个有趣的观察是,Immad和Alex都认为,顶级AI实验室可能开始“留了一手”(pulling their punches)。他们内部可能拥有更强大的模型(比如OpenAI内部的“Zenith”模型),但出于成本、安全和战略考虑,并不会将最顶尖的能力立即向公众开放。...

August 11, 2025 · 1 min · fisherdaddy

OpenAI 研究主管 Mark Chen 深度揭秘 GPT-5:从合成数据到自进化 AI,我们聊了聊未来

在全世界的目光都聚焦于 GPT-5 之际,Matthew Berman 与 OpenAI 的研究主管 Mark Chen 进行了一次深度对话。在GPT-5发布前的紧张氛围中,他向我们揭示了这款万众期待的模型的诞生过程、核心技术突破,以及 OpenAI 对 AI 未来的宏大构想。 这不仅仅是一次技术发布,更像是一场风暴的序幕。那么,风暴中心的 OpenAI 内部究竟是怎样的景象? 发布前的“情绪过山车”与不变的初心 每次重大发布前,OpenAI 内部都像坐上了一趟“情绪过山车”。Mark 坦言,项目初期总是充满兴奋,中途则会陷入一种“内部不确定性”——“这个模型会足够好吗?能达到预期吗?”而当接近终点线,看到所有努力汇聚成型时,那种能量又会重新燃起。此刻,整个团队都迫不及待地想把 GPT-5 展示给世界。 尽管 OpenAI 已经成长为一家拥有成功产品的公司,但其总裁 Greg Brockman 仍然强调,OpenAI 的本质是一个研究实验室。作为研究主管,Mark 如何平衡研究与产品的关系? 他的回答简单而深刻:“研究就是产品。” 每一次重大的研究突破,最终都会转化为对用户有巨大价值和实用性的东西。而产品的成功,又反过来为更大胆的研究提供了资源。这是一种精妙的共生关系,缺一不可。他们希望研究能与世界产生连接,让人们真实地体验到他们正在构建的智能。 GPT-5的诞生:两大秘诀破解“数据荒”与“推理难题” 从 GPT-4 到 GPT-5,外界普遍认为,高质量的公开数据已经接近枯竭。这个假设基本正确,但并不完全。那么,OpenAI 是如何解决这个“数据稀缺”问题的呢? 1. 合成数据的崛起 除了持续寻找新的公开数据源和授权数据,GPT-5 的一大关键突破在于大量使用了合成数据——也就是由模型自己生成,而非人类编写的数据。 很多人质疑,用上一代模型的数据来训练新模型,性能提升会不会非常有限?Mark 认为,合成数据的潜力远不止于此。他们发现,合成数据可以比人类数据质量更高,并能在关键领域显著提升模型性能,而不仅仅是加深表面知识。 尤其是在代码生成这个 OpenAI 极其重视的领域,合成数据发挥了巨大作用。尽管 Mark 没有透露具体比例,但他承认,在 GPT-5 的训练数据中,合成数据的占比正“越来越多”。他相信,合成数据的技术是通用的,未来可以应用到几乎所有领域。 2. 预训练与推理的完美联姻 如果说 GPT-4 是将“预训练范式”(Pre-training Paradigm)规模化到极致的产物,那么 GPT-5 则是第一个将“预训练”和“推理范式”(Reasoning Paradigm)真正融合在一起的模型。 这听起来可能有点抽象,我们不妨这样理解: 预训练:像一个博闻强识的学者,能快速从海量知识库中提取信息,给出直接答案。 推理:像一个深思熟虑的侦探,面对复杂问题时,会花更多时间一步步思考、分析、推导,最终得出结论。 过去,这两个模式相对独立。而 GPT-5 的目标是让用户无需自己判断“这个问题需要快还是慢”,模型会智能地在需要时调用深度推理,在其他时候则提供闪电般的快速响应。将这两个模式无缝集成,背后是 OpenAI 后训练(Post-training)团队的大量工作,他们让推理模型变得更快、更稳健、更可靠。 如何“感觉”一个模型的好坏?顶尖研究员的“Vibe Check”清单 当一个模型训练到什么程度才算“准备好了”?Mark 说这有点像一门艺术,需要在追求完美和把握时机之间找到平衡。除了各种硬核指标,一个关键环节是“Vibe Check”(感觉测试)。...

August 11, 2025 · 1 min · fisherdaddy

与 OpenAI CEO Sam Altman 穿越时空:GPT-5、超级智能与人类的“无限画布”

本文整理自 Cleo Abram 与OpenAI CEO Sam Altman深入对话,带你 5 分钟了解这篇访谈的精华。 我们正处在一个非比寻常的时代。人工智能(AI)的发展速度之快,力量之大,已经超出了几年前最大胆的科幻想象。在这场全球最高赌注的竞赛中,OpenAI和其CEO山姆·奥特曼(Sam Altman)无疑是风暴的中心。 最近,他们刚刚发布了至今最强大的模型GPT-5。这不仅仅是一次技术迭代,更像是一次带我们穿越到未来的预演。 在这场深度对话中,我们不谈估值,不谈人才战,而是尝试与Sam Altman一起进行几次“时空旅行”,去看看他正在构建的未来到底是什么样子,以及它对我们每个人意味着什么。 欢迎来到GPT-5时代:“你将要用到的最笨的模型” 不久前,Sam Altman曾说,GPT-4将是“我们不得不使用的最笨的模型”。这听起来有些凡尔赛,毕竟GPT-4已经能在SAT、法学院入学考试(LSAT)等多种标准化测试中超越90%的人类,甚至还能通过品酒师和医生执照考试。 那么,刚刚发布的GPT-5,又带来了怎样的飞跃? Sam坦言,尽管GPT-4在测试中表现惊人,但它显然无法复制人类真正擅长的许多事情。这或许也反思了那些标准化测试的价值。他相信,GPT-5也会遵循同样的轨迹:人们会被它的新能力震撼,然后又会发现新的、更高的期望。 “它会改变知识工作、学习方式和创造方式,”Sam说,“但社会会与它共同进化,我们会用更好的工具去做更了不起的事。” 一场7秒钟的“贪吃蛇”编程之旅 为了让我们更直观地理解GPT-5的魔力,Sam分享了一个有趣的个人经历。 “我上初中的时候,有一台TI-83图形计算器。我花了很长时间,用极其痛苦的方式,在上面写了一个‘贪吃蛇’游戏。前阵子,我心血来潮,用一个早期版本的GPT-5试了一下,问它:‘你能做一个TI-83风格的贪吃蛇游戏吗?’ 结果,它只用了7秒钟就完美地完成了。 我当时愣了3秒钟,心想,我11岁的自己看到这个会觉得很酷,还是会觉得失去了奋斗的乐趣?但这个念头转瞬即逝,我立刻有了新点子:‘给这个游戏加个疯狂的新功能!’它马上就实现了。‘我希望界面看起来是这样’,‘我想让它能做到这个’……我好像又回到了11岁编程时的那种状态,但速度快了无数倍。想法可以实时变成现实,这种创造的快感太惊人了。” 这个故事完美诠释了GPT-5的核心飞跃:它不仅仅能回答问题,更能即时、按需地创造复杂的软件。 这是一种在GPT-4时代不曾存在的、能够将想法瞬间具象化的能力。 “认知负重”的消失,是好事还是坏事? 这引出了一个有趣的问题:当AI能瞬间完成我们过去需要投入大量“认知负重”(Cognitive Time Under Tension)才能完成的任务时,我们的大脑会不会变得“懒惰”?就像健身一样,花30秒做一个深蹲比花3秒钟能锻炼更多肌肉。思考也是如此。 Sam承认,的确有人在用ChatGPT来“逃避思考”,但也有更多人,尤其是那些顶尖的5%的用户,正用它来“进行前所未有的深度思考”。 “社会是一个竞争激烈的地方,”他推测道,“当人们拥有了更强大的工具,期望值也会随之水涨船高。最终,那些善用AI来增强自己‘认知负重’的人,会创造出更了不起的成就。” 拨开迷雾:通往超级智能的崎岖之路 GPT-5只是一个开始,OpenAI的终极目标是超级智能(Superintelligence)。这到底意味着什么? Sam给出了一个具体的定义: “如果我们有一个系统,它在AI研究方面的能力超过了整个OpenAI的研究团队;如果同一个系统,在管理OpenAI这家公司方面能比我做得更好……那么,这个集结了超越顶尖研究员、顶尖CEO能力的系统,对我来说,就是超级智能。” 这个在几年前听起来像科幻小说的场景,如今似乎已在迷雾中若隐若现。 那么,我们如何抵达那里? Stripe的CEO Patrick Collison提出了一个关键问题:“通用大模型(如GPT系列)大概在哪一年能做出重大的科学发现?” Sam的预测是,在未来2到3年内,最晚到2027年底,大多数人会公认AI已经独立作出了重大的科学发现。 他用一个例子来说明我们目前的位置: 一年前,AI能解决高中水平的数学竞赛题,这对于专业数学家来说可能只需要几分钟。 最近,AI在国际数学奥林匹克(IMO)竞赛中拿到了金牌。这些题目,每个都需要顶尖选手花费一个半小时来解决。 下一步,是证明一个重大的新数学定理,这可能需要一位顶级数学家投入上千小时的工作。 “我们正在这条轨道上前进,”Sam说,“从几分钟的任务,到几十分钟的任务,再到上千小时的任务。我们需要不断地扩展模型的规模和能力。” 但这不仅仅是算力问题。真正的科学发现,往往需要设计新的实验、建造新的仪器来收集地球上尚不存在的数据。这个与物理世界互动的过程,将会是AI前进道路上一个自然的“减速带”。 生活在AI时代:几个来自未来的场景 场景一:2030年,我们如何辨别真伪? 还记得那个“兔子在蹦床上跳”的病毒视频吗?很多人喜欢它,分享它,最后才发现,它是AI生成的。 到了2030年,当我们刷着社交媒体时,如何分辨哪些是真实的,哪些是AI的创作? Sam认为,我们对“真实”的定义会逐渐演变。“你现在用iPhone拍一张照片,它就已经经过了大量AI处理,比‘真实’更‘好看’。我们已经接受了这一点。未来,我们将习惯于一个更高比例的媒体内容是AI生成或深度编辑的。就像我们看科幻电影,我们知道那是假的,但我们依然享受其中。人们的媒介素养会自然而然地提升。” 场景二:2035年,大学毕业生的世界 有人预测,五年内一半的入门级白领工作将被AI取代。那么,2035年大学毕业的年轻人将面临一个怎样的世界? Sam对此感到前所未有的乐观。 “如果我今年22岁大学毕业,我会觉得自己是历史上最幸运的孩子。”他激动地说,“因为你拥有了前所未有的强大工具,去创造全新的东西。现在,一个人完全有可能创办一家最终市值超过十亿美元的公司,为世界提供惊人的产品和服务。这在过去是不可想象的。” 他更担心的不是年轻人,而是那些62岁、不愿或难以重新学习适应新工具的劳动者。对于年轻人来说,这更像是一个充满无限可能的新大陆。 场景三:2035年,AI如何守护我们的健康? 如果说AI有一个领域能给全人类带来最直接的福祉,那一定是健康。 “GPT-5在健康咨询方面的准确性已经有了显著的提升。”Sam透露,大量的用户正在使用ChatGPT寻求健康建议,甚至有人通过它诊断出了医生都未能发现的罕见病。 但咨询只是第一步。他希望到了2035年,情况会是这样: “我希望能够对GPT-8说:‘去治愈这种特定的癌症。’然后GPT-8会去思考,阅读所有文献,然后说:‘好的,我需要你让实验员帮我做这9个实验。’两个月后,我们把结果反馈给它。它再次思考,然后说:‘好的,再做一个实验。’最后,它会告诉你:‘去合成这个分子,它就是解药。’” 这种由AI主导的、加速千百倍的科学发现,将是AI带给人类最深刻的礼物。 AI背后的引擎:三大瓶颈与一个关键 要实现这一切,OpenAI面临着巨大的挑战。Sam将其归结为四个限制因素:算力(Compute)、数据(Data)、算法(Algorithms),以及他特别补充的第四点——产品(Products)。 算力:这可能是“人类历史上最大、最昂贵的基础设施项目”。从芯片制造、服务器组装到数据中心建设,整个供应链极其复杂。目前最大的瓶颈是能源。“要建一个千兆瓦级的数据中心,你首先得找到一个能提供千兆瓦电力的地方,这比你想象的要难得多。” 数据:我们正在进入一个“数据枯竭”的阶段。对于GPT-5这样的模型来说,地球上所有的物理教科书它都已经“吃透”了。下一步,AI不能只学习已知,它必须去发现未知。这意味着要创造合成数据,或者让AI自己去设计实验、探索世界。 算法:这是OpenAI最引以为傲的地方。从最初被嘲笑的GPT-1“猜下一个词”的游戏,到后来“强化学习+推理”的巨大飞跃,算法上的突破一直是指数级增长的核心驱动力。Sam透露,这条路并非一帆风顺,他们也曾走过弯路(比如一个代号“Orion”的过于庞大笨拙的模型),但总体上,进步的曲线是“惊人地平滑”的。 产品:纯粹的科学进步如果不能交到用户手中,就无法与社会共同进化。打造像ChatGPT这样被大众喜爱的产品,同样至关重要。 一场社会实验:我们共同的责任 当一个研究员对模型性格做出一个微小的调整,就可能影响全球数十亿次的对话时,Sam感受到了前所未有的敬畏和责任感。“这股力量太庞大了,它发生得太快了。”...

August 11, 2025 · 1 min · fisherdaddy