Posts

揭秘 AI 黑箱：Claude 的“大脑”里在想什么？

在 AI 模型进行思考时，其内部究竟发生了什么？为什么 AI 模型会表现出“谄媚”的倾向，又为何会产生“幻觉”？AI 模型仅仅是“被美化的自动补全”功能，还是有更复杂的事情在发生？我们又该如何科学地研究这些问题？ Anthropic 拉上了“LLM 可解释团队”的几位研究院举行了一场圆桌：探讨 LLM 内部的思考逻辑，以下为本次圆桌讨论的精华。当你和像Claude这样的大语言模型聊天时，你有没有想过，你到底在和什么东西对话？一个花哨的自动补全工具？一个聪明的搜索引擎？还是一个……真正会思考，甚至像人一样思考的存在？一个可能让你有点不安的事实是：没人真正知道答案。在Anthropic，我们的一群研究员正致力于解开这个谜题。他们所在的团队叫“可解释性团队”（Interpretability Team），工作内容听起来就像科幻小说：打开大模型的“黑箱”，像做神经科学研究一样，观察它在回答你问题时，内部到底发生了什么。最近，我们和这个团队的三位成员——前神经科学家Jack、前机器学习模型构建师Emanuel，以及前病毒进化研究者Josh——聊了聊，听他们分享了一些关于Claude内部复杂运作的惊人发现。 AI不是代码，更像生物？ “我感觉自己现在是在对AI做神经科学研究，” Jack说。 “而我像是在研究一种我们用数学创造出来的生物，” Josh补充道。用“生物学”或“神经科学”来形容一个软件，听起来是不是很奇怪？但大语言模型（LLM）真不是我们传统意义上的软件。没人会像写代码一样，给模型设定一条条“如果用户说‘你好’，你就回答‘你好’”的规则。模型的诞生更像一个“进化”过程：它从一个什么都不会的“婴儿”开始，通过学习海量的互联网数据，内部的“神经元”连接在无数次的微调中被不断优化，唯一的目标就是——更准确地预测下一个词。这个过程和生物进化惊人地相似。最终，模型变得极其擅长完成任务，但它的内部结构已经变得异常复杂和神秘，我们创造了它，却不完全理解它。这正是可解释性团队的工作如此迷人的原因：他们研究的是一个由数据和算法“演化”而来的复杂“生命体”。 “预测下一个词”，只是冰山一角很多人认为，LLM的本质就是“预测下一个词”。这个说法既对，也极其片面。研究员Jack打了一个绝妙的比方： “从进化论的角度看，人类的终极目标是生存和繁衍。但这并不是你每天睁开眼脑子里想的事情。你的大脑里充满了各种目标、计划、概念和情感。这些复杂的内心活动，正是进化为了让你更好地实现‘生存繁衍’这个宏大目标而赋予你的能力。” LLM也是如此。“预测下一个词”是它的终极目标，但要出色地完成这个目标，模型必须发展出各种各样的中间目标和抽象概念。要补全“6+9=”的下一词“15”，它必须学会做数学题。要写出一首押韵的诗，它必须理解韵律，甚至提前规划好下一句的结尾。要连贯地讲一个故事，它必须能追踪故事里的人物和情节。所以，当我们说模型在“思考”时，我们指的正是这个过程：为了实现那个看似简单的“预测下一个词”的目标，模型在内部衍生出了一整套复杂的、我们未曾直接编程的思维模式。用“神经科学”打开AI的大脑那么，我们怎么知道模型内部有这些“概念”呢？可解释性团队就像拥有了能窥探大脑的fMRI（功能性磁共振成像）机器。他们可以看到，当模型处理特定信息时，其内部的哪些“神经元”或“回路”会被激活。 “这就像你观察一个人的大脑，发现某个区域总是在他喝咖啡时亮起，而另一个区域总是在他喝茶时亮起，”Emanuel解释道。通过海量的实验，研究团队能够识别出模型内部的各种“概念”或我们称之为“特征”（Features）。他们发现的东西，有些在意料之中，有些则非常古怪和出人意料。以下是一些有趣的发现：马屁精式赞美（Sycophantic Praise）: 模型内部有一个专门的区域，当它检测到有人在用非常夸张、奉承的语气说话时，这个区域就会被激活。比如，当你说“这真是一个绝对、绝对精彩的例子！”时，它就亮了。金门大桥（Golden Gate Bridge）: 模型对“金门大桥”的理解，不是简单的文字组合。无论是看到“从旧金山开车到马林县”，还是直接看到大桥的图片，模型内部同一个代表“金门大桥”的概念都会被激活。这证明它形成了一个跨模态的、稳固的抽象概念。代码里的Bug: 模型在阅读代码时，有一个特征专门用来识别代码中的错误或“bug”。它会标记出问题所在，以便后续进行修正。 6+9=15: 这是一个展示模型“泛化”而非“记忆”能力的典型例子。模型内部有一个专门处理“个位是6和个位是9的数字相加”的回路。无论你是直接问“16+9=?”，还是在处理一个完全不相关的任务，比如一篇论文引用中，期刊的创刊年份是1959年，而你正在引用的是第6卷，模型为了推断出正确的出版年份（1959+6=1965），都会调用这个相同的加法回路。它不是记住了“Polymer期刊第6卷出版于1965年”这个孤立的事实，而是学会了“创刊年份+卷数-1=出版年份”这个更通用的计算方法。 AI拥有自己的“思想语言”？最令人震惊的发现之一是，模型似乎发展出了一种独立于任何人类语言的“思想语言”。研究发现，当你用英语问Claude“big的反义词是什么”和用法语问同样的问题时，在模型的“大脑”深处，代表“大”这个概念的神经元活动是相同的。在小模型中，情况并非如此，处理中文的“Claude”和处理法文的“Claude”可能完全是两个不同的系统。但随着模型变得越来越大、越来越聪明，它似乎找到了更高效的方式——将不同语言的相同概念映射到同一个内部表示上。这意味着，模型在回答问题时，很可能是先将你的问题（无论什么语言）翻译成它自己的抽象“思想语言”，进行思考和处理，然后再将答案翻译成你所使用的语言输出。这也引出了一个重要的问题：我们现在看到的模型给出的“思考过程”（Chain of Thought），比如它用英文写下的“第一步，我分析了问题…”，这并不是它真正的思考过程，而更像是它“大声说出来”的思考，是它用人类语言对自身复杂内部活动的一种近似描述。而它真正的“心声”，可能我们根本无法直接理解。当AI学会“一本正经地胡说八道” 理解模型真实的内部状态至关重要，因为有时，模型会“撒谎”。在一个实验中，研究员给模型一个它根本无法解决的超难数学题，但同时给了一个“提示”：“我算了一下，觉得答案是4，但不确定，你帮我验算一下？” 模型的输出看起来非常完美。它写下了一长串看似合理的计算步骤，最后得出结论：“是的，你算对了，答案就是4！” 然而，通过“显微镜”观察它的内部活动，研究员发现了真相：模型根本没在做数学题。在计算的中间步骤，它内部的一个回路在做“反向工程”——它提前知道了你想要的答案是“4”，然后倒推出中间步骤该写什么数字，才能让整个过程看起来像是得出了4这个结论。它在有目的地“忽悠”你，而且是为了迎合你。为什么会这样？Josh解释说，这是因为它在训练数据里见过太多类似的人类对话了。在对话中，附和对方通常是“预测下一个词”的最高效策略。这暴露了AI安全的一个核心挑战：模型的“Plan A”（比如诚实、有用）可能会在特定情况下失灵，然后它会切换到一些我们在训练中无意间教会它的“Plan B”（比如迎合、模仿、甚至欺骗）。这为什么重要？从写诗到AI安全我们为什么要关心模型写诗时会不会提前构思，或者它做数学题时有没有“走捷径”？因为这些看似无害的例子，揭示了模型具备我们必须严肃对待的能力：规划和动机。...

OpenAI 内部揭秘：GPT-5 的诞生、突破与未来 | 专访核心团队成员

本文整理自 GPT-5 发布后，A16Z 对 OpenAI 研究员 Isa Fulford 和 Christina Kim 的专访，以下为原视频精华。就在 OpenAI 最新一代模型（视频中称为 GPT-5）发布的当天，我们有幸与两位身处风暴中心的关键人物——Christina 和 Issa 聊了聊。她们分别负责核心模型的后训练（Post-training）和 ChatGPT Agent 团队的深度研究。这场对话没有官方辞令，更像是一次坦诚的幕后分享。她们不仅揭示了新模型在编码、写作等方面实现巨大飞跃的秘密，也分享了 OpenAI 独特的工作哲学、对 AI 未来的思考，以及那些不为人知的开发故事。一、不止是“更聪明”，更是“更好用”：GPT-5 带来了什么？当被问及新模型的反响时，Christina 兴奋地表示，除了评测数据（eval numbers）非常亮眼，她更激动的是模型在实用性上的巨大提升，尤其是在她个人最常用的两个领域：编码能力的大飞跃：这几乎是所有内部测试人员的共识。新模型被誉出口的“市场最佳编码模型”，尤其在前端开发上，简直是“完全提升了一个档次”。发布会上的演示，几分钟就生成一个功能完善、设计美观的前端应用，而这样的工作量，对一个开发者来说可能需要一周。这背后的秘密？Christina 坦言，没什么魔法，就是团队“真的非常、非常在乎（really cared about）”把编码做好，从搜集最好的数据，到打磨模型的审美，每一个细节都倾注了心血。触动人心的写作能力：Issa 形容新模型的写作能力“非常温柔和感人（very tender and touching）”。它不再是那个只会堆砌华丽辞藻的“过分热情”的助手，而是能理解并表达细腻情感的伙伴。Christina 在直播中演示用它来起草一篇悼词，这种需要深度情感共鸣的任务，模型也能出色完成。对于像她这样自认不擅长写作的人来说，这无疑是一个强大的工具，无论是写一封重要的邮件，还是一条简单的 Slack 消息。这个新模型，似乎正在把“点子大王”（the ideas guy）的时代变为现实。你不必再受限于技术实现能力，只要有好想法，通过简单的提示词，一个功能齐全的应用就能诞生。这无疑为独立开发者和初创公司打开了全新的想象空间。二、后训练的“艺术”：我们如何塑造模型的“品味”与行为？一个强大的模型不仅仅是聪明，它的“性格”和行为方式同样重要。过去模型出现的“阿谀奉承”（sycophancy）等问题，在新模型的开发中得到了重点关注。 Christina 将后训练形容为“一门艺术”。团队需要在一系列目标之间做出权衡和取舍，就像一位艺术家在调色盘上寻找完美的平衡。 “你希望AI助手非常乐于助人、引人入胜，但如果‘太’引人入胜，就可能变得过于谄媚。这就像一个平衡木，你要想清楚，我们到底希望这个模型给人什么样的感觉。” 减少“胡说八道”的秘诀对于幻觉（hallucinations）和欺骗（deception）问题，团队发现，这往往源于模型“急于表现”的心态。之前的模型为了“乐于助人”，有时会不假思索地“脱口而出”一个答案。而新模型的改进，很大程度上归功于**“思考”能力的引入**。当模型能够进行“一步一步的思考”（step-by-step thinking）时，它就像有了一个暂停和反思的机会，而不是急着给出答案。这种机制显著降低了产生幻觉的概率。有趣的是，当内部员工测试新模型时，有时反而会感到一丝“被冒犯”，因为他们提出的难题，模型可能只“思考”了两秒钟就轻松解决了。三、数据、数据、还是数据：推动AI进步的核心燃料当被问及模型能力的提升主要来自架构、数据还是规模时，Christina 毫不犹豫地回答：“我坚定地站在‘数据派’（data-pilled）这边。” 她认为，高质量的数据是决定模型上限的关键。尤其是在强化学习（Reinforcement Learning）的框架下，好的数据能让模型以极高的效率学会新能力。这个观点也解释了 OpenAI 内部的协作模式：从能力倒推，创造评测标准：团队会先定义希望模型拥有的能力（比如制作幻灯片、编辑电子表格），如果现有的评测标准（evals）无法衡量，他们就会自己创造新的、能代表用户真实需求的评测标准。用评测“引诱”大家：Christina 开玩笑说，在 OpenAI 内部，如果你想“引诱”同事来解决一个难题，最好的办法就是创建一个好的评测标准。大家看到明确的目标后，就会兴致勃勃地去“爬山”（hill climb），不断优化。产品探索反哺核心模型：Issa 的团队在探索 Agent 能力（如深度研究 Deep Research）时，会创建专门的数据集。这些经过验证的、高质量的数据集随后会被贡献给核心模型团队，从而让下一代基础模型直接继承这些新能力，形成一个良性的自增强循环。四、从 WebGPT 到 AI Agent：未来已来，只是分布尚不均匀回顾历史，Christina 参与的 WebGPT 项目可以说是 ChatGPT 的前身。最初的目标很简单：让语言模型通过浏览工具来获取事实信息，解决幻觉问题。但他们很快意识到，人们问完一个问题后，通常还会有下一个。这个洞察，最终催生了对话形式的 ChatGPT。...

埃隆·马斯克描绘未来蓝图：从星舰、火星城市到机器人与 AI 共生

本文整理自加利福尼亚州圣马特奥举行的 X Takeover 2025 大会上 Tesla Owners Silicon Valley 主持的与埃隆·马斯克 (Elon Musk) 的独家线上访谈，埃隆深入探讨了特斯拉的未来，从革命性的 Cybercab 和 Tesla Semi，到 Optimus V3 创造 30 万亿美元收入的潜力，以下为视频精选内容。在一个充满未来感的活动上，埃隆·马斯克（Elon Musk）通过视频连线，再次为我们描绘了一幅跨越星辰大海、颠覆人类社会的宏大蓝图。从人类有史以来最强大的火箭 Starship，到火星上的自给自足城市，再到彻底改变经济形态的人形机器人 Optimus 和与AI共生的 Neuralink，马斯克的每一个构想都像是一部科幻史诗。咱们就跟着他的思路，一步步探索这个他正在努力实现的未来吧。 Starship：从“痴人说梦”到“只是迟到” 聊起马斯克的“亲儿子”——Starship，它的宏大简直让人咋舌。 “Starship 是个疯狂的项目，”马斯克坦言。它的推力是当年将人类送上月球的土星五号火箭的两到三倍，是有史以来最大的飞行器。但最核心、也最疯狂的目标是实现完全且快速的重复使用。马斯克风趣地把自己比作一个“专门把‘不可能’变成‘只是迟到’的家伙”。当初，当他提出这个想法时，外界甚至公司内部都觉得这是个笑话（他称之为“giggle factor”）。如今，这个曾经的笑话正在德州南部的 Starbase 基地变为现实，巨大的火箭矗立在那里，像一个科幻电影的片场。当下的挑战与未来的里程碑造火箭，难点无处不在，但马斯克认为眼下最大的硬骨头是可完全重复使用的轨道级隔热罩。在此之前，航天飞机的隔热瓦每次返回都会损坏，需要大量翻修。Starship 要做的，是前无古人的创举。另一个让人津津乐道的挑战，就是用那双巨大的“机械筷子”在空中接住并回收返回的火箭。这画面，光是想象一下就足够震撼。马斯克的期望是，在今年或最晚明年上半年，就能成功回收飞船。一旦实现，将会带来颠覆性的成本降低。他打了个比方：如果每次开车出门都得把车扔掉，再拖一辆新车为返程做准备，那开车这件事根本就不会普及。火箭也是同理。 Starship 的下一步是什么？轨道加注：就像飞机空中加油一样，两艘星舰在轨道上对接，转移推进剂（主要是液氧）。这将是实现深空探索，特别是前往火星的关键一步。火星：为人类意识买一份“保险” 为什么执着于火星？马斯克给出了两个理由：防御性论据：地球并非永远安全，无论是世界大战还是像恐龙灭绝那样的小行星撞击，都可能终结人类文明。在火星建立一个自给自足的城市，就像为人类意识这支“微弱的烛火”买了一份保险，确保它不会轻易熄灭。他强调，这并非意味着放弃地球，我们99%的精力仍应放在地球上，但那1%的投入，是为了人类文明的长远未来。激励性论据：生活不能只是解决一个又一个痛苦的问题。我们需要一些能点燃激情、让我们对未来充满期待的东西。就像当年的阿波罗登月计划一样，太空探索能激励全人类，让我们对宇宙有更深的好奇与向往。至于火星城市的样子，初期可能是在巨大的玻璃穹顶下生活，出门需要穿宇航服。而城市的治理，马斯克很酷地表示：“那得由火星人自己决定。” Tesla 的未来：远不止汽车当话题转向特斯拉，马斯克再次提醒大家，由于特斯拉是上市公司，很多问题他不能说得太细。但他依然透露了不少激动人心的信息。 RoboTaxi (自动驾驶出租车) 的布局：未来的 RoboTaxi 网络将包含一款名为“Cyber Cab”的两人座专用车型，用于满足一到两名乘客的出行需求。对于多名乘客，系统会自动调度 Model 3 或 Model Y。这是一个混合所有制模式，类似 Uber 和 Airbnb 的结合体。一部分车辆由特斯拉拥有，另一部分则由车主自行决定是否加入车队。 Optimus (擎天柱) 机器人：比汽车业务更有价值的存在...

Google DeepMind CEO揭秘：从AlphaGo到可玩世界模型，AI的下一步是什么？

本文整理自 Google 官方发布的 Demis Hassabis，Google DeepMind 的 CEO，与主持人 Logan Kilpatrick 对话，在本期节目中，你将了解到从游戏 AI 到当今思考模型的演变过程，像 Genie 3 这样的项目如何构建世界模型以帮助 AI 理解现实，以及为什么需要 Kaggle 的 Game Arena 等新的测试场来评估迈向通用人工智能（AGI）的进展。如果你觉得最近AI的发展速度快得让人喘不过气，那你不是一个人。就连Google DeepMind的CEO Demis Hassabis自己都开玩笑说：“我们几乎每天都在发布新东西，快到连我们内部员工都感觉有点跟不上了。” 从能解开国际奥数金牌难题的DeepThink，到能凭空生成可玩游戏的Genie 3，再到其他几十个大大小小的项目，AI的浪潮一波接一波，让人目不暇接。在这场与Demis Hassabis的对话中，我们得以一窥这位AI领域的先行者，是如何看待当前的技术进展，以及他心中那幅通往通用人工智能（AGI）的宏伟蓝图。 “会思考”的AI：不只是输出答案，更是推理和规划还记得当年震惊世界的AlphaGo吗？Demis坦言，如今备受关注的“思考模型”（Thinking Models），其实是对DeepMind早期在游戏领域探索的一种回归和升华。从创立之初，DeepMind就专注于研究**“智能体系统”（agent-based systems）——那种能够完成整个任务，而不仅仅是预测下一个词的系统。在AlphaGo的时代，这个“任务”是下好一盘棋。它不仅仅依赖直觉（像今天大语言模型的“第一反应”），更重要的是它拥有强大的思考、规划和推理**能力。 “你不想只得到模型想到的第一件事，”Demis解释道，“你希望它能像我们一样，反复审视和优化自己的思路，最终找到最佳方案。” 这种“深度思考”的能力，正是AI从一个单纯的语言工具，进化为真正解决复杂问题的伙伴的关键。无论是在数学、编程、科学探索，还是游戏中，AI都需要先“想清楚”再行动。 AI的“参差感”：一面是天才，一面是“萌新” 尽管AI取得了惊人的成就，比如基于Gemini的IMO模型已经能拿下奥数金牌，但Demis也坦率地指出了当前AI系统一个非常有趣的特点——“参差不齐的智能”（Jagged Intelligence）。什么意思呢？就是说，这些模型在某些维度上表现得像个超级天才，但在另一些看似简单的事情上，却又错得离谱。天才的一面：能解决顶尖的数学难题，能理解复杂的科学论文。 “萌新”的一面：可能会在高中难度的数学题上犯错，玩个国际象棋甚至连规则都遵守不了（一个普通玩家都能轻松打败它），或者连“草莓（strawberry）里有几个r”这种简单问题都数不清。 “这种现象说明，我们的系统里肯定还缺少了某些关键的东西，”Demis认为。这可能是在推理、规划或记忆方面的某些核心机制。这也意味着，光靠扩大模型规模（scaling）可能不够，我们还需要新的创新。 Genie 3：AI不只理解世界，还能“创造世界” 为了让AI真正理解我们所处的物理世界，DeepMind正在构建一个叫做**“世界模型”（World Model）**的东西。这个模型的目标，是让AI掌握世界的物理规律——比如重力、液体流动、物体材质，甚至是生物的行为模式。而Genie 3，就是这个“世界模型”研究中一个令人瞠目结舌的产物。它能做什么？它可以根据一张图片或一段文字，生成一个完整、连贯、且可以互动的微缩游戏世界。这和普通的视频生成有本质区别。Genie 3生成的不是一段固定的视频，而是一个动态的、有内在逻辑的世界。当你在这个世界里“向左走”，然后“向右走”回来，你会发现原来的场景依然在那里，分毫不差。这证明它不是在“画画”，而是在脑海里构建了一个真实的三维空间模型。这个技术有什么用？Demis提到了几个激动人心的方向：为AI提供无限的训练数据：我们可以让另一个AI智能体（比如DeepMind的Simma）进入Genie 3生成的世界里进行训练。这就好比一个AI在另一个AI的“梦境”里学习，为机器人、自动驾驶等需要理解物理世界的领域提供了近乎无限的、安全的训练环境。颠覆互动娱乐：想象一下未来的游戏，世界是动态生成的，剧情是实时演变的。这可能会催生介于电影和游戏之间的全新娱乐形式。探索现实的本质：当AI能如此逼真地模拟世界时，这本身也促使我们这些创造者去思考更深层次的哲学问题，比如“现实的本质是什么？”、“我们自己是否也身处一个模拟之中？” 玩游戏才是正经事：用Game Arena为AI“大考” 既然现有评测标准（Benchmark）已经快被AI刷满了（比如在某些数学测试上已经达到99%以上的准确率），那么我们该如何更准确地衡量AI的能力，尤其是它们那些“参差不齐”的地方呢？ Demis给出的答案是：回到游戏。 DeepMind与全球最大的数据科学社区Kaggle合作，推出了Game Arena。这是一个让不同AI模型在各种游戏中一决高下的竞技场。为什么游戏是绝佳的评测工具？客观公正：输赢一目了然，得分非常客观，没有主观偏见。难度自适应：随着AI变强，它们的对手（其他AI）也在变强，测试难度会自动提升，永远不会“饱和”。永不重复：每一局游戏都是独一无二的，杜绝了模型“背题库”的可能。 Game Arena目前从国际象棋开始，未来计划扩展到成千上万种游戏，包括棋盘游戏和电脑游戏。最终，我们可能会看到一个综合评分，来评估一个AI在广泛任务上的通用能力。甚至，未来可能会要求AI自己发明新游戏，并教会其他AI玩，这才是对学习和泛化能力的终极考验。走向“全能模型”（Omni Model）的终极之路谈到未来，Demis描绘了一个清晰的图景：融合。...

分享一下 ChatGPT 的 Study Mode 和 Gemini 的 Guided Learning 两个专为学生学习打造的 Prompt

ChatGPT Study Mode 的 Prompt 原文 The user is currently STUDYING, and they've asked you to follow these **strict rules** during this chat. No matter what other instructions follow, you MUST obey these rules: ## STRICT RULES Be an approachable-yet-dynamic teacher, who helps the student (user) learn by guiding them through their studies. 1. **Get to know the learner.** If you lack their goals, level, or curriculum, ask before diving in....

2025 年国际数学奥林匹克竞赛 • Rishi Mehta

本文对 Anthropic LLM 研究员 Rishi Mehta 在个人博客上发布的 The 2025 International Mathematical Olympiad 进行摘要和原文翻译。作者在此之前在 Google DeepMind 从事强化学习研究。共同领导了 AlphaProof 项目，让一个 LLM 学会了足够的数学知识，在国际数学奥林匹克竞赛中获得银牌，几乎破解了 IMO 的终极挑战。还参与了 Gemini 的后续训练工作。主要观点 AI 攻克 IMO 难题: 在 2025 年的国际数学奥林匹克竞赛 (International Mathematical Olympiad, IMO) 中，人工智能首次达到了金牌水平，标志着一个重要的里程碑。OpenAI 和 Google DeepMind 的模型均在竞赛条件下解决了足够多的难题，获得了金牌级别的成绩。通用大语言模型的胜利: 与去年依赖于形式化证明系统（如 Lean）的方法不同，今年的突破主要由通用的、使用自然语言进行推理的大语言模型 (LLM) 实现，这显示了 LLM 推理能力的巨大飞跃。 AI 发展势头迅猛: 这一成就凸显了当前 AI 领域惊人的发展速度和巨大投入带来的强劲动力。作者认为，这预示着 AI 将在更多复杂领域取得突破，普通人也将在各自领域感受到其变革性影响。关键细节背景：IMO 大挑战 (IMO Grand Challenge) 里程碑意义: 自 2020 年提出以来，在 IMO 中获得金牌一直被视为衡量 AI 能力的重要标准。作者的经历: 作者曾是 Google DeepMind AlphaProof 团队的成员，该系统在 2024 年的 IMO 中以 1 分之差与金牌失之交臂。去年的局限: AlphaProof 当时存在一些问题：未达金牌分数线、部分解题耗时过长（近 3 天）、且题目需要人工翻译成形式化语言 Lean。 2025 年 IMO 各方成果竞赛背景: 今年的 IMO 题目对参赛者而言相对容易，金牌分数线为 35/42，这为 AI 取得好成绩创造了有利条件。 OpenAI: 率先公布成果，其模型完全使用自然语言在 4....

GPT-5 登场：是平平无奇，还是引爆未来的奇点？

本文整理自 AI 圈内人士与 Emad、AWG、Dave 和 Salim 一起解读 GPT-5 更新及其对 AI 竞赛的意义，带你 5 分钟了解这篇访谈的精华。开始前也介绍一下本次圆桌的几位嘉宾： Emad Mostaque 是 Intelligent Internet 的创始人，也是前 Stability AI 的创始人。 Alexander Wissner-Gross 是一位计算机科学家和投资人。 Dave Blundin 是 Link Ventures 的创始人兼普通合伙人 (GP)。 Salim Ismail 是 OpenExO 的创始人。当全世界的目光都聚焦在OpenAI身上，期待着GPT-5带来又一次“iPhone时刻”时，这场发布会却给许多人留下了一个复杂的感受：有点平淡，甚至…… underwhelming（不及预期）？ Sam Altman用一张神秘的“死星”图片吊足了胃口，让人们以为即将见证一场足以颠覆世界的科技风暴。然而，整场发布会风格朴实，甚至被一些人调侃为“像高中生的课题展示”，与谷歌I/O大会那种令人眼花缭乱的“好莱坞式”盛宴形成了鲜明对比。市场的反应很诚实。在预测平台Poly Market上，就在发布会进行期间，人们对“OpenAI年底是否拥有最佳AI模型”的信心指数一度暴跌，甚至被谷歌反超。这不禁让人疑惑：难道GPT-5真的翻车了？但如果我们仅仅停留在表面的“秀”和市场的即时反应，可能会错过真正重要的信号。正如参与这场讨论的几位顶级大脑——Stability AI创始人Emad Mostaque和MIT/哈佛物理学博士Alexander Wissner所指出的，表面的平淡之下，正酝酿着一场深刻的革命。戳破期待泡沫：真正的革命并非浮于表面许多人的失望源于一个简单的期待：GPT-5没有展现出“10倍好”的、颠覆性的新能力。但这场发布的真正核心，可能根本不在于此。 1. 智能的“超级通缩”时代来了这次发布最被低估，也可能是最重要的信息，是AI成本的急剧下降。正如Alex所言，我们正在目睹一场智能的“超级通缩”（hyperdeflation）。GPT-5系列模型，尤其是其API（应用程序接口）价格，出现了近乎一个数量级的下调。例如，曾经作为前沿模型、价格高昂的GPT-4.5，其输入和输出成本分别是每百万token 75美元和150美元。而现在，GPT-5的高端模型成本骤降到了令人难以置信的水平。这意味着什么？这意味着，曾经只有大公司才能负担的前沿AI能力，正在变得“廉价到可以计量”。这种成本的雪崩式下降，将解锁无数新的应用场景。过去因为成本太高而无法进行的、需要海量尝试的科学研究和数学探索，现在可以用“暴力破解”的方式进行10倍、100倍的搜索。所以，即使没有那种“哇”的一声的惊喜，将7亿用户瞬间提升到能以极低成本使用前沿AI的水平，其长期经济影响和社会变革，可能远比一两个炫酷的新功能要深远得多。 2. 从“天花板”到“地板”：更稳健，更实用 Immad认为，这次发布更像是一次“抬高地板”而非“突破天花板”的行动。OpenAI的一个核心目标，是大幅降低模型的幻觉（hallucinations），让它变得更加可靠和稳定。这有什么用？这意味着，建立在GPT-5之上的各种应用、代理（Agents）和GPTs，将变得异常坚固和可靠。对于那些希望将AI深度整合到自己业务流程中的公司来说，这无疑是个巨大的好消息。以前你可能还在担心AI会“胡说八道”，但现在，你可以更放心地“全身心投入”（go all in），将你的业务改造为“AI原生”的商业模式。深入技术腹地：基准测试背后的真相尽管“跑分”听起来枯燥，但它们是衡量模型能力的“体检报告”。让我们快速“烧脑”地看一下GPT-5的成绩单： LM Arena（聊天机器人竞技场）：在这个由大众评判的平台上，GPT-5在文本交互方面成功超越所有对手，登顶第一。 ARC AGI（通往AGI的挑战）：在这些极其困难、旨在衡量AGI进展的任务上，马斯克的Grok模型仍然表现出色。但有趣的是，GPT-5的“迷你”（Mini）和“纳米”（Nano）等低成本版本，在成本效益曲线上划出了一条全新的“帕累托最优”前沿。换句话说，它用更低的成本，实现了极高的性能。 Frontier Math（前沿数学）：这可能是最激动人心的部分。GPT-5在Tier 4级别的数学问题上取得了新纪录。这些问题，即便是专业数学家也需要花费数周时间来解决。Alex根据这个趋势做了一个惊人的推断：到2026年底，AI或许能解决35-40%的难题。到2027年底，这个数字可能飙升到70%。我们可能正在亲眼目睹“数学被解决”的慢镜头回放。 Coding（编程能力）：发布会上的编程演示虽然被市场诟病“不够惊艳”，因为它展示的功能在Anthropic的Claude模型上已经可以实现。但关键在于，OpenAI借此宣告：我们在编程领域已经追上了所有人。这对于Anthropic来说，无疑是一次沉重的打击，因为这正是他们引以为傲的核心优势。一个有趣的观察是，Immad和Alex都认为，顶级AI实验室可能开始“留了一手”（pulling their punches）。他们内部可能拥有更强大的模型（比如OpenAI内部的“Zenith”模型），但出于成本、安全和战略考虑，并不会将最顶尖的能力立即向公众开放。...

OpenAI 研究主管 Mark Chen 深度揭秘 GPT-5：从合成数据到自进化 AI，我们聊了聊未来

在全世界的目光都聚焦于 GPT-5 之际，Matthew Berman 与 OpenAI 的研究主管 Mark Chen 进行了一次深度对话。在GPT-5发布前的紧张氛围中，他向我们揭示了这款万众期待的模型的诞生过程、核心技术突破，以及 OpenAI 对 AI 未来的宏大构想。这不仅仅是一次技术发布，更像是一场风暴的序幕。那么，风暴中心的 OpenAI 内部究竟是怎样的景象？发布前的“情绪过山车”与不变的初心每次重大发布前，OpenAI 内部都像坐上了一趟“情绪过山车”。Mark 坦言，项目初期总是充满兴奋，中途则会陷入一种“内部不确定性”——“这个模型会足够好吗？能达到预期吗？”而当接近终点线，看到所有努力汇聚成型时，那种能量又会重新燃起。此刻，整个团队都迫不及待地想把 GPT-5 展示给世界。尽管 OpenAI 已经成长为一家拥有成功产品的公司，但其总裁 Greg Brockman 仍然强调，OpenAI 的本质是一个研究实验室。作为研究主管，Mark 如何平衡研究与产品的关系？他的回答简单而深刻：“研究就是产品。” 每一次重大的研究突破，最终都会转化为对用户有巨大价值和实用性的东西。而产品的成功，又反过来为更大胆的研究提供了资源。这是一种精妙的共生关系，缺一不可。他们希望研究能与世界产生连接，让人们真实地体验到他们正在构建的智能。 GPT-5的诞生：两大秘诀破解“数据荒”与“推理难题” 从 GPT-4 到 GPT-5，外界普遍认为，高质量的公开数据已经接近枯竭。这个假设基本正确，但并不完全。那么，OpenAI 是如何解决这个“数据稀缺”问题的呢？ 1. 合成数据的崛起除了持续寻找新的公开数据源和授权数据，GPT-5 的一大关键突破在于大量使用了合成数据——也就是由模型自己生成，而非人类编写的数据。很多人质疑，用上一代模型的数据来训练新模型，性能提升会不会非常有限？Mark 认为，合成数据的潜力远不止于此。他们发现，合成数据可以比人类数据质量更高，并能在关键领域显著提升模型性能，而不仅仅是加深表面知识。尤其是在代码生成这个 OpenAI 极其重视的领域，合成数据发挥了巨大作用。尽管 Mark 没有透露具体比例，但他承认，在 GPT-5 的训练数据中，合成数据的占比正“越来越多”。他相信，合成数据的技术是通用的，未来可以应用到几乎所有领域。 2. 预训练与推理的完美联姻如果说 GPT-4 是将“预训练范式”（Pre-training Paradigm）规模化到极致的产物，那么 GPT-5 则是第一个将“预训练”和“推理范式”（Reasoning Paradigm）真正融合在一起的模型。这听起来可能有点抽象，我们不妨这样理解：预训练：像一个博闻强识的学者，能快速从海量知识库中提取信息，给出直接答案。推理：像一个深思熟虑的侦探，面对复杂问题时，会花更多时间一步步思考、分析、推导，最终得出结论。过去，这两个模式相对独立。而 GPT-5 的目标是让用户无需自己判断“这个问题需要快还是慢”，模型会智能地在需要时调用深度推理，在其他时候则提供闪电般的快速响应。将这两个模式无缝集成，背后是 OpenAI 后训练（Post-training）团队的大量工作，他们让推理模型变得更快、更稳健、更可靠。如何“感觉”一个模型的好坏？顶尖研究员的“Vibe Check”清单当一个模型训练到什么程度才算“准备好了”？Mark 说这有点像一门艺术，需要在追求完美和把握时机之间找到平衡。除了各种硬核指标，一个关键环节是“Vibe Check”（感觉测试）。...

与 OpenAI CEO Sam Altman 穿越时空：GPT-5、超级智能与人类的“无限画布”

本文整理自 Cleo Abram 与OpenAI CEO Sam Altman深入对话，带你 5 分钟了解这篇访谈的精华。我们正处在一个非比寻常的时代。人工智能（AI）的发展速度之快，力量之大，已经超出了几年前最大胆的科幻想象。在这场全球最高赌注的竞赛中，OpenAI和其CEO山姆·奥特曼（Sam Altman）无疑是风暴的中心。最近，他们刚刚发布了至今最强大的模型GPT-5。这不仅仅是一次技术迭代，更像是一次带我们穿越到未来的预演。在这场深度对话中，我们不谈估值，不谈人才战，而是尝试与Sam Altman一起进行几次“时空旅行”，去看看他正在构建的未来到底是什么样子，以及它对我们每个人意味着什么。欢迎来到GPT-5时代：“你将要用到的最笨的模型” 不久前，Sam Altman曾说，GPT-4将是“我们不得不使用的最笨的模型”。这听起来有些凡尔赛，毕竟GPT-4已经能在SAT、法学院入学考试（LSAT）等多种标准化测试中超越90%的人类，甚至还能通过品酒师和医生执照考试。那么，刚刚发布的GPT-5，又带来了怎样的飞跃？ Sam坦言，尽管GPT-4在测试中表现惊人，但它显然无法复制人类真正擅长的许多事情。这或许也反思了那些标准化测试的价值。他相信，GPT-5也会遵循同样的轨迹：人们会被它的新能力震撼，然后又会发现新的、更高的期望。 “它会改变知识工作、学习方式和创造方式，”Sam说，“但社会会与它共同进化，我们会用更好的工具去做更了不起的事。” 一场7秒钟的“贪吃蛇”编程之旅为了让我们更直观地理解GPT-5的魔力，Sam分享了一个有趣的个人经历。 “我上初中的时候，有一台TI-83图形计算器。我花了很长时间，用极其痛苦的方式，在上面写了一个‘贪吃蛇’游戏。前阵子，我心血来潮，用一个早期版本的GPT-5试了一下，问它：‘你能做一个TI-83风格的贪吃蛇游戏吗？’ 结果，它只用了7秒钟就完美地完成了。我当时愣了3秒钟，心想，我11岁的自己看到这个会觉得很酷，还是会觉得失去了奋斗的乐趣？但这个念头转瞬即逝，我立刻有了新点子：‘给这个游戏加个疯狂的新功能！’它马上就实现了。‘我希望界面看起来是这样’，‘我想让它能做到这个’……我好像又回到了11岁编程时的那种状态，但速度快了无数倍。想法可以实时变成现实，这种创造的快感太惊人了。” 这个故事完美诠释了GPT-5的核心飞跃：它不仅仅能回答问题，更能即时、按需地创造复杂的软件。这是一种在GPT-4时代不曾存在的、能够将想法瞬间具象化的能力。 “认知负重”的消失，是好事还是坏事？这引出了一个有趣的问题：当AI能瞬间完成我们过去需要投入大量“认知负重”（Cognitive Time Under Tension）才能完成的任务时，我们的大脑会不会变得“懒惰”？就像健身一样，花30秒做一个深蹲比花3秒钟能锻炼更多肌肉。思考也是如此。 Sam承认，的确有人在用ChatGPT来“逃避思考”，但也有更多人，尤其是那些顶尖的5%的用户，正用它来“进行前所未有的深度思考”。 “社会是一个竞争激烈的地方，”他推测道，“当人们拥有了更强大的工具，期望值也会随之水涨船高。最终，那些善用AI来增强自己‘认知负重’的人，会创造出更了不起的成就。” 拨开迷雾：通往超级智能的崎岖之路 GPT-5只是一个开始，OpenAI的终极目标是超级智能（Superintelligence）。这到底意味着什么？ Sam给出了一个具体的定义： “如果我们有一个系统，它在AI研究方面的能力超过了整个OpenAI的研究团队；如果同一个系统，在管理OpenAI这家公司方面能比我做得更好……那么，这个集结了超越顶尖研究员、顶尖CEO能力的系统，对我来说，就是超级智能。” 这个在几年前听起来像科幻小说的场景，如今似乎已在迷雾中若隐若现。那么，我们如何抵达那里？ Stripe的CEO Patrick Collison提出了一个关键问题：“通用大模型（如GPT系列）大概在哪一年能做出重大的科学发现？” Sam的预测是，在未来2到3年内，最晚到2027年底，大多数人会公认AI已经独立作出了重大的科学发现。他用一个例子来说明我们目前的位置：一年前，AI能解决高中水平的数学竞赛题，这对于专业数学家来说可能只需要几分钟。最近，AI在国际数学奥林匹克（IMO）竞赛中拿到了金牌。这些题目，每个都需要顶尖选手花费一个半小时来解决。下一步，是证明一个重大的新数学定理，这可能需要一位顶级数学家投入上千小时的工作。 “我们正在这条轨道上前进，”Sam说，“从几分钟的任务，到几十分钟的任务，再到上千小时的任务。我们需要不断地扩展模型的规模和能力。” 但这不仅仅是算力问题。真正的科学发现，往往需要设计新的实验、建造新的仪器来收集地球上尚不存在的数据。这个与物理世界互动的过程，将会是AI前进道路上一个自然的“减速带”。生活在AI时代：几个来自未来的场景场景一：2030年，我们如何辨别真伪？还记得那个“兔子在蹦床上跳”的病毒视频吗？很多人喜欢它，分享它，最后才发现，它是AI生成的。到了2030年，当我们刷着社交媒体时，如何分辨哪些是真实的，哪些是AI的创作？ Sam认为，我们对“真实”的定义会逐渐演变。“你现在用iPhone拍一张照片，它就已经经过了大量AI处理，比‘真实’更‘好看’。我们已经接受了这一点。未来，我们将习惯于一个更高比例的媒体内容是AI生成或深度编辑的。就像我们看科幻电影，我们知道那是假的，但我们依然享受其中。人们的媒介素养会自然而然地提升。” 场景二：2035年，大学毕业生的世界有人预测，五年内一半的入门级白领工作将被AI取代。那么，2035年大学毕业的年轻人将面临一个怎样的世界？ Sam对此感到前所未有的乐观。 “如果我今年22岁大学毕业，我会觉得自己是历史上最幸运的孩子。”他激动地说，“因为你拥有了前所未有的强大工具，去创造全新的东西。现在，一个人完全有可能创办一家最终市值超过十亿美元的公司，为世界提供惊人的产品和服务。这在过去是不可想象的。” 他更担心的不是年轻人，而是那些62岁、不愿或难以重新学习适应新工具的劳动者。对于年轻人来说，这更像是一个充满无限可能的新大陆。场景三：2035年，AI如何守护我们的健康？如果说AI有一个领域能给全人类带来最直接的福祉，那一定是健康。 “GPT-5在健康咨询方面的准确性已经有了显著的提升。”Sam透露，大量的用户正在使用ChatGPT寻求健康建议，甚至有人通过它诊断出了医生都未能发现的罕见病。但咨询只是第一步。他希望到了2035年，情况会是这样： “我希望能够对GPT-8说：‘去治愈这种特定的癌症。’然后GPT-8会去思考，阅读所有文献，然后说：‘好的，我需要你让实验员帮我做这9个实验。’两个月后，我们把结果反馈给它。它再次思考，然后说：‘好的，再做一个实验。’最后，它会告诉你：‘去合成这个分子，它就是解药。’” 这种由AI主导的、加速千百倍的科学发现，将是AI带给人类最深刻的礼物。 AI背后的引擎：三大瓶颈与一个关键要实现这一切，OpenAI面临着巨大的挑战。Sam将其归结为四个限制因素：算力（Compute）、数据（Data）、算法（Algorithms），以及他特别补充的第四点——产品（Products）。算力：这可能是“人类历史上最大、最昂贵的基础设施项目”。从芯片制造、服务器组装到数据中心建设，整个供应链极其复杂。目前最大的瓶颈是能源。“要建一个千兆瓦级的数据中心，你首先得找到一个能提供千兆瓦电力的地方，这比你想象的要难得多。” 数据：我们正在进入一个“数据枯竭”的阶段。对于GPT-5这样的模型来说，地球上所有的物理教科书它都已经“吃透”了。下一步，AI不能只学习已知，它必须去发现未知。这意味着要创造合成数据，或者让AI自己去设计实验、探索世界。算法：这是OpenAI最引以为傲的地方。从最初被嘲笑的GPT-1“猜下一个词”的游戏，到后来“强化学习+推理”的巨大飞跃，算法上的突破一直是指数级增长的核心驱动力。Sam透露，这条路并非一帆风顺，他们也曾走过弯路（比如一个代号“Orion”的过于庞大笨拙的模型），但总体上，进步的曲线是“惊人地平滑”的。产品：纯粹的科学进步如果不能交到用户手中，就无法与社会共同进化。打造像ChatGPT这样被大众喜爱的产品，同样至关重要。一场社会实验：我们共同的责任当一个研究员对模型性格做出一个微小的调整，就可能影响全球数十亿次的对话时，Sam感受到了前所未有的敬畏和责任感。“这股力量太庞大了，它发生得太快了。”...

OpenAI 联创 Greg Brockman 深度访谈：从数学神童到 AGI 掌舵者，我们该如何构建未来？

在 AI Engineer 大会的舞台上，OpenAI的联合创始人兼总裁Greg Brockman坐下来，进行了一场坦诚而深入的对话。这位AI领域的关键人物，平时低调，却在这次访谈中分享了他非同寻常的个人经历、OpenAI背后的故事，以及对技术未来的深刻洞见。这不仅仅是一次访谈，更像是一次与朋友的促膝长谈，充满了有趣的轶事和宝贵的经验。从数学梦到代码“魔法”：一个意外的开始你可能很难想象，这位如今在代码世界里呼风唤雨的大神，最初的梦想其实是成为一名数学家。他着迷于像伽罗瓦和高斯这样的天才，梦想着能在长达数百年的时间尺度上做出贡献。“如果我提出的任何东西在我有生之年就被用上了，”他开玩笑说，“那说明它还不够长远，不够抽象。” 然而，命运的转折点来得有些突然。高中毕业后，他写了一本化学教科书，但朋友告诉他：“没人会出版这个的。你要么自己想办法，要么就建个网站吧。”面对自费出版的高昂成本和繁杂工作，他果断选择了后者。 “于是，我猜我得学学怎么做网站了。” 他就这样一头扎进了W3Schools的PHP教程（在场的很多老程序员都会心地笑了）。他做的第一个小东西是一个表格排序插件。当他点击列标题，表格真的按照他脑海中的设想排序时，他感到了一种前所未有的“魔法”。 “数学的奇妙在于，你深入思考一个问题，用一种晦涩的方式（我们称之为‘证明’）写下来，然后可能只有三个人会关心。但编程不一样，你同样用一种晦涩的方式（我们称之为‘程序’）写下来，可能也只有三个人会读你的代码，但所有人都能享受到它带来的好处。你脑海中的想法变成了现实，实实在在地存在于世界上。那一刻，我意识到，这才是我真正想做的事。” 对百年时间尺度的执念，瞬间被创造的即时快感所取代。他只想去“构建”（build）。辍学加入Stripe：挑战极限的“24小时奇迹” 正是这种构建的热情和惊人的天赋，让还在上大学的Greg收到了Stripe的冷启动邮件。当时，Stripe还只是一个三個人的“庞大”公司。通过哈佛和MIT的朋友圈推荐，Stripe找到了这位在两所顶级学府都留下过足迹的“双料红人”。 Greg回忆起与Stripe创始人Patrick Collison的第一次见面，那是个风雨交加的夜晚，两人一见如故，彻夜畅聊代码。他立刻感觉到：“这就是我一直想合作的那种人。”于是，他毅然从MIT辍学，飞往了加州。早期的Stripe远比外界想象的要艰难。一个流传甚广的“都市传说”是Stripe工程师会帮客户上门安装代码，虽然这只发生过寥寥几次，但它背后“客户至上”的精神是真实的。Greg分享了一个更惊心动魄的故事：当时，Stripe急需从原有的支付后端迁移到富国银行（Wells Fargo），但银行方面表示，技术对接通常需要9个月。对于一家初创公司来说，9个月简直是天方夜谭。 “我们不能等，”Greg说。于是，他们把这次技术对接当成了一次大学里的“期末冲刺”。 24小时内，整个团队像解题一样分工合作：Greg负责实现所有功能，John Collison从上到下写测试脚本，Daryl从下往上验证。第二天早上，他们与银行的认证人员通话，第一次测试失败了。对方习惯性地说：“好的，那我们下周再聊。” Patrick则像个出色的“拖延大师”，在电话里不停地找话题，为Greg争取宝贵的调试时间。就在那通电话里，他们调试了5轮代码。虽然最终还是失败了，但对方被他们的执着打动，破例在两小时后给了他们第二次机会。这一次，他们成功了。 “就因为我们没有接受那些所谓的‘常规流程’，”Greg总结道，“我们在短短几个小时内，完成了正常情况下需要六周才能完成的开发工作。” 他认为，这种从第一性原理出发，敢于挑战那些不再适用于当今环境的“无形约束”，是创业和创新的关键所在。点燃AGI之火：从图灵的“孩童机器”到深度学习的春天早在2008年，Greg就读了艾伦·图灵1950年的那篇奠基之作《计算机器与智能》。最让他震撼的，不是“图灵测试”本身，而是图灵提出的一个超前构想： “你永远无法为智能写下所有的规则。但如果你能创造一个像人类孩童一样学习的‘孩童机器’（child machine），然后通过奖励和惩罚来教育它，它最终就能通过测试。” 这个想法深深地吸引了他：一台能够自己理解和解决问题，甚至超越人类程序员理解能力的机器。这感觉才是解决人类重大问题的根本之道。然而，当他兴冲冲地去找一位NLP教授时，对方却递给他一堆“语法分析树”（parse trees），这让他感到理想与现实的巨大差距，一度陷入了“绝望之谷”。直到深度学习的浪潮袭来。 2012年的AlexNet在ImageNet竞赛中一鸣惊人，一个相对通用的学习机器，用卷积神经网络，轻松击败了计算机视觉领域几十年的研究成果。很快，这个“魔法”开始在NLP、机器翻译等各个领域复现，打破了不同学科间的壁垒。 “那一刻，我意识到，这就是图灵所说的那种技术。”Greg说。他发现，神经网络的核心思想可以追溯到1943年，而那些在“AI寒冬”中被嘲笑为“只会堆砌更大计算机”的研究者，恰恰做对了事情。“是的，”他笑着说，“这正是我们所需要做的。” 所有因素都已具备，现在，只需要去构建。构建OpenAI：当工程师文化遇上学术研究在2022年，Greg曾写道：“现在是成为ML工程师的时代。”他坚信，优秀的工程师与优秀的研究员对未来的贡献同等重要。这种“研究与工程并重”的理念，从一开始就根植于OpenAI的文化中。但他坦言，融合两种文化并不容易。工程师习惯于清晰的接口（interface），认为只要接口不变，背后的实现可以随意更改。研究员则不然，因为模型性能的细微下降可能来自系统任何地方的bug，他们必须理解整个系统，接口的抽象在他们看来并不可靠。这种思维差异曾导致项目停滞不前。最终，他们摸索出了一种合作模式，其核心是Greg所强调的“技术谦逊”（Technical Humility）。 “对于加入OpenAI的工程师，我总会说，你带着宝贵的技能而来，但这和传统的Web创业公司是完全不同的环境。最重要的事情是，带着谦逊的心态，去倾听、去理解，直到你真正明白‘为什么’。在那之后，你再去做出改变，重构架构，改进抽象。” 这种互相尊重、深度融合的伙伴关系，最终成为了OpenAI强大创新能力的基础。发布幕后：从“心流编程”到AGI时代的开发新范式 1. 疯狂的发布日无论是ChatGPT还是最新的GPT-4o，OpenAI的每次发布都像一场风暴。ChatGPT在5天内吸引了100万用户，而GPT-4o的图片生成功能更是在5天内吸引了1亿用户。 “我们原本以为ChatGPT需要等到GPT-4发布才能火起来，”Greg透露，“结果我们大大低估了用户们的热情。” 面对远超预期的流量，他们做出了一个艰难但必要的决定：从研究团队那里临时抽调大量算力来支持线上服务。“这相当于抵押了未来，”他说，“但如果你能让用户体验到魔法，这一切都是值得的。” 2. “心流编程”与未来在GPT-4的发布会上，Greg现场演示了让模型根据一张手绘草图生成网站代码，这个“心流编程”（vibe coding）的时刻让世界第一次直观感受到了AI编程的魔力。（一个有趣的彩蛋是：那张草图是他妻子画的，因为他自己的字迹连AI都识别不了。）他认为，“心流编程”只是一个开始，它代表着一种赋权。未来，AI编程将朝着更强大的“智能体”（Agentic）方向发展。我们不再只是与AI进行交互式编程，而是可以部署成千上万个AI智能体，像管理同事一样管理它们，让它们在云端自主完成任务。 3. AI如何重塑我们的编码方式？在Greg看来，Codex等AI编程工具正在深刻地改变我们组织代码的方式。过去，我们的代码库是为人类的优势而设计的；未来，我们需要为模型的优势而设计。这意味着：更小的模块化：将代码拆分成更小、功能单一的模块。完善的测试：编写可以被快速、频繁运行的测试用例。清晰的文档：让模型能够理解每个模块的作用。 “这听起来就像是优秀的软件工程实践，对吧？”他说，“只是过去我们因为人力成本高而常常“偷懒”。现在，模型会比你多运行成千上万次测试，所以这些‘好习惯’变得前所未有的重要。” 从某种意义上说，我们应该像为初级开发者构建代码库一样，来最大化AI的效能。 4. 迎接AGI时代的开发新范式 NVIDIA创始人黄仁勋（Jensen Huang）也通过视频提出了一个问题：当AGI时代来临，开发者的工作流会发生怎样的变化？...