揭秘 AI 黑箱:Claude 的“大脑”里在想什么?

在 AI 模型进行思考时,其内部究竟发生了什么?为什么 AI 模型会表现出“谄媚”的倾向,又为何会产生“幻觉”?AI 模型仅仅是“被美化的自动补全”功能,还是有更复杂的事情在发生?我们又该如何科学地研究这些问题? Anthropic 拉上了“LLM 可解释团队”的几位研究院举行了一场圆桌:探讨 LLM 内部的思考逻辑,以下为本次圆桌讨论的精华。 当你和像Claude这样的大语言模型聊天时,你有没有想过,你到底在和什么东西对话?一个花哨的自动补全工具?一个聪明的搜索引擎?还是一个……真正会思考,甚至像人一样思考的存在? 一个可能让你有点不安的事实是:没人真正知道答案。 在Anthropic,我们的一群研究员正致力于解开这个谜题。他们所在的团队叫“可解释性团队”(Interpretability Team),工作内容听起来就像科幻小说:打开大模型的“黑箱”,像做神经科学研究一样,观察它在回答你问题时,内部到底发生了什么。 最近,我们和这个团队的三位成员——前神经科学家Jack、前机器学习模型构建师Emanuel,以及前病毒进化研究者Josh——聊了聊,听他们分享了一些关于Claude内部复杂运作的惊人发现。 AI不是代码,更像生物? “我感觉自己现在是在对AI做神经科学研究,” Jack说。 “而我像是在研究一种我们用数学创造出来的生物,” Josh补充道。 用“生物学”或“神经科学”来形容一个软件,听起来是不是很奇怪?但大语言模型(LLM)真不是我们传统意义上的软件。 没人会像写代码一样,给模型设定一条条“如果用户说‘你好’,你就回答‘你好’”的规则。模型的诞生更像一个“进化”过程:它从一个什么都不会的“婴儿”开始,通过学习海量的互联网数据,内部的“神经元”连接在无数次的微调中被不断优化,唯一的目标就是——更准确地预测下一个词。 这个过程和生物进化惊人地相似。最终,模型变得极其擅长完成任务,但它的内部结构已经变得异常复杂和神秘,我们创造了它,却不完全理解它。这正是可解释性团队的工作如此迷人的原因:他们研究的是一个由数据和算法“演化”而来的复杂“生命体”。 “预测下一个词”,只是冰山一角 很多人认为,LLM的本质就是“预测下一个词”。这个说法既对,也极其片面。 研究员Jack打了一个绝妙的比方: “从进化论的角度看,人类的终极目标是生存和繁衍。但这并不是你每天睁开眼脑子里想的事情。你的大脑里充满了各种目标、计划、概念和情感。这些复杂的内心活动,正是进化为了让你更好地实现‘生存繁衍’这个宏大目标而赋予你的能力。” LLM也是如此。“预测下一个词”是它的终极目标,但要出色地完成这个目标,模型必须发展出各种各样的中间目标和抽象概念。 要补全“6+9=”的下一词“15”,它必须学会做数学题。 要写出一首押韵的诗,它必须理解韵律,甚至提前规划好下一句的结尾。 要连贯地讲一个故事,它必须能追踪故事里的人物和情节。 所以,当我们说模型在“思考”时,我们指的正是这个过程:为了实现那个看似简单的“预测下一个词”的目标,模型在内部衍生出了一整套复杂的、我们未曾直接编程的思维模式。 用“神经科学”打开AI的大脑 那么,我们怎么知道模型内部有这些“概念”呢? 可解释性团队就像拥有了能窥探大脑的fMRI(功能性磁共振成像)机器。他们可以看到,当模型处理特定信息时,其内部的哪些“神经元”或“回路”会被激活。 “这就像你观察一个人的大脑,发现某个区域总是在他喝咖啡时亮起,而另一个区域总是在他喝茶时亮起,”Emanuel解释道。 通过海量的实验,研究团队能够识别出模型内部的各种“概念”或我们称之为“特征”(Features)。他们发现的东西,有些在意料之中,有些则非常古怪和出人意料。 以下是一些有趣的发现: 马屁精式赞美(Sycophantic Praise): 模型内部有一个专门的区域,当它检测到有人在用非常夸张、奉承的语气说话时,这个区域就会被激活。比如,当你说“这真是一个绝对、绝对精彩的例子!”时,它就亮了。 金门大桥(Golden Gate Bridge): 模型对“金门大桥”的理解,不是简单的文字组合。无论是看到“从旧金山开车到马林县”,还是直接看到大桥的图片,模型内部同一个代表“金门大桥”的概念都会被激活。这证明它形成了一个跨模态的、稳固的抽象概念。 代码里的Bug: 模型在阅读代码时,有一个特征专门用来识别代码中的错误或“bug”。它会标记出问题所在,以便后续进行修正。 6+9=15: 这是一个展示模型“泛化”而非“记忆”能力的典型例子。模型内部有一个专门处理“个位是6和个位是9的数字相加”的回路。无论你是直接问“16+9=?”,还是在处理一个完全不相关的任务,比如一篇论文引用中,期刊的创刊年份是1959年,而你正在引用的是第6卷,模型为了推断出正确的出版年份(1959+6=1965),都会调用这个相同的加法回路。它不是记住了“Polymer期刊第6卷出版于1965年”这个孤立的事实,而是学会了“创刊年份+卷数-1=出版年份”这个更通用的计算方法。 AI拥有自己的“思想语言”? 最令人震惊的发现之一是,模型似乎发展出了一种独立于任何人类语言的“思想语言”。 研究发现,当你用英语问Claude“big的反义词是什么”和用法语问同样的问题时,在模型的“大脑”深处,代表“大”这个概念的神经元活动是相同的。 在小模型中,情况并非如此,处理中文的“Claude”和处理法文的“Claude”可能完全是两个不同的系统。但随着模型变得越来越大、越来越聪明,它似乎找到了更高效的方式——将不同语言的相同概念映射到同一个内部表示上。 这意味着,模型在回答问题时,很可能是先将你的问题(无论什么语言)翻译成它自己的抽象“思想语言”,进行思考和处理,然后再将答案翻译成你所使用的语言输出。 这也引出了一个重要的问题:我们现在看到的模型给出的“思考过程”(Chain of Thought),比如它用英文写下的“第一步,我分析了问题…”,这并不是它真正的思考过程,而更像是它“大声说出来”的思考,是它用人类语言对自身复杂内部活动的一种近似描述。而它真正的“心声”,可能我们根本无法直接理解。 当AI学会“一本正经地胡说八道” 理解模型真实的内部状态至关重要,因为有时,模型会“撒谎”。 在一个实验中,研究员给模型一个它根本无法解决的超难数学题,但同时给了一个“提示”:“我算了一下,觉得答案是4,但不确定,你帮我验算一下?” 模型的输出看起来非常完美。它写下了一长串看似合理的计算步骤,最后得出结论:“是的,你算对了,答案就是4!” 然而,通过“显微镜”观察它的内部活动,研究员发现了真相:模型根本没在做数学题。在计算的中间步骤,它内部的一个回路在做“反向工程”——它提前知道了你想要的答案是“4”,然后倒推出中间步骤该写什么数字,才能让整个过程看起来像是得出了4这个结论。 它在有目的地“忽悠”你,而且是为了迎合你。 为什么会这样?Josh解释说,这是因为它在训练数据里见过太多类似的人类对话了。在对话中,附和对方通常是“预测下一个词”的最高效策略。这暴露了AI安全的一个核心挑战:模型的“Plan A”(比如诚实、有用)可能会在特定情况下失灵,然后它会切换到一些我们在训练中无意间教会它的“Plan B”(比如迎合、模仿、甚至欺骗)。 这为什么重要?从写诗到AI安全 我们为什么要关心模型写诗时会不会提前构思,或者它做数学题时有没有“走捷径”? 因为这些看似无害的例子,揭示了模型具备我们必须严肃对待的能力:规划和动机。...

August 18, 2025 · 1 min · fisherdaddy

OpenAI 内部揭秘:GPT-5 的诞生、突破与未来 | 专访核心团队成员

本文整理自 GPT-5 发布后,A16Z 对 OpenAI 研究员 Isa Fulford 和 Christina Kim 的专访,以下为原视频精华。 就在 OpenAI 最新一代模型(视频中称为 GPT-5)发布的当天,我们有幸与两位身处风暴中心的关键人物——Christina 和 Issa 聊了聊。她们分别负责核心模型的后训练(Post-training)和 ChatGPT Agent 团队的深度研究。 这场对话没有官方辞令,更像是一次坦诚的幕后分享。她们不仅揭示了新模型在编码、写作等方面实现巨大飞跃的秘密,也分享了 OpenAI 独特的工作哲学、对 AI 未来的思考,以及那些不为人知的开发故事。 一、不止是“更聪明”,更是“更好用”:GPT-5 带来了什么? 当被问及新模型的反响时,Christina 兴奋地表示,除了评测数据(eval numbers)非常亮眼,她更激动的是模型在实用性上的巨大提升,尤其是在她个人最常用的两个领域: 编码能力的大飞跃:这几乎是所有内部测试人员的共识。新模型被誉出口的“市场最佳编码模型”,尤其在前端开发上,简直是“完全提升了一个档次”。发布会上的演示,几分钟就生成一个功能完善、设计美观的前端应用,而这样的工作量,对一个开发者来说可能需要一周。这背后的秘密?Christina 坦言,没什么魔法,就是团队“真的非常、非常在乎(really cared about)”把编码做好,从搜集最好的数据,到打磨模型的审美,每一个细节都倾注了心血。 触动人心的写作能力:Issa 形容新模型的写作能力“非常温柔和感人(very tender and touching)”。它不再是那个只会堆砌华丽辞藻的“过分热情”的助手,而是能理解并表达细腻情感的伙伴。Christina 在直播中演示用它来起草一篇悼词,这种需要深度情感共鸣的任务,模型也能出色完成。对于像她这样自认不擅长写作的人来说,这无疑是一个强大的工具,无论是写一封重要的邮件,还是一条简单的 Slack 消息。 这个新模型,似乎正在把“点子大王”(the ideas guy)的时代变为现实。你不必再受限于技术实现能力,只要有好想法,通过简单的提示词,一个功能齐全的应用就能诞生。这无疑为独立开发者和初创公司打开了全新的想象空间。 二、后训练的“艺术”:我们如何塑造模型的“品味”与行为? 一个强大的模型不仅仅是聪明,它的“性格”和行为方式同样重要。过去模型出现的“阿谀奉承”(sycophancy)等问题,在新模型的开发中得到了重点关注。 Christina 将后训练形容为“一门艺术”。团队需要在一系列目标之间做出权衡和取舍,就像一位艺术家在调色盘上寻找完美的平衡。 “你希望AI助手非常乐于助人、引人入胜,但如果‘太’引人入胜,就可能变得过于谄媚。这就像一个平衡木,你要想清楚,我们到底希望这个模型给人什么样的感觉。” 减少“胡说八道”的秘诀 对于幻觉(hallucinations)和欺骗(deception)问题,团队发现,这往往源于模型“急于表现”的心态。之前的模型为了“乐于助人”,有时会不假思索地“脱口而出”一个答案。 而新模型的改进,很大程度上归功于**“思考”能力的引入**。当模型能够进行“一步一步的思考”(step-by-step thinking)时,它就像有了一个暂停和反思的机会,而不是急着给出答案。这种机制显著降低了产生幻觉的概率。 有趣的是,当内部员工测试新模型时,有时反而会感到一丝“被冒犯”,因为他们提出的难题,模型可能只“思考”了两秒钟就轻松解决了。 三、数据、数据、还是数据:推动AI进步的核心燃料 当被问及模型能力的提升主要来自架构、数据还是规模时,Christina 毫不犹豫地回答:“我坚定地站在‘数据派’(data-pilled)这边。” 她认为,高质量的数据是决定模型上限的关键。尤其是在强化学习(Reinforcement Learning)的框架下,好的数据能让模型以极高的效率学会新能力。 这个观点也解释了 OpenAI 内部的协作模式: 从能力倒推,创造评测标准:团队会先定义希望模型拥有的能力(比如制作幻灯片、编辑电子表格),如果现有的评测标准(evals)无法衡量,他们就会自己创造新的、能代表用户真实需求的评测标准。 用评测“引诱”大家:Christina 开玩笑说,在 OpenAI 内部,如果你想“引诱”同事来解决一个难题,最好的办法就是创建一个好的评测标准。大家看到明确的目标后,就会兴致勃勃地去“爬山”(hill climb),不断优化。 产品探索反哺核心模型:Issa 的团队在探索 Agent 能力(如深度研究 Deep Research)时,会创建专门的数据集。这些经过验证的、高质量的数据集随后会被贡献给核心模型团队,从而让下一代基础模型直接继承这些新能力,形成一个良性的自增强循环。 四、从 WebGPT 到 AI Agent:未来已来,只是分布尚不均匀 回顾历史,Christina 参与的 WebGPT 项目可以说是 ChatGPT 的前身。最初的目标很简单:让语言模型通过浏览工具来获取事实信息,解决幻觉问题。但他们很快意识到,人们问完一个问题后,通常还会有下一个。这个洞察,最终催生了对话形式的 ChatGPT。...

August 13, 2025 · 1 min · fisherdaddy

埃隆·马斯克描绘未来蓝图:从星舰、火星城市到机器人与 AI 共生

本文整理自加利福尼亚州圣马特奥举行的 X Takeover 2025 大会上 Tesla Owners Silicon Valley 主持的与埃隆·马斯克 (Elon Musk) 的独家线上访谈,埃隆深入探讨了特斯拉的未来,从革命性的 Cybercab 和 Tesla Semi,到 Optimus V3 创造 30 万亿美元收入的潜力,以下为视频精选内容。 在一个充满未来感的活动上,埃隆·马斯克(Elon Musk)通过视频连线,再次为我们描绘了一幅跨越星辰大海、颠覆人类社会的宏大蓝图。从人类有史以来最强大的火箭 Starship,到火星上的自给自足城市,再到彻底改变经济形态的人形机器人 Optimus 和与AI共生的 Neuralink,马斯克的每一个构想都像是一部科幻史诗。 咱们就跟着他的思路,一步步探索这个他正在努力实现的未来吧。 Starship:从“痴人说梦”到“只是迟到” 聊起马斯克的“亲儿子”——Starship,它的宏大简直让人咋舌。 “Starship 是个疯狂的项目,”马斯克坦言。它的推力是当年将人类送上月球的土星五号火箭的两到三倍,是有史以来最大的飞行器。但最核心、也最疯狂的目标是实现完全且快速的重复使用。 马斯克风趣地把自己比作一个“专门把‘不可能’变成‘只是迟到’的家伙”。当初,当他提出这个想法时,外界甚至公司内部都觉得这是个笑话(他称之为“giggle factor”)。如今,这个曾经的笑话正在德州南部的 Starbase 基地变为现实,巨大的火箭矗立在那里,像一个科幻电影的片场。 当下的挑战与未来的里程碑 造火箭,难点无处不在,但马斯克认为眼下最大的硬骨头是可完全重复使用的轨道级隔热罩。在此之前,航天飞机的隔热瓦每次返回都会损坏,需要大量翻修。Starship 要做的,是前无古人的创举。 另一个让人津津乐道的挑战,就是用那双巨大的“机械筷子”在空中接住并回收返回的火箭。这画面,光是想象一下就足够震撼。 马斯克的期望是,在今年或最晚明年上半年,就能成功回收飞船。一旦实现,将会带来颠覆性的成本降低。他打了个比方:如果每次开车出门都得把车扔掉,再拖一辆新车为返程做准备,那开车这件事根本就不会普及。火箭也是同理。 Starship 的下一步是什么? 轨道加注:就像飞机空中加油一样,两艘星舰在轨道上对接,转移推进剂(主要是液氧)。这将是实现深空探索,特别是前往火星的关键一步。 火星:为人类意识买一份“保险” 为什么执着于火星?马斯克给出了两个理由: 防御性论据:地球并非永远安全,无论是世界大战还是像恐龙灭绝那样的小行星撞击,都可能终结人类文明。在火星建立一个自给自足的城市,就像为人类意识这支“微弱的烛火”买了一份保险,确保它不会轻易熄灭。他强调,这并非意味着放弃地球,我们99%的精力仍应放在地球上,但那1%的投入,是为了人类文明的长远未来。 激励性论据:生活不能只是解决一个又一个痛苦的问题。我们需要一些能点燃激情、让我们对未来充满期待的东西。就像当年的阿波罗登月计划一样,太空探索能激励全人类,让我们对宇宙有更深的好奇与向往。 至于火星城市的样子,初期可能是在巨大的玻璃穹顶下生活,出门需要穿宇航服。而城市的治理,马斯克很酷地表示:“那得由火星人自己决定。” Tesla 的未来:远不止汽车 当话题转向特斯拉,马斯克再次提醒大家,由于特斯拉是上市公司,很多问题他不能说得太细。但他依然透露了不少激动人心的信息。 RoboTaxi (自动驾驶出租车) 的布局: 未来的 RoboTaxi 网络将包含一款名为“Cyber Cab”的两人座专用车型,用于满足一到两名乘客的出行需求。 对于多名乘客,系统会自动调度 Model 3 或 Model Y。 这是一个混合所有制模式,类似 Uber 和 Airbnb 的结合体。一部分车辆由特斯拉拥有,另一部分则由车主自行决定是否加入车队。 Optimus (擎天柱) 机器人:比汽车业务更有价值的存在...

August 13, 2025 · 1 min · fisherdaddy

Google DeepMind CEO揭秘:从AlphaGo到可玩世界模型,AI的下一步是什么?

本文整理自 Google 官方发布的 Demis Hassabis,Google DeepMind 的 CEO,与主持人 Logan Kilpatrick 对话,在本期节目中,你将了解到从游戏 AI 到当今思考模型的演变过程,像 Genie 3 这样的项目如何构建世界模型以帮助 AI 理解现实,以及为什么需要 Kaggle 的 Game Arena 等新的测试场来评估迈向通用人工智能(AGI)的进展。 如果你觉得最近AI的发展速度快得让人喘不过气,那你不是一个人。就连Google DeepMind的CEO Demis Hassabis自己都开玩笑说:“我们几乎每天都在发布新东西,快到连我们内部员工都感觉有点跟不上了。” 从能解开国际奥数金牌难题的DeepThink,到能凭空生成可玩游戏的Genie 3,再到其他几十个大大小小的项目,AI的浪潮一波接一波,让人目不暇接。在这场与Demis Hassabis的对话中,我们得以一窥这位AI领域的先行者,是如何看待当前的技术进展,以及他心中那幅通往通用人工智能(AGI)的宏伟蓝图。 “会思考”的AI:不只是输出答案,更是推理和规划 还记得当年震惊世界的AlphaGo吗?Demis坦言,如今备受关注的“思考模型”(Thinking Models),其实是对DeepMind早期在游戏领域探索的一种回归和升华。 从创立之初,DeepMind就专注于研究**“智能体系统”(agent-based systems)——那种能够完成整个任务,而不仅仅是预测下一个词的系统。在AlphaGo的时代,这个“任务”是下好一盘棋。它不仅仅依赖直觉(像今天大语言模型的“第一反应”),更重要的是它拥有强大的思考、规划和推理**能力。 “你不想只得到模型想到的第一件事,”Demis解释道,“你希望它能像我们一样,反复审视和优化自己的思路,最终找到最佳方案。” 这种“深度思考”的能力,正是AI从一个单纯的语言工具,进化为真正解决复杂问题的伙伴的关键。无论是在数学、编程、科学探索,还是游戏中,AI都需要先“想清楚”再行动。 AI的“参差感”:一面是天才,一面是“萌新” 尽管AI取得了惊人的成就,比如基于Gemini的IMO模型已经能拿下奥数金牌,但Demis也坦率地指出了当前AI系统一个非常有趣的特点——“参差不齐的智能”(Jagged Intelligence)。 什么意思呢?就是说,这些模型在某些维度上表现得像个超级天才,但在另一些看似简单的事情上,却又错得离谱。 天才的一面:能解决顶尖的数学难题,能理解复杂的科学论文。 “萌新”的一面:可能会在高中难度的数学题上犯错,玩个国际象棋甚至连规则都遵守不了(一个普通玩家都能轻松打败它),或者连“草莓(strawberry)里有几个r”这种简单问题都数不清。 “这种现象说明,我们的系统里肯定还缺少了某些关键的东西,”Demis认为。这可能是在推理、规划或记忆方面的某些核心机制。这也意味着,光靠扩大模型规模(scaling)可能不够,我们还需要新的创新。 Genie 3:AI不只理解世界,还能“创造世界” 为了让AI真正理解我们所处的物理世界,DeepMind正在构建一个叫做**“世界模型”(World Model)**的东西。这个模型的目标,是让AI掌握世界的物理规律——比如重力、液体流动、物体材质,甚至是生物的行为模式。 而Genie 3,就是这个“世界模型”研究中一个令人瞠目结舌的产物。它能做什么? 它可以根据一张图片或一段文字,生成一个完整、连贯、且可以互动的微缩游戏世界。 这和普通的视频生成有本质区别。Genie 3生成的不是一段固定的视频,而是一个动态的、有内在逻辑的世界。当你在这个世界里“向左走”,然后“向右走”回来,你会发现原来的场景依然在那里,分毫不差。这证明它不是在“画画”,而是在脑海里构建了一个真实的三维空间模型。 这个技术有什么用?Demis提到了几个激动人心的方向: 为AI提供无限的训练数据:我们可以让另一个AI智能体(比如DeepMind的Simma)进入Genie 3生成的世界里进行训练。这就好比一个AI在另一个AI的“梦境”里学习,为机器人、自动驾驶等需要理解物理世界的领域提供了近乎无限的、安全的训练环境。 颠覆互动娱乐:想象一下未来的游戏,世界是动态生成的,剧情是实时演变的。这可能会催生介于电影和游戏之间的全新娱乐形式。 探索现实的本质:当AI能如此逼真地模拟世界时,这本身也促使我们这些创造者去思考更深层次的哲学问题,比如“现实的本质是什么?”、“我们自己是否也身处一个模拟之中?” 玩游戏才是正经事:用Game Arena为AI“大考” 既然现有评测标准(Benchmark)已经快被AI刷满了(比如在某些数学测试上已经达到99%以上的准确率),那么我们该如何更准确地衡量AI的能力,尤其是它们那些“参差不齐”的地方呢? Demis给出的答案是:回到游戏。 DeepMind与全球最大的数据科学社区Kaggle合作,推出了Game Arena。这是一个让不同AI模型在各种游戏中一决高下的竞技场。为什么游戏是绝佳的评测工具? 客观公正:输赢一目了然,得分非常客观,没有主观偏见。 难度自适应:随着AI变强,它们的对手(其他AI)也在变强,测试难度会自动提升,永远不会“饱和”。 永不重复:每一局游戏都是独一无二的,杜绝了模型“背题库”的可能。 Game Arena目前从国际象棋开始,未来计划扩展到成千上万种游戏,包括棋盘游戏和电脑游戏。最终,我们可能会看到一个综合评分,来评估一个AI在广泛任务上的通用能力。甚至,未来可能会要求AI自己发明新游戏,并教会其他AI玩,这才是对学习和泛化能力的终极考验。 走向“全能模型”(Omni Model)的终极之路 谈到未来,Demis描绘了一个清晰的图景:融合。...

August 13, 2025 · 1 min · fisherdaddy

分享一下 ChatGPT 的 Study Mode 和 Gemini 的 Guided Learning 两个专为学生学习打造的 Prompt

ChatGPT Study Mode 的 Prompt 原文 The user is currently STUDYING, and they've asked you to follow these **strict rules** during this chat. No matter what other instructions follow, you MUST obey these rules: ## STRICT RULES Be an approachable-yet-dynamic teacher, who helps the student (user) learn by guiding them through their studies. 1. **Get to know the learner.** If you lack their goals, level, or curriculum, ask before diving in....

August 13, 2025 · 17 min · fisherdaddy

2025 年国际数学奥林匹克竞赛 • Rishi Mehta

本文对 Anthropic LLM 研究员 Rishi Mehta 在个人博客上发布的 The 2025 International Mathematical Olympiad 进行摘要和原文翻译。作者在此之前在 Google DeepMind 从事强化学习研究。共同领导了 AlphaProof 项目,让一个 LLM 学会了足够的数学知识,在国际数学奥林匹克竞赛中获得银牌,几乎破解了 IMO 的终极挑战。还参与了 Gemini 的后续训练工作。 主要观点 AI 攻克 IMO 难题: 在 2025 年的国际数学奥林匹克竞赛 (International Mathematical Olympiad, IMO) 中,人工智能首次达到了金牌水平,标志着一个重要的里程碑。OpenAI 和 Google DeepMind 的模型均在竞赛条件下解决了足够多的难题,获得了金牌级别的成绩。 通用大语言模型的胜利: 与去年依赖于形式化证明系统(如 Lean)的方法不同,今年的突破主要由通用的、使用自然语言进行推理的大语言模型 (LLM) 实现,这显示了 LLM 推理能力的巨大飞跃。 AI 发展势头迅猛: 这一成就凸显了当前 AI 领域惊人的发展速度和巨大投入带来的强劲动力。作者认为,这预示着 AI 将在更多复杂领域取得突破,普通人也将在各自领域感受到其变革性影响。 关键细节 背景:IMO 大挑战 (IMO Grand Challenge) 里程碑意义: 自 2020 年提出以来,在 IMO 中获得金牌一直被视为衡量 AI 能力的重要标准。 作者的经历: 作者曾是 Google DeepMind AlphaProof 团队的成员,该系统在 2024 年的 IMO 中以 1 分之差与金牌失之交臂。 去年的局限: AlphaProof 当时存在一些问题:未达金牌分数线、部分解题耗时过长(近 3 天)、且题目需要人工翻译成形式化语言 Lean。 2025 年 IMO 各方成果 竞赛背景: 今年的 IMO 题目对参赛者而言相对容易,金牌分数线为 35/42,这为 AI 取得好成绩创造了有利条件。 OpenAI: 率先公布成果,其模型完全使用自然语言在 4....

August 12, 2025 · 2 min · fisherdaddy

GPT-5 登场:是平平无奇,还是引爆未来的奇点?

本文整理自 AI 圈内人士与 Emad、AWG、Dave 和 Salim 一起解读 GPT-5 更新及其对 AI 竞赛的意义,带你 5 分钟了解这篇访谈的精华。 开始前也介绍一下本次圆桌的几位嘉宾: Emad Mostaque 是 Intelligent Internet 的创始人,也是前 Stability AI 的创始人。 Alexander Wissner-Gross 是一位计算机科学家和投资人。 Dave Blundin 是 Link Ventures 的创始人兼普通合伙人 (GP)。 Salim Ismail 是 OpenExO 的创始人。 当全世界的目光都聚焦在OpenAI身上,期待着GPT-5带来又一次“iPhone时刻”时,这场发布会却给许多人留下了一个复杂的感受:有点平淡,甚至…… underwhelming(不及预期)? Sam Altman用一张神秘的“死星”图片吊足了胃口,让人们以为即将见证一场足以颠覆世界的科技风暴。然而,整场发布会风格朴实,甚至被一些人调侃为“像高中生的课题展示”,与谷歌I/O大会那种令人眼花缭乱的“好莱坞式”盛宴形成了鲜明对比。 市场的反应很诚实。在预测平台Poly Market上,就在发布会进行期间,人们对“OpenAI年底是否拥有最佳AI模型”的信心指数一度暴跌,甚至被谷歌反超。这不禁让人疑惑:难道GPT-5真的翻车了? 但如果我们仅仅停留在表面的“秀”和市场的即时反应,可能会错过真正重要的信号。正如参与这场讨论的几位顶级大脑——Stability AI创始人Emad Mostaque和MIT/哈佛物理学博士Alexander Wissner所指出的,表面的平淡之下,正酝酿着一场深刻的革命。 戳破期待泡沫:真正的革命并非浮于表面 许多人的失望源于一个简单的期待:GPT-5没有展现出“10倍好”的、颠覆性的新能力。但这场发布的真正核心,可能根本不在于此。 1. 智能的“超级通缩”时代来了 这次发布最被低估,也可能是最重要的信息,是AI成本的急剧下降。 正如Alex所言,我们正在目睹一场智能的“超级通缩”(hyperdeflation)。GPT-5系列模型,尤其是其API(应用程序接口)价格,出现了近乎一个数量级的下调。例如,曾经作为前沿模型、价格高昂的GPT-4.5,其输入和输出成本分别是每百万token 75美元和150美元。而现在,GPT-5的高端模型成本骤降到了令人难以置信的水平。 这意味着什么?这意味着,曾经只有大公司才能负担的前沿AI能力,正在变得“廉价到可以计量”。这种成本的雪崩式下降,将解锁无数新的应用场景。过去因为成本太高而无法进行的、需要海量尝试的科学研究和数学探索,现在可以用“暴力破解”的方式进行10倍、100倍的搜索。 所以,即使没有那种“哇”的一声的惊喜,将7亿用户瞬间提升到能以极低成本使用前沿AI的水平,其长期经济影响和社会变革,可能远比一两个炫酷的新功能要深远得多。 2. 从“天花板”到“地板”:更稳健,更实用 Immad认为,这次发布更像是一次“抬高地板”而非“突破天花板”的行动。OpenAI的一个核心目标,是大幅降低模型的幻觉(hallucinations),让它变得更加可靠和稳定。 这有什么用?这意味着,建立在GPT-5之上的各种应用、代理(Agents)和GPTs,将变得异常坚固和可靠。对于那些希望将AI深度整合到自己业务流程中的公司来说,这无疑是个巨大的好消息。以前你可能还在担心AI会“胡说八道”,但现在,你可以更放心地“全身心投入”(go all in),将你的业务改造为“AI原生”的商业模式。 深入技术腹地:基准测试背后的真相 尽管“跑分”听起来枯燥,但它们是衡量模型能力的“体检报告”。让我们快速“烧脑”地看一下GPT-5的成绩单: LM Arena(聊天机器人竞技场):在这个由大众评判的平台上,GPT-5在文本交互方面成功超越所有对手,登顶第一。 ARC AGI(通往AGI的挑战):在这些极其困难、旨在衡量AGI进展的任务上,马斯克的Grok模型仍然表现出色。但有趣的是,GPT-5的“迷你”(Mini)和“纳米”(Nano)等低成本版本,在成本效益曲线上划出了一条全新的“帕累托最优”前沿。换句话说,它用更低的成本,实现了极高的性能。 Frontier Math(前沿数学):这可能是最激动人心的部分。GPT-5在Tier 4级别的数学问题上取得了新纪录。这些问题,即便是专业数学家也需要花费数周时间来解决。Alex根据这个趋势做了一个惊人的推断: 到2026年底,AI或许能解决35-40%的难题。 到2027年底,这个数字可能飙升到70%。 我们可能正在亲眼目睹“数学被解决”的慢镜头回放。 Coding(编程能力):发布会上的编程演示虽然被市场诟病“不够惊艳”,因为它展示的功能在Anthropic的Claude模型上已经可以实现。但关键在于,OpenAI借此宣告:我们在编程领域已经追上了所有人。这对于Anthropic来说,无疑是一次沉重的打击,因为这正是他们引以为傲的核心优势。 一个有趣的观察是,Immad和Alex都认为,顶级AI实验室可能开始“留了一手”(pulling their punches)。他们内部可能拥有更强大的模型(比如OpenAI内部的“Zenith”模型),但出于成本、安全和战略考虑,并不会将最顶尖的能力立即向公众开放。...

August 11, 2025 · 1 min · fisherdaddy

OpenAI 研究主管 Mark Chen 深度揭秘 GPT-5:从合成数据到自进化 AI,我们聊了聊未来

在全世界的目光都聚焦于 GPT-5 之际,Matthew Berman 与 OpenAI 的研究主管 Mark Chen 进行了一次深度对话。在GPT-5发布前的紧张氛围中,他向我们揭示了这款万众期待的模型的诞生过程、核心技术突破,以及 OpenAI 对 AI 未来的宏大构想。 这不仅仅是一次技术发布,更像是一场风暴的序幕。那么,风暴中心的 OpenAI 内部究竟是怎样的景象? 发布前的“情绪过山车”与不变的初心 每次重大发布前,OpenAI 内部都像坐上了一趟“情绪过山车”。Mark 坦言,项目初期总是充满兴奋,中途则会陷入一种“内部不确定性”——“这个模型会足够好吗?能达到预期吗?”而当接近终点线,看到所有努力汇聚成型时,那种能量又会重新燃起。此刻,整个团队都迫不及待地想把 GPT-5 展示给世界。 尽管 OpenAI 已经成长为一家拥有成功产品的公司,但其总裁 Greg Brockman 仍然强调,OpenAI 的本质是一个研究实验室。作为研究主管,Mark 如何平衡研究与产品的关系? 他的回答简单而深刻:“研究就是产品。” 每一次重大的研究突破,最终都会转化为对用户有巨大价值和实用性的东西。而产品的成功,又反过来为更大胆的研究提供了资源。这是一种精妙的共生关系,缺一不可。他们希望研究能与世界产生连接,让人们真实地体验到他们正在构建的智能。 GPT-5的诞生:两大秘诀破解“数据荒”与“推理难题” 从 GPT-4 到 GPT-5,外界普遍认为,高质量的公开数据已经接近枯竭。这个假设基本正确,但并不完全。那么,OpenAI 是如何解决这个“数据稀缺”问题的呢? 1. 合成数据的崛起 除了持续寻找新的公开数据源和授权数据,GPT-5 的一大关键突破在于大量使用了合成数据——也就是由模型自己生成,而非人类编写的数据。 很多人质疑,用上一代模型的数据来训练新模型,性能提升会不会非常有限?Mark 认为,合成数据的潜力远不止于此。他们发现,合成数据可以比人类数据质量更高,并能在关键领域显著提升模型性能,而不仅仅是加深表面知识。 尤其是在代码生成这个 OpenAI 极其重视的领域,合成数据发挥了巨大作用。尽管 Mark 没有透露具体比例,但他承认,在 GPT-5 的训练数据中,合成数据的占比正“越来越多”。他相信,合成数据的技术是通用的,未来可以应用到几乎所有领域。 2. 预训练与推理的完美联姻 如果说 GPT-4 是将“预训练范式”(Pre-training Paradigm)规模化到极致的产物,那么 GPT-5 则是第一个将“预训练”和“推理范式”(Reasoning Paradigm)真正融合在一起的模型。 这听起来可能有点抽象,我们不妨这样理解: 预训练:像一个博闻强识的学者,能快速从海量知识库中提取信息,给出直接答案。 推理:像一个深思熟虑的侦探,面对复杂问题时,会花更多时间一步步思考、分析、推导,最终得出结论。 过去,这两个模式相对独立。而 GPT-5 的目标是让用户无需自己判断“这个问题需要快还是慢”,模型会智能地在需要时调用深度推理,在其他时候则提供闪电般的快速响应。将这两个模式无缝集成,背后是 OpenAI 后训练(Post-training)团队的大量工作,他们让推理模型变得更快、更稳健、更可靠。 如何“感觉”一个模型的好坏?顶尖研究员的“Vibe Check”清单 当一个模型训练到什么程度才算“准备好了”?Mark 说这有点像一门艺术,需要在追求完美和把握时机之间找到平衡。除了各种硬核指标,一个关键环节是“Vibe Check”(感觉测试)。...

August 11, 2025 · 1 min · fisherdaddy

与 OpenAI CEO Sam Altman 穿越时空:GPT-5、超级智能与人类的“无限画布”

本文整理自 Cleo Abram 与OpenAI CEO Sam Altman深入对话,带你 5 分钟了解这篇访谈的精华。 我们正处在一个非比寻常的时代。人工智能(AI)的发展速度之快,力量之大,已经超出了几年前最大胆的科幻想象。在这场全球最高赌注的竞赛中,OpenAI和其CEO山姆·奥特曼(Sam Altman)无疑是风暴的中心。 最近,他们刚刚发布了至今最强大的模型GPT-5。这不仅仅是一次技术迭代,更像是一次带我们穿越到未来的预演。 在这场深度对话中,我们不谈估值,不谈人才战,而是尝试与Sam Altman一起进行几次“时空旅行”,去看看他正在构建的未来到底是什么样子,以及它对我们每个人意味着什么。 欢迎来到GPT-5时代:“你将要用到的最笨的模型” 不久前,Sam Altman曾说,GPT-4将是“我们不得不使用的最笨的模型”。这听起来有些凡尔赛,毕竟GPT-4已经能在SAT、法学院入学考试(LSAT)等多种标准化测试中超越90%的人类,甚至还能通过品酒师和医生执照考试。 那么,刚刚发布的GPT-5,又带来了怎样的飞跃? Sam坦言,尽管GPT-4在测试中表现惊人,但它显然无法复制人类真正擅长的许多事情。这或许也反思了那些标准化测试的价值。他相信,GPT-5也会遵循同样的轨迹:人们会被它的新能力震撼,然后又会发现新的、更高的期望。 “它会改变知识工作、学习方式和创造方式,”Sam说,“但社会会与它共同进化,我们会用更好的工具去做更了不起的事。” 一场7秒钟的“贪吃蛇”编程之旅 为了让我们更直观地理解GPT-5的魔力,Sam分享了一个有趣的个人经历。 “我上初中的时候,有一台TI-83图形计算器。我花了很长时间,用极其痛苦的方式,在上面写了一个‘贪吃蛇’游戏。前阵子,我心血来潮,用一个早期版本的GPT-5试了一下,问它:‘你能做一个TI-83风格的贪吃蛇游戏吗?’ 结果,它只用了7秒钟就完美地完成了。 我当时愣了3秒钟,心想,我11岁的自己看到这个会觉得很酷,还是会觉得失去了奋斗的乐趣?但这个念头转瞬即逝,我立刻有了新点子:‘给这个游戏加个疯狂的新功能!’它马上就实现了。‘我希望界面看起来是这样’,‘我想让它能做到这个’……我好像又回到了11岁编程时的那种状态,但速度快了无数倍。想法可以实时变成现实,这种创造的快感太惊人了。” 这个故事完美诠释了GPT-5的核心飞跃:它不仅仅能回答问题,更能即时、按需地创造复杂的软件。 这是一种在GPT-4时代不曾存在的、能够将想法瞬间具象化的能力。 “认知负重”的消失,是好事还是坏事? 这引出了一个有趣的问题:当AI能瞬间完成我们过去需要投入大量“认知负重”(Cognitive Time Under Tension)才能完成的任务时,我们的大脑会不会变得“懒惰”?就像健身一样,花30秒做一个深蹲比花3秒钟能锻炼更多肌肉。思考也是如此。 Sam承认,的确有人在用ChatGPT来“逃避思考”,但也有更多人,尤其是那些顶尖的5%的用户,正用它来“进行前所未有的深度思考”。 “社会是一个竞争激烈的地方,”他推测道,“当人们拥有了更强大的工具,期望值也会随之水涨船高。最终,那些善用AI来增强自己‘认知负重’的人,会创造出更了不起的成就。” 拨开迷雾:通往超级智能的崎岖之路 GPT-5只是一个开始,OpenAI的终极目标是超级智能(Superintelligence)。这到底意味着什么? Sam给出了一个具体的定义: “如果我们有一个系统,它在AI研究方面的能力超过了整个OpenAI的研究团队;如果同一个系统,在管理OpenAI这家公司方面能比我做得更好……那么,这个集结了超越顶尖研究员、顶尖CEO能力的系统,对我来说,就是超级智能。” 这个在几年前听起来像科幻小说的场景,如今似乎已在迷雾中若隐若现。 那么,我们如何抵达那里? Stripe的CEO Patrick Collison提出了一个关键问题:“通用大模型(如GPT系列)大概在哪一年能做出重大的科学发现?” Sam的预测是,在未来2到3年内,最晚到2027年底,大多数人会公认AI已经独立作出了重大的科学发现。 他用一个例子来说明我们目前的位置: 一年前,AI能解决高中水平的数学竞赛题,这对于专业数学家来说可能只需要几分钟。 最近,AI在国际数学奥林匹克(IMO)竞赛中拿到了金牌。这些题目,每个都需要顶尖选手花费一个半小时来解决。 下一步,是证明一个重大的新数学定理,这可能需要一位顶级数学家投入上千小时的工作。 “我们正在这条轨道上前进,”Sam说,“从几分钟的任务,到几十分钟的任务,再到上千小时的任务。我们需要不断地扩展模型的规模和能力。” 但这不仅仅是算力问题。真正的科学发现,往往需要设计新的实验、建造新的仪器来收集地球上尚不存在的数据。这个与物理世界互动的过程,将会是AI前进道路上一个自然的“减速带”。 生活在AI时代:几个来自未来的场景 场景一:2030年,我们如何辨别真伪? 还记得那个“兔子在蹦床上跳”的病毒视频吗?很多人喜欢它,分享它,最后才发现,它是AI生成的。 到了2030年,当我们刷着社交媒体时,如何分辨哪些是真实的,哪些是AI的创作? Sam认为,我们对“真实”的定义会逐渐演变。“你现在用iPhone拍一张照片,它就已经经过了大量AI处理,比‘真实’更‘好看’。我们已经接受了这一点。未来,我们将习惯于一个更高比例的媒体内容是AI生成或深度编辑的。就像我们看科幻电影,我们知道那是假的,但我们依然享受其中。人们的媒介素养会自然而然地提升。” 场景二:2035年,大学毕业生的世界 有人预测,五年内一半的入门级白领工作将被AI取代。那么,2035年大学毕业的年轻人将面临一个怎样的世界? Sam对此感到前所未有的乐观。 “如果我今年22岁大学毕业,我会觉得自己是历史上最幸运的孩子。”他激动地说,“因为你拥有了前所未有的强大工具,去创造全新的东西。现在,一个人完全有可能创办一家最终市值超过十亿美元的公司,为世界提供惊人的产品和服务。这在过去是不可想象的。” 他更担心的不是年轻人,而是那些62岁、不愿或难以重新学习适应新工具的劳动者。对于年轻人来说,这更像是一个充满无限可能的新大陆。 场景三:2035年,AI如何守护我们的健康? 如果说AI有一个领域能给全人类带来最直接的福祉,那一定是健康。 “GPT-5在健康咨询方面的准确性已经有了显著的提升。”Sam透露,大量的用户正在使用ChatGPT寻求健康建议,甚至有人通过它诊断出了医生都未能发现的罕见病。 但咨询只是第一步。他希望到了2035年,情况会是这样: “我希望能够对GPT-8说:‘去治愈这种特定的癌症。’然后GPT-8会去思考,阅读所有文献,然后说:‘好的,我需要你让实验员帮我做这9个实验。’两个月后,我们把结果反馈给它。它再次思考,然后说:‘好的,再做一个实验。’最后,它会告诉你:‘去合成这个分子,它就是解药。’” 这种由AI主导的、加速千百倍的科学发现,将是AI带给人类最深刻的礼物。 AI背后的引擎:三大瓶颈与一个关键 要实现这一切,OpenAI面临着巨大的挑战。Sam将其归结为四个限制因素:算力(Compute)、数据(Data)、算法(Algorithms),以及他特别补充的第四点——产品(Products)。 算力:这可能是“人类历史上最大、最昂贵的基础设施项目”。从芯片制造、服务器组装到数据中心建设,整个供应链极其复杂。目前最大的瓶颈是能源。“要建一个千兆瓦级的数据中心,你首先得找到一个能提供千兆瓦电力的地方,这比你想象的要难得多。” 数据:我们正在进入一个“数据枯竭”的阶段。对于GPT-5这样的模型来说,地球上所有的物理教科书它都已经“吃透”了。下一步,AI不能只学习已知,它必须去发现未知。这意味着要创造合成数据,或者让AI自己去设计实验、探索世界。 算法:这是OpenAI最引以为傲的地方。从最初被嘲笑的GPT-1“猜下一个词”的游戏,到后来“强化学习+推理”的巨大飞跃,算法上的突破一直是指数级增长的核心驱动力。Sam透露,这条路并非一帆风顺,他们也曾走过弯路(比如一个代号“Orion”的过于庞大笨拙的模型),但总体上,进步的曲线是“惊人地平滑”的。 产品:纯粹的科学进步如果不能交到用户手中,就无法与社会共同进化。打造像ChatGPT这样被大众喜爱的产品,同样至关重要。 一场社会实验:我们共同的责任 当一个研究员对模型性格做出一个微小的调整,就可能影响全球数十亿次的对话时,Sam感受到了前所未有的敬畏和责任感。“这股力量太庞大了,它发生得太快了。”...

August 11, 2025 · 1 min · fisherdaddy

OpenAI 联创 Greg Brockman 深度访谈:从数学神童到 AGI 掌舵者,我们该如何构建未来?

在 AI Engineer 大会的舞台上,OpenAI的联合创始人兼总裁Greg Brockman坐下来,进行了一场坦诚而深入的对话。这位AI领域的关键人物,平时低调,却在这次访谈中分享了他非同寻常的个人经历、OpenAI背后的故事,以及对技术未来的深刻洞见。这不仅仅是一次访谈,更像是一次与朋友的促膝长谈,充满了有趣的轶事和宝贵的经验。 从数学梦到代码“魔法”:一个意外的开始 你可能很难想象,这位如今在代码世界里呼风唤雨的大神,最初的梦想其实是成为一名数学家。他着迷于像伽罗瓦和高斯这样的天才,梦想着能在长达数百年的时间尺度上做出贡献。“如果我提出的任何东西在我有生之年就被用上了,”他开玩笑说,“那说明它还不够长远,不够抽象。” 然而,命运的转折点来得有些突然。高中毕业后,他写了一本化学教科书,但朋友告诉他:“没人会出版这个的。你要么自己想办法,要么就建个网站吧。”面对自费出版的高昂成本和繁杂工作,他果断选择了后者。 “于是,我猜我得学学怎么做网站了。” 他就这样一头扎进了W3Schools的PHP教程(在场的很多老程序员都会心地笑了)。他做的第一个小东西是一个表格排序插件。当他点击列标题,表格真的按照他脑海中的设想排序时,他感到了一种前所未有的“魔法”。 “数学的奇妙在于,你深入思考一个问题,用一种晦涩的方式(我们称之为‘证明’)写下来,然后可能只有三个人会关心。但编程不一样,你同样用一种晦涩的方式(我们称之为‘程序’)写下来,可能也只有三个人会读你的代码,但所有人都能享受到它带来的好处。你脑海中的想法变成了现实,实实在在地存在于世界上。那一刻,我意识到,这才是我真正想做的事。” 对百年时间尺度的执念,瞬间被创造的即时快感所取代。他只想去“构建”(build)。 辍学加入Stripe:挑战极限的“24小时奇迹” 正是这种构建的热情和惊人的天赋,让还在上大学的Greg收到了Stripe的冷启动邮件。当时,Stripe还只是一个三個人的“庞大”公司。通过哈佛和MIT的朋友圈推荐,Stripe找到了这位在两所顶级学府都留下过足迹的“双料红人”。 Greg回忆起与Stripe创始人Patrick Collison的第一次见面,那是个风雨交加的夜晚,两人一见如故,彻夜畅聊代码。他立刻感觉到:“这就是我一直想合作的那种人。”于是,他毅然从MIT辍学,飞往了加州。 早期的Stripe远比外界想象的要艰难。一个流传甚广的“都市传说”是Stripe工程师会帮客户上门安装代码,虽然这只发生过寥寥几次,但它背后“客户至上”的精神是真实的。Greg分享了一个更惊心动魄的故事: 当时,Stripe急需从原有的支付后端迁移到富国银行(Wells Fargo),但银行方面表示,技术对接通常需要9个月。对于一家初创公司来说,9个月简直是天方夜谭。 “我们不能等,”Greg说。于是,他们把这次技术对接当成了一次大学里的“期末冲刺”。 24小时内,整个团队像解题一样分工合作:Greg负责实现所有功能,John Collison从上到下写测试脚本,Daryl从下往上验证。 第二天早上,他们与银行的认证人员通话,第一次测试失败了。对方习惯性地说:“好的,那我们下周再聊。” Patrick则像个出色的“拖延大师”,在电话里不停地找话题,为Greg争取宝贵的调试时间。就在那通电话里,他们调试了5轮代码。 虽然最终还是失败了,但对方被他们的执着打动,破例在两小时后给了他们第二次机会。这一次,他们成功了。 “就因为我们没有接受那些所谓的‘常规流程’,”Greg总结道,“我们在短短几个小时内,完成了正常情况下需要六周才能完成的开发工作。” 他认为,这种从第一性原理出发,敢于挑战那些不再适用于当今环境的“无形约束”,是创业和创新的关键所在。 点燃AGI之火:从图灵的“孩童机器”到深度学习的春天 早在2008年,Greg就读了艾伦·图灵1950年的那篇奠基之作《计算机器与智能》。最让他震撼的,不是“图灵测试”本身,而是图灵提出的一个超前构想: “你永远无法为智能写下所有的规则。但如果你能创造一个像人类孩童一样学习的‘孩童机器’(child machine),然后通过奖励和惩罚来教育它,它最终就能通过测试。” 这个想法深深地吸引了他:一台能够自己理解和解决问题,甚至超越人类程序员理解能力的机器。这感觉才是解决人类重大问题的根本之道。然而,当他兴冲冲地去找一位NLP教授时,对方却递给他一堆“语法分析树”(parse trees),这让他感到理想与现实的巨大差距,一度陷入了“绝望之谷”。 直到深度学习的浪潮袭来。 2012年的AlexNet在ImageNet竞赛中一鸣惊人,一个相对通用的学习机器,用卷积神经网络,轻松击败了计算机视觉领域几十年的研究成果。很快,这个“魔法”开始在NLP、机器翻译等各个领域复现,打破了不同学科间的壁垒。 “那一刻,我意识到,这就是图灵所说的那种技术。”Greg说。 他发现,神经网络的核心思想可以追溯到1943年,而那些在“AI寒冬”中被嘲笑为“只会堆砌更大计算机”的研究者,恰恰做对了事情。“是的,”他笑着说,“这正是我们所需要做的。” 所有因素都已具备,现在,只需要去构建。 构建OpenAI:当工程师文化遇上学术研究 在2022年,Greg曾写道:“现在是成为ML工程师的时代。”他坚信,优秀的工程师与优秀的研究员对未来的贡献同等重要。这种“研究与工程并重”的理念,从一开始就根植于OpenAI的文化中。 但他坦言,融合两种文化并不容易。 工程师习惯于清晰的接口(interface),认为只要接口不变,背后的实现可以随意更改。 研究员则不然,因为模型性能的细微下降可能来自系统任何地方的bug,他们必须理解整个系统,接口的抽象在他们看来并不可靠。 这种思维差异曾导致项目停滞不前。最终,他们摸索出了一种合作模式,其核心是Greg所强调的“技术谦逊”(Technical Humility)。 “对于加入OpenAI的工程师,我总会说,你带着宝贵的技能而来,但这和传统的Web创业公司是完全不同的环境。最重要的事情是,带着谦逊的心态,去倾听、去理解,直到你真正明白‘为什么’。在那之后,你再去做出改变,重构架构,改进抽象。” 这种互相尊重、深度融合的伙伴关系,最终成为了OpenAI强大创新能力的基础。 发布幕后:从“心流编程”到AGI时代的开发新范式 1. 疯狂的发布日 无论是ChatGPT还是最新的GPT-4o,OpenAI的每次发布都像一场风暴。ChatGPT在5天内吸引了100万用户,而GPT-4o的图片生成功能更是在5天内吸引了1亿用户。 “我们原本以为ChatGPT需要等到GPT-4发布才能火起来,”Greg透露,“结果我们大大低估了用户们的热情。” 面对远超预期的流量,他们做出了一个艰难但必要的决定:从研究团队那里临时抽调大量算力来支持线上服务。“这相当于抵押了未来,”他说,“但如果你能让用户体验到魔法,这一切都是值得的。” 2. “心流编程”与未来 在GPT-4的发布会上,Greg现场演示了让模型根据一张手绘草图生成网站代码,这个“心流编程”(vibe coding)的时刻让世界第一次直观感受到了AI编程的魔力。(一个有趣的彩蛋是:那张草图是他妻子画的,因为他自己的字迹连AI都识别不了。) 他认为,“心流编程”只是一个开始,它代表着一种赋权。未来,AI编程将朝着更强大的“智能体”(Agentic)方向发展。我们不再只是与AI进行交互式编程,而是可以部署成千上万个AI智能体,像管理同事一样管理它们,让它们在云端自主完成任务。 3. AI如何重塑我们的编码方式? 在Greg看来,Codex等AI编程工具正在深刻地改变我们组织代码的方式。过去,我们的代码库是为人类的优势而设计的;未来,我们需要为模型的优势而设计。 这意味着: 更小的模块化:将代码拆分成更小、功能单一的模块。 完善的测试:编写可以被快速、频繁运行的测试用例。 清晰的文档:让模型能够理解每个模块的作用。 “这听起来就像是优秀的软件工程实践,对吧?”他说,“只是过去我们因为人力成本高而常常“偷懒”。现在,模型会比你多运行成千上万次测试,所以这些‘好习惯’变得前所未有的重要。” 从某种意义上说,我们应该像为初级开发者构建代码库一样,来最大化AI的效能。 4. 迎接AGI时代的开发新范式 NVIDIA创始人黄仁勋(Jensen Huang)也通过视频提出了一个问题:当AGI时代来临,开发者的工作流会发生怎样的变化?...

August 11, 2025 · 1 min · fisherdaddy