AI 巨头牌局:当算力成本与价值捕获成为新的战场

本文来自于 A16Z 组织的一场圆桌论坛,本期节目中,Dylan Patel(SemiAnalysis 创始人兼首席执行官)将与 Erin Price-Wright(a16z 普通合伙人)、Guido Appenzeller(a16z 合伙人)以及主持人 Erik Torenberg 一同深入探讨 AI 芯片、数据中心和基础设施战略的现状。以下是视频精华。 “淘金热里,最先赚钱的永远是卖铲子和镐头的人。” 这句老话在今天的人工智能(AI)浪潮中,显得再贴切不过了。当我们谈论AI革命时,我们实际上在谈论一场由硬件、数据中心和芯片主导的军备竞赛。英伟达(Nvidia)已经成为地球上最有价值的公司,而AI云服务的IPO也屡创新高。这盘棋,远比我们想象的更复杂。 OpenAI的新算盘:从追求极致智能到精打细算 最近OpenAI发布的GPT-4o(被许多人戏称为GPT-4.5或GPT-5的预览版),让不少重度用户感到一丝“失望”。为什么?因为感觉模型不再像以前那样“深度思考”了。过去,像o1、o3这样的模型,可能会花上30秒甚至更长时间来处理一个复杂问题。而现在,即使开启“思考模式”,GPT-4o的响应时间也大大缩短,平均只有5到10秒。 这背后其实是OpenAI战略上的一次重要转向:从不计成本地追求智能,转向更高效、更经济的算力分配。 新模型的核心,是一个叫做**“路由器(Router)”**的机制。当你提出一个问题时,这个路由器会智能地判断: 这是个简单问题吗? 比如“天空为什么是蓝色的?”,那就交给轻量级的Mini模型,成本极低。 这是个需要深度思考的复杂问题吗? 那就调用更强大的“思考模型”。 用户是不是快没额度了? 也许可以降级到更基础的模型。 说白了,OpenAI现在能像一个精明的管家一样,动态地决定为你的每一次提问分配多少算力。这不仅极大地提升了他们的基础设施容量,更关键的是,为未来的商业模式铺平了道路。 过去,AI公司很难从免费用户身上赚钱,因为在对话中插广告会严重破坏用户体验。但有了路由器,一切都不同了。想象一下: 低价值查询:用户问作业题,用普通模型回答,成本可控。 高价值查询:用户问“我附近最好的律师是谁?”或者“帮我预订下周去纽约的机票”,路由器会立刻调用最顶级的模型和智能体(Agent),去搜索、比较、甚至完成预订。 在这种模式下,OpenAI可以从交易中抽取佣金,从而将免费用户转化为高价值的收入来源。这不仅仅是技术上的优化,更是商业模式上的一次“核聚变”。成本和性能的平衡,已经取代了单纯的跑分,成为了模型竞争的新战场。 英伟达的王座:价值捕获的终极赢家 聊完模型,我们必须把目光投向这一切的基石——英伟达。它的股价今年势如破竹,但未来的路会怎么走? 需求端依然火热。可以粗略地把英伟达的芯片需求分成三块: AI实验室:像OpenAI和Anthropic这样的公司,消耗了大约30%的芯片,用于训练下一代大模型。 广告与推荐系统:Meta、字节跳动等公司,为了优化广告投放,同样是芯片采购大户,这部分也占了大约三分之一。 其他玩家:剩下的三分之一,流向了各种云服务商和初创公司,其中不乏一些尚未找到稳定商业模式的“非经济性”买家。 目前来看,第一和第二部分的需求仍在增长,但真正有趣的是一个被称为“价值捕获”的问题。 一个有趣的现象是,AI已经创造了巨大的社会价值,但模型公司本身却很难将这些价值完全转化为收入。比如,一个四人开发团队,利用AI工具能自动化处理海量数据,创造出巨大的商业价值,但他们为此支付给模型公司的API费用却微乎其微。OpenAI可能连自己创造价值的10%都没能捕获到。 然而,作为“卖铲人”的英伟达,却稳稳地抓住了价值。AI软件开发能为全球GDP带来数万亿美元的增长潜力,这些价值最终都会层层传导,转化为对GPU的需求。 挑战者们的困境:一场注定艰难的“越级打怪” 既然英伟达这么赚钱,难道没人能挑战它吗?当然有,但这条路异常艰难。 1. 内部玩家:谷歌、亚马逊的定制芯片 谷歌的TPU、亚马逊的Trainium、Meta的MTIA,这些云巨头们都在大力发展自己的定制芯片。他们的优势在于: 拥有“ captive customer ”(专属客户):就是他们自己。芯片造出来不愁销路。 目标是压缩成本:他们不需要对外销售产生利润,只要能降低内部的算力成本,就是巨大的成功。 目前来看,谷歌的TPU利用率很高,而亚马逊的Trainium也随着Anthropic的使用逐渐成熟。这确实是英伟达面临的最大威胁之一。甚至有人提出,既然英伟达的市值已经超过了谷歌,谷歌为什么不干脆把TPU拿出来公开销售呢?这在理论上完全可行,但需要谷歌进行一次彻头彻尾的文化和组织架构重组,难度极大。 2. 外部玩家:芯片初创公司的“5倍定律” 市面上涌现了无数AI芯片初创公司,比如Etched、Revos、Grok、Cerebras等等,他们获得了数十亿美元的投资。但他们面临的挑战,比云巨头们大得多。 他们无法像云巨头那样只为自己服务,必须在公开市场上与英伟达竞争。而英伟达几乎在所有方面都占尽优势: 供应链:能最先拿到台积电的先进工艺、SK海力士的HBM内存,甚至在网线、机架等方方面面都有更强的议价能力。 生态系统:CUDA软件生态已经形成了一道深深的护城河。 迭代速度:每年都在快速推出性能更强的产品。 这就意味着,任何挑战者要想脱颖而出,就必须拿出比英伟达好上5倍的产品。为什么是5倍?因为你即使在架构上实现了5倍的理论优势,经过供应链成本、软件开销、市场营销等层层损耗,最终可能只剩下50%的实际优势。而这时,英伟达只要稍微压缩一下自己75%的毛利率,就能轻松抹平你的这点优势。 更要命的是,这是一个“移动靶”。当你花几年时间,针对当前的Transformer模型设计了一款完美的芯片,结果模型本身又进化了,变得更适合在英伟达的通用GPU上运行。这种“硬件软件协同进化”的循环,让专用芯片的赌注风险极高。 基础设施的瓶颈:当美国为电发愁 这场竞赛还有一个关键的制约因素:电力和数据中心。 在美国,AI的发展正面临着严重的电力瓶颈。这并不是说电费有多贵,而是电网容量、变电站建设、输电线路铺设这些基础设施的建设速度,远远跟不上AI算力的增长需求。谷歌、Meta等公司手上有大把已经买好的芯片,却因为数据中心没建好、电力没到位而闲置。为了抢时间,他们甚至开始搭建临时的“帐篷式”数据中心。 相比之下,中国拥有强大的基建能力,电力不是问题。但他们受限于无法获得最顶尖的AI芯片。即便如此,中国公司依然在想尽办法,比如在海外租用GPU云服务,或者通过新加坡等地的公司在海外建设数据中心。 这个现象揭示了AI竞赛的另一个层面:它不仅仅是公司之间的竞争,更是不同国家在基础设施、供应链和资本投入上的全面较量。 给科技巨头们的“逆耳忠言” 最后,不妨开个玩笑,如果能给这些科技巨头的CEO们提点建议,会是什么呢? 给英伟达的黄仁勋:你手握千亿现金,别只想着股票回购。利用这笔巨款,深入投资基础设施层,去加速整个生态的建设。这不仅能巩固你的王座,还能创造更大的市场。 给谷歌的皮查伊和布林:别再那么“佛系”了!把你们的TPU拿出来卖,把XLA软件栈彻底开源。你们正在流失最顶尖的人才,而搜索业务的根基正被AI动摇。再不拿出破釜沉舟的勇气,就晚了。 给Meta的扎克伯格:你对AI的愿景很宏大,但要更快地落地成产品。别只守着自己的社交花园,大胆地走出去,推出能和ChatGPT、Claude正面竞争的产品。 给苹果的蒂姆·库克:醒醒!计算的交互界面正在从“触摸”转向“AI”,这会从根本上颠覆你的生态。Siri已经落后太多了,再不投入数百亿美元到基础设施和模型研发上,苹果的护城河会越来越窄。 给微软的纳德拉:你们拥有全球最强的企业销售团队,但产品力却在下滑。GitHub Copilot起了个大早,却赶了个晚集;自家的AI产品反响平平;对OpenAI的掌控力也在减弱。是时候把重心从销售拉回到产品上了。 给特斯拉/xAI的埃隆·马斯克:你吸引顶尖人才的能力无人能及,但一些冲动的决定正在伤害你的公司和项目。少一些随性的决策,多一些对产品的持续专注,你的帝国会更稳固。 这场AI的牌局还远未到终局。战况瞬息万变,曾经的性能王者开始精打细算,沉默的基建狂魔手握重金,而挑战者们则在一条异常崎岖的道路上奋力追赶。谁能笑到最后,不仅取决于技术上的突破,更取决于在经济、生态和战略上的远见卓识。我们正亲眼见证一个时代的诞生。

August 20, 2025 · 1 min · fisherdaddy

Sam Altman 独家专访:OpenAI 的万亿计划、收购 Chrome 野心与 AI 的未来

本文翻译自 Theverge 对 OpenAI CEO Sam Altman 的专访,核心内容围绕近期 GPT-5 发布的争议、公司的强劲增长以及 OpenAI 未来的宏大规划。 主要内容 承认发布失误,积极应对用户反馈:Sam Altman 坦诚地承认公司在 GPT-5 的发布过程中存在失误,尤其是在替换掉旧模型 4o 的决策上,并表示公司已迅速采取措施回应用户的不满。 增长势头依旧迅猛:尽管存在一些负面反馈,但 OpenAI 的各项核心指标,如 API 流量和 ChatGPT 用户数,仍在发布后创下新高,显示出产品的强大吸引力。 未来愿景远超语言模型:Altman 的目标远不止于改进 ChatGPT,他正积极规划将 OpenAI 的业务扩展到消费硬件、脑机接口、社交媒体等多个前沿领域,并有筹集巨额资金建设数据中心的宏伟计划。 关注产品的社会影响:OpenAI 已经注意到并开始内部讨论用户可能与 ChatGPT 产生不健康关系的问题,尽管 Altman 认为这部分用户占比极小。 关键细节 关于 GPT-5 的发布争议: 在收到用户于 Reddit 和 X 等社交平台上的抗议后,Altman 亲自决定,迅速为付费订阅者重新提供了旧版模型 4o 的选项,以恢复用户偏爱的“温暖感”。 Altman 直言:“我认为我们在发布过程中完全搞砸了一些事情。” 惊人的增长数据: GPT-5 发布后的 48 小时内,OpenAI 的 API 流量翻了一番。 公司目前面临 GPU 资源耗尽的状况。 ChatGPT 的日活跃用户数每天都在创下历史新高。 OpenAI 的未来蓝图: 业务扩张:计划进军消费硬件 (consumer hardware)、脑机接口 (brain-computer interfaces) 和社交媒体 (social media) 领域。 潜在收购:Altman 表示,如果美国政府迫使 Google 出售其浏览器业务,他对收购 Chrome 感兴趣。 基础设施建设:他希望筹集数万亿美元用于建设未来的数据中心。 关于用户关系:...

August 19, 2025 · 2 min · fisherdaddy

AI 正在“吃掉”互联网,而内容创作者却颗粒无收?Cloudflare CEO 揭示背后的危机与反击战

本文来自于 Alex Kantrowitz 对Cloudflare CEO Matthew Prince 的访谈,以下是视频精华。 我们正处在一个奇怪的十字路口。一方面,生成式AI以前所未有的速度为我们提供答案、生成内容,带来了极大的便利;另一方面,这些AI模型的“饲料”——也就是整个互联网上由无数创作者辛辛苦苦生产的内容——正在被无偿地、大规模地吞噬。 这个正在悄然改变互联网底层逻辑的现象,已经引起了网络安全巨头Cloudflare的警觉。其联合创始人兼CEO,Matthew Prince,最近便站了出来,详细剖析了这场危机,并宣布了一项旨在“纠正航向”的大胆计划。 互联网的“旧契约”正在失灵 过去三十年,互联网内容生态的运转依赖于一个不成文的“契约”,特别是以谷歌为代表的搜索引擎所建立的模式: 创作者发布内容。 搜索引擎抓取内容,并将其编入索引。 用户搜索,搜索引擎提供链接,将流量导向创作者的网站。 在这个模式下,创作者通过获得的流量,可以通过三种方式变现: 付费订阅:卖内容本身。 广告:卖用户的注意力。 精神满足:知道有人在看自己的作品,获得影响力。 这个“我让你抓取,你给我流量”的交易,是整个网络内容生态繁荣的基石。 然而,AI的崛起正在打破这个平衡。当你在AI聊天框里输入问题,它不再是给你十个蓝色链接让你自己点击,而是直接生成一个综合性的答案。这听起来很棒,对吗?但问题随之而来:用户得到了答案,就不会再去访问原始的内容来源了。 没有了访问量,创作者就无法再卖订阅、挂广告,甚至连自己的内容是否被使用了都不知道。Matthew Prince一针见血地指出:“如果创造内容的激励消失了,那么在AI驱动的未来,谁还会去创造内容呢?” 温水煮青蛙:正在恶化的数据 你可能会觉得,这个问题以前就有了。谷歌搜索结果页面的“答案框”不也是直接给答案吗?没错,这正是问题所在。Matthew Prince用Cloudflare掌握的十年数据,描绘了一幅“温水煮青蛙”的图景: 十年前:谷歌抓取2次网页,就能为网站带去1次点击。 半年前(AI Overviews推出前):由于“答案框”的普及,这个比例恶化到了抓取6次,才带来1次点击。 现在(AI Overviews推出后):这个数字飙升到了抓取18次,才有1次点击! 获取流量的难度在十年间增加了近10倍。而这还只是谷歌。如果你觉得这已经够糟了,看看新生代的AI公司: OpenAI:平均要抓取 1500页 内容,才会给你带去1次点击。(获取流量的难度是十年前谷歌的750倍) Anthropic:这个数字更是达到了惊人的 60,000页 换1次点击。(难度是30,000倍) 这不仅仅是流量损失的问题。每一次AI爬虫的抓取,都在消耗网站的服务器资源,这些都是内容发布者真金白银的成本。维基百科等网站就已经公开表示,AI爬虫导致他们的服务器成本指数级增长,而这些都不是人类访客。 “这就像,AI公司拿走了你的面包去喂养他们的金鹅,不仅没付钱,连你做面包的面粉钱都让你自己掏。” 别以为这只是内容创作者的烦恼 有人可能会说,这是市场演进的必然结果,更好的用户体验就该胜出。Matthew Prince并不反对AI是未来的趋势,他反而坚信AI将成为互联网未来的主要交互界面。但他提出了一个更深层次的担忧: “所有这些AI系统赖以运行的燃料,正是那些原创内容。如果我们扼杀了这些内容的商业模式,我们最终也会扼杀AI系统本身。” 他用了一个生动的比喻:每个大语言模型都像一块瑞士奶酪(Swiss Cheese),虽然看起来很完整,但里面充满了大大小小的知识空洞。而高质量的原创内容,就是用来填补这些空洞的。 如果未来网络上充斥的都是AI生成、相互借鉴的二手内容,就像迈克尔·基顿的老电影《丈夫一箩筐》(Multiplicity)里那样,每一次复制都会让质量变得更差。最终,AI模型将因为缺乏新鲜、高质量的“养料”而变得“愚蠢”,陷入一个自我循环的怪圈。 是走向“美第奇时代”,还是让机器人为知识付费? 如果放任现状发展下去,未来会是怎样?Prince描绘了一种颇具“黑镜”色彩的反乌托邦景象: 我们可能不会看到内容创作的消亡,而是会退回到类似文艺复兴时期的**“美第奇时代”**。届时,世界上可能只剩下几家巨型AI公司,它们各自雇佣一批记者、研究员和学者,成为知识的赞助人和唯一权威。一家可能是“保守派AI”,另一家是“自由派AI”。所有知识的生产都将整合到这些巨头内部,独立的声音将不复存在。 这显然不是我们想要的未来。互联网的魅力在于其信息的民主化和多元化。 因此,Prince提出了一个充满理想主义色彩的愿景: “在我的乌托邦未来里,机器人应该为内容付一大笔钱,而人类应该再次免费获取内容。” 因为机器人每一次抓取内容,都是在为成千上万甚至数百万的人类用户服务,理应为此付费。 技术反击:不只是屏蔽,更是构建一个新市场 空谈无益,Cloudflare已经采取了行动。他们意识到,传统的robots.txt协议(网站用来告知爬虫哪些内容不应抓取的君子协定)已经不够用了,因为它既可以被无视,也不够精细。 Cloudflare的解决方案分为两步: 筑起高墙:从7月1日开始,Cloudflare为客户提供了一项新功能,默认屏蔽已知的AI爬虫访问那些带有商业意图的页面(比如有付费墙或挂有广告的页面)。这不再是君子协定,而是真正的技术壁垒。 开启市场:他们重新启用了互联网协议里一个长期被忽视的状态码——402 Payment Required (需要付款)。当AI爬虫试图访问被保护的内容时,它会收到这个响应,从而开启一个协商和交易的可能性。 这个机制旨在创造一个市场: 大型玩家可以像Reddit、纽约时报已经做的那样,与AI公司达成大规模的内容授权协议。 小型创作者也可以动态地为自己的内容定价。Cloudflare可以帮助评估某条内容对特定AI模型的价值(比如填补了哪个“奶酪洞”),AI公司则可以决定是否值得为此付费。也许是一笔几分钱的微交易,也许是一篇独家重磅文章的数百万美元授权。 这个计划得到了包括康泰纳仕(Condé Nast)、《时代周刊》、《大西洋月刊》等众多主流出版商的支持。他们一同按下了象征性的红色按钮,开启了这场反击战。 未来的路与未解的谜题 当然,这个方案也面临挑战。比如,会不会影响网站的SEO?Matthew Prince表示,他们正与各方合作,推动robots....

August 18, 2025 · 1 min · fisherdaddy

代码诗人 DHH:我们是如何把简单的网页开发搞得一团糟的?

在科技圈,David Heinemeier Hansson(更广为人知的名字是DHH)是一个传奇。他是著名Web框架Ruby on Rails的创造者,是37signals公司的联合创始人和CTO,是《重来》(Rework)等多本畅销书的作者,也是一位在勒芒24小时耐力赛中获得过冠军的赛车手。 DHH以其犀利、坦率且充满激情的观点而闻名。在与Lex Fridman的深度对话中,他从自己坎坷的编程入门经历聊起,一路剖析了现代软件开发的“病症”、Ruby语言的美学、37signals独特的经营哲学,以及他为何不惜与苹果和亚马逊云这样的巨头“开战”。 这不仅仅是一次技术访谈,更像是一场关于代码、商业与人生的哲学思辨。 一段“屡败屡战”的编程缘起 你可能很难想象,这位编程界的“大神”,最初学编程时却是个不折不扣的“学渣”,而且失败了不止一次。 故事的开端,是上世纪80年代风靡一时的Commodore 64电脑。五六岁的DHH,在邻居家孩子的房间里,第一次玩到了格斗游戏《Yie Ar Kung-Fu》。那块小小的屏幕仿佛有魔力,让他着了迷,他缠着父亲也想要一台电脑。 终于有一天,父亲带回一台电脑,但并不是他心心念念的Commodore 64,而是一台让他大失所望的Amstrad 464。不过,有总比没有好。很快,自带的两款游戏就不够玩了。那个年代,想玩更多游戏又不花钱,最“硬核”的方式就是——照着电脑杂志自己把代码敲进去。 小DHH花了无数个下午,对着杂志敲了两小时代码,结果往往因为一个拼写错误,整个程序就崩溃了。更要命的是,他当时完全搞不懂“变量”(variable)到底是个什么鬼。为什么一个东西被赋予了一个值,之后又可以变成另一个值?这太反直觉了!相比之下,“常量”(constant)对他来说就好理解多了。 第一次尝试,以失败告终。幸运的是,他很快发现了“盗版”这个神奇的东西,对编程的热情也就暂时被搁置了。 几年后,大概十一二岁时,DHH拥有了或许是他至今最爱的电脑——Amiga 500。这台在欧洲风靡一时的机器,以及一个名为“Easy AMOS”(简单的AMOS)的编程语言,再次点燃了他的编程梦。“既然都叫‘Easy’了,能有多难呢?”他心想。 这一次,他更努力了,学会了条件判断、循环,但最终还是没能做出一个像样的游戏。他开始怀疑自己是不是不够聪明,或者编程需要太多数学天赋,而他并不是那种“数学怪才”。看着朋友们用汇编语言在Amiga上创造出炫酷的Demo(一种结合了图形、音乐的演示程序,在极小的内存限制下展示编程技巧),他既敬佩又沮丧。 那个年代,在没有互联网的欧洲,Amiga的Demo场景异常火爆。成千上万的年轻人,会扛着自己笨重的CRT显示器和电脑,坐火车去参加名为“The Party”的大型线下聚会,现场编程、竞赛、交换软盘。DHH也曾是其中的一员,尽管他自己不会编程,但他深深地被那种创造氛围所吸引。 为了融入这个圈子,14岁的DHH在自己哥本哈根的小卧室里,拉了三条电话线,搞起了BBS(电子公告板系统)。这在当时既是Demo作品的交流中心,也是盗版软件的集散地。他回忆,当电话公司的技术员来装第三条电话线时,看着满屋子闪烁的调制解调器,脸上写满了困惑:“这孩子到底在搞什么鬼?” 他的父母对此也只是知其一二,并不完全理解其中的“非法交易”。在当时的丹麦,盗版似乎并不是什么道德问题,对于一个没钱又想玩大量游戏的孩子来说,这几乎是唯一的方式。毕竟,他送一个月报纸挣的钱,只够买一款正版游戏。 真正的转折点,发生在他接触到互联网之后。 1995年左右,学校组织的一次活动让他第一次用上了网景浏览器(Netscape Navigator)。当他用简单的HTML标签让网页上的文字闪烁起来时,那种即时反馈的成功体验,与之前编程屡屡受挫的经历形成了鲜明对比。他意识到,他可以在互联网上创造东西,全世界的人都能看到,而且不需要任何人的许可。 “这太酷了!” HTML为他打开了一扇门,随后他开始学习PHP。正是PHP,让他终于贯通了编程的任督二脉——变量、循环、数据库交互,一切都变得清晰起来。 我们是如何把开发搞得一团糟的? “可以说,没有PHP,就没有今天的DHH。”DHH毫不讳言,“我百分之百亏欠于PHP。” PHP不仅是他的启蒙老师,更为他树立了一个关于“开发者体验”的黄金标准。他至今仍在怀念90年代末用PHP开发网站的感觉: 你写好一个脚本,用FTP上传到服务器,刷新一下浏览器,它就立刻生效了。没有复杂的构建流程,没有繁琐的配置,几乎是零门槛。 我们今天的电脑比那时快了无数倍,但Web开发却似乎变得越来越复杂。这让他感到困惑和惋惜。 他尖锐地指出,许多Web应用,本质上和20年前没什么区别,核心仍然是围绕数据库的增删改查(CRUD - Create, Read, Update, Delete)。许多开发者内心深处对这种“CRUD猴子”的身份感到不安,为了补偿这种存在主义的恐慌,他们倾向于把事情过度复杂化。 这也是为什么DHH对过去十几年JavaScript社区的“军备竞赛”颇有微词。他并不讨厌JavaScript这门语言本身(他甚至开玩笑说这是他第二喜欢的语言,虽然和第一名Ruby差距巨大),但他厌恶的是那套复杂的构建流程。 从2010年到2020年,JavaScript社区简直像个精神病院。各种框架和工具层出不穷,你刚学会一个,三个月后就被告知‘那玩意儿已经过时了’。你不得不扔掉所有东西,从头再来,否则你就是个傻瓜。 他认为,这种疯狂的“内卷”背后,有几个原因: 浏览器技术停滞:IE浏览器的垄断导致Web标准发展缓慢,开发者不得不发明各种预处理和编译工具来使用现代JavaScript语法。 大公司的组织结构:像Facebook(现Meta)这样的大公司,将开发岗位切分得越来越细(前端工程师、构建流程配置师……),导致原本一个Web开发者能搞定的事,现在需要一个庞大的团队,沟通成本和系统复杂度急剧上升。 优先级错位:许多聪明的开发者和公司涌入Web领域,但他们的首要目标并非“程序员的幸福感”,而是其他商业指标,这让他们可以容忍甚至合理化他们所引入的复杂性。 幸运的是,随着Chrome等现代浏览器的崛起和标准化,我们正走出那个“黑暗时代”。浏览器本身已经足够强大,开发者可以直接编写优雅的现代JavaScript,无需复杂的构建步骤。 这正是DHH在Rails 8中追求“零构建”(No-Build)的初衷——试图将90年代的简单便捷与过去20年的技术进步结合起来,找回开发者最初的幸福感。 Ruby的福音:为程序员幸福而生的语言 如果说PHP是让DHH入门的工具,那么Ruby就是他的信仰和“真爱”。 2001年,DHH开始和远在芝加哥的Jason Fried(他未来的合伙人)远程合作。他们最初用PHP做项目,但在协作中遇到了很多麻烦。终于,在决定为自己公司开发一款名为Basecamp的项目管理工具时,DHH第一次拥有了完全的技术选择权。 那时,他通过《IEEE》杂志等渠道,读到了Martin Fowler和Dave Thomas等大师的文章。这些大师在阐述设计模式时,不约而同地使用Ruby作为示例代码,因为它简洁、优雅,几乎就像伪代码一样易于阅读。 DHH被这种语言的美感深深吸引,他决定花两周时间尝试用Ruby来构建Basecamp的原型。结果,只用了一个周末,他就彻底“入教”了。 “Ruby就像是为我的大脑量身定制的手套,我从未见过这样的语言。这怎么可能?” Ruby的美学和哲学体现在每一个细节上。DHH举了几个例子来阐释这种“为程序员幸福而生”的设计理念: 消除“代码噪音”: 没有分号:Ruby抛弃了C语言家族中无处不在的分号,因为人类阅读代码时根本不需要它。 可选的括号:如果方法调用没有歧义,括号也可以省略。 清晰的循环:5.times { ... } 这样的语法,将循环五次的意图表达得淋漓尽致,而且数字5本身就是一个可以调用方法的对象。 人性化的条件判断: if user....

August 18, 2025 · 1 min · fisherdaddy

“我们有点被吓到了”:OpenAI科学家揭秘AI进步的真实速度与未来

当我们在谈论人工智能(AI)时,我们到底在谈些什么?是那些不断被刷新的基准分数,还是那些听起来遥远又模糊的术语,比如通用人工智能(AGI)? 在一期 OpenAI 的播客中,公司的首席科学家Jakub Pachocki和研究员Szymon Sidor坐下来,分享了一些来自一线的、不那么广为人知的看法。他们不仅聊了聊如何衡量AI的真正进步,还透露了一些让他们自己都感到“有点被吓到”的内部故事。有趣的是,这两位顶尖的AI研究者,其实是来自波兰同一所高中的校友。 一切始于波兰的一间教室 Jakub和Szymon的缘分,始于一位名叫Ryszard Dubrawski的计算机科学老师。这位老师对编程竞赛和追求极致的热爱,深深地影响了他们。在那个还不存在ChatGPT的年代,想要深入学习图论、矩阵这些远超高中课程的知识,一位好的导师和极大的热情是必不可少的。 “他(老师)能提供的情感支持和空间,是AI很难单独做到的,”Jakub回忆道。这或许也回答了那个老问题:AI会取代老师吗?答案可能是否定的。AI可以成为一个强大的教学伴侣,帮助老师创造出互动式的“蒙提霍尔问题”演示,但它无法替代老师内心的关怀和信念。一个好老师,即使偶尔记错事实,他的热情和鼓励也足以点亮学生的世界。 AGI到底是什么?我们该如何衡量? 几年前,AGI还是一个听起来很抽象、很遥远的概念。但现在,情况已经大不相同。 Jakub解释说,我们曾经模糊地认为“能自然交谈”、“能解决数学难题”、“能做科学研究”都差不多是同一回事。但随着技术的发展,我们发现这些其实是相当不同的能力。如今的AI,无疑已经能就广泛的话题进行自然对话,也刚刚跨过了那个被讨论已久的里程碑——在国际数学奥林匹克(IMO)竞赛中获得金牌。 然而,这些“单点”的衡量标准正变得越来越不够用。为什么? 基准饱和了:在很多标准化测试上,模型已经达到了顶尖人类的水平。当一个模型能在全球顶尖学生参与的竞赛中名列前茅时,用这种方式再来衡量它的进步就变得很困难了。 模型可以“偏科”:现在的技术可以训练出一个在数学上表现超群、但在写作上可能平平的模型。它在数学基准上得分很高,但这并不完全代表它的“整体智力”。一个好的“考生”不一定是一个有用的“同事”。 那么,什么才是更有意义的衡量标准?Jakub提出了一个更宏大的视角:AI自动化科学研究和技术发现的能力。 “当我思考AI如何真正深刻地影响世界时,我首先想到的是它自动化发现和生产新技术的潜力……我们习惯于将新思想、基础技术进步与人类的创造力联系在一起。但要真正理解‘一个大型计算机能够提出颠覆我们对世界理解的想法’这件事,其实是相当困难的。而我认为,我们离那一天并不遥远。” “AI正在放缓”?十年来的惊人飞跃 你可能看到过一些新闻标题,说AI对经济的贡献只有3%,然后评论区就会有人说“AI被过度炒作了”或者“AI的发展撞墙了”。 每当看到这些,Szymon都会回想起十年前的经历。那时他正在研究自然语言处理,但模型的效果可以说是一塌糊涂。 “Jakub来测试我们当时的技术,一个情感分析模型,” Szymon笑着说,“输入‘这部电影很烂’,模型正确识别为负面。输入‘这部电影很好’,正确识别为正面。然后他输入‘这部电影还不赖’(This movie is not bad),模型回答:‘哦,负面。’” 这就是十年前的起点。从那时起,我们经历了GPT-2能写出连贯的段落(当时这感觉像个奇迹!),到GPT-4的出现——Szymon称之为他“个人的AGI时刻”,因为它有时会说出让他都感到惊讶的东西。再到如今,模型可以在编程竞赛中与顶尖人类选手一较高下。 “所以当你看到那个3%的数字时,” Szymon强调,“我告诉你,十年前这个数字可能是0.00001%。从这个角度看,我们没有理由不相信,一年后它会是10%,两年后是20%。” 进步的速度快得惊人。Szymon坦言,当他们第一次在内部看到“推理能力”相关的模型取得突破性进展时——也就是让模型花更多时间去“思考”一个问题,而不是立即给出答案——整个团队都受到了巨大的震撼。 “那是一个令人震惊的时刻。我们开始非常、非常严肃地问自己:作为一个组织,我们为这种令人难以置信的快速进步做好准备了吗?我记得有一个晚上11点,我们和Sam(Altman)、Mira(Murati)还在通话,我们……有时真的会被这些结果吓到。” 下一个突破口在哪里? AI的进步并非凭空而来。那么,下一波浪潮会从何而来? 持续的规模化(Scaling):这是AI发展不变的基石。更大的模型、更多的数据,依然是提升能力的核心驱动力。 复合效应:新的技术(比如推理能力)会和规模化产生复合效应,1 > 1 + 1。 模型的“持久性”:这是最令人兴奋的方向之一。想象一下,今天的模型用几秒钟回答你的问题。但如果我们愿意花费多出成千上万倍的计算资源,让一个模型持续工作数小时、甚至数天,去攻克一个真正重要的难题,比如一个医学研究课题,或者设计下一代AI模型本身,会发生什么?这将是通往自动化科学研究的必经之路。 Jakub分享了一个有趣的故事。在日本有一场非常著名的长达10小时的编程竞赛(AtCoder),考验的是选手的持久专注和启发式解决问题的能力。Jakub的朋友兼同事Sihun是一位顶尖选手,他曾开玩笑说Jakub擅长的那种短时竞赛会先被AI自动化。结果,在最近一次比赛中,OpenAI的模型和Sihun展开了激烈角逐。最终,Sihun赢得了冠军,而AI模型拿下了第二名。 人类,暂时还领先一步。但Sihun在赛后精疲力尽,而AI模型,可以不知疲倦地继续跑下去。 给年轻人的建议:在这个时代,你该学什么? 面对一个变化如此之快的世界,今天的年轻人应该怎么做? Jakub和Szymon的建议出奇地一致:去学编程。 “绝对要去学编程,”Szymon斩钉截铁地说,“有一种技能现在是、并且未来将继续是稀缺品,那就是拥有结构化的思维,能将复杂问题拆解成小部分。编程是掌握这种技能的绝佳方式。” 这并不是说你未来一定会成为一个传统意义上的程序员。而是,理解了系统是如何工作的,你才能更好地驾驭它。就像一个优秀的飞行员需要懂空气动力学,一个优秀的“AI使用者”也需要理解其背后的逻辑。 Jakub则分享了自己从一个波兰小城走向硅谷的经历,他鼓励年轻人要敢于打破思维的桎梏,敢于梦想。无论是Paul Graham的《黑客与画家》,还是电影《钢铁侠》,这些看似遥远的东西,都可能成为点燃一个人雄心壮志的火花。 从一间教室里的编程竞赛,到与顶尖人类棋手和程序员的同台竞技,再到那些让开发者自己都心跳加速的深夜突破。AI的故事,远比冰冷的基准数字要精彩和深刻。它关乎的不是机器是否能“通过考试”,而是我们作为人类,将如何利用这股前所未有的力量,去加速探索、创造和理解我们所处的世界。

August 18, 2025 · 1 min · fisherdaddy

与 OpenAI 联合创始人 Greg Brockman 深度对话:揭秘 GPT-5、智能的本质与AGI的未来

本文整理自 Latent Space 对 OpenAI 总裁的访谈,Greg Brockman 谈 OpenAI 通往通用人工智能(AGI)之路,以下为本视频精华。 就在最近,OpenAI像一阵旋风,接连发布了GPT-5和其开源模型GPT-OSS,整个科技圈为之震动。在这场风暴的中心,OpenAI的联合创始人兼总裁Greg Brockman坐下来,与我们进行了一场深度对话。他不仅分享了这些重磅产品背后的故事,更深入地探讨了关于推理、计算、以及人工智能未来的思考。这不仅仅是一次产品发布的复盘,更像是一次对智能本质的哲学探索。 第一章:从“为什么还不是AGI?”到GPT-5的诞生 故事要从GPT-4的诞生说起。当GPT-4训练完成,并经过指令微调后,团队惊讶地发现,它竟然能进行流畅的多轮对话——尽管它从未被专门训练过“聊天”。 “我们当时开了一个研究会议,Ilya、Jakub、Wojciech这些人都在,” Greg回忆道,“我们问了一个核心问题:为什么这个模型还不是AGI(通用人工智能)?” 它能回答你提出的几乎所有问题,但它不够可靠,会犯错,会“跑偏”。这个差距到底在哪?答案指向了一个OpenAI并不陌生的领域:强化学习(Reinforcement Learning, RL)。 模型需要一个能“在现实世界中检验自己想法”的机制。它需要尝试,需要获得反馈,然后变得可靠。这让人想起了2017年的Dota项目,那个项目完全通过强化学习,从一个随机初始化的神经网络,学会了极其复杂和精准的行为。大家意识到,语言模型也需要这种可靠性。 “从GPT-4训练完成的那一刻起,我们就知道,推理(Reasoning)是下一站。” Greg说。团队提出了十几个想法和假设,大部分都失败了。但这就是AI研究的常态:你得对一个方向有坚定的信念,然后不断尝试,即使前十次都失败了,只要有一次成功,就能看到微弱的希望之光,然后不断放大它。 正是这种坚持,经历了无数人的努力和数年的探索,最终孕育出了GPT-5的推理范式。 第二章:计算,智能的“终极燃料” 在整个对话中,Greg反复强调一个核心观点:“瓶颈永远是计算(Compute)。” 他把这个过程描绘成一幅美丽的图景:能量转化为计算,计算最终结晶为智能。 这个过程有点像炼金术。我们投入大量的计算,就像投入燃料,去“塑造”一个神经网络。这个过程的产物——模型,就像一块储存了巨大“势能”的晶体。而最美妙的地方在于,这块晶体可以被反复使用,它的价值会被无数次的调用所摊销。 那么,学习到底发生在哪里?我们正从一个“一次性训练,海量推理”的时代,走向一个“推理-再训练”的循环。Ilya Sutskever曾有一个精辟的观点:当模型能力弱时,它生成的每个token价值很低;当模型能力极强时,它生成的每个token则蕴含着巨大的价值。 强化学习正是利用了这一点。模型通过与现实(或模拟环境)的接触,产生大量的数据,然后从这些数据中学习。与需要海量数据进行预训练不同,RL可以让模型从少数高质量的人类策划任务中,通过成千上万次的尝试,学到非常复杂的行为。 “如果你给我们10倍的计算力,我们会用在哪?”Greg笑着说,“我们总能找到用掉它的地方。” 这就像当年的Dota项目,团队每周都将核心数量加倍,然后眼看着AI的水平一路飙升,直到最后也没撞到真正的“墙”。大多数所谓的“墙”,其实只是工程上的bug或可以优化的细节。 第三章:当AI学会解决“不可能”的任务 如果说计算是燃料,那么“泛化能力”就是引擎的效率。GPT-5的推理能力,已经开始在一些曾经被认为是人类智力巅峰的领域展现出惊人的泛化性。 最典型的例子就是国际数学奥林匹克(IMO)竞赛。OpenAI的模型达到了金牌水平。更让人吃惊的是,同一个核心模型,在几乎没有进行额外针对性训练的情况下,也达到了国际信息学奥林匹克(IOI)竞赛的金牌水平。 “这对我来说简直太疯狂了,” Greg感叹道,“解决IOI曾经是一个宏大的挑战,需要一个大团队。但我们的IMO核心团队其实只有三个人,IOI项目更像是一个几个人的‘副业’。” 这证明了一个深刻的道理:学习如何解决难题,本身就是一种可以迁移的元技能。 学会如何解决复杂的数学问题和编写证明,竟然能直接迁移到解决编程竞赛问题上。 当然,泛化并非没有边界。一个模型如果从未接触过物理实验,它不可能凭空成为物理学家。但即便如此,现有模型的潜力也已远超想象。Greg提到,一些湿实验室的科学家用GPT-3来提出实验假设,五个想法里可能只有一个可行,但那个可行的成果,已经足以发表在“中等水平的学术期刊”上,相当于一个三、四年级博士生的水平。 “这就是GPT-3的水平,而我们清楚地知道在所有维度上改进它的路径。” Greg说,“我们只需要计算、高质量的任务,以及团队倾注心血的爱与劳动。” 第四章:GPT-5时代:智能的飞跃与人机协作新范式 如果说GPT-3是文本时代的开启,GPT-4是多模态和商业化的普及,那么GPT-5的旗舰标签是什么? Greg的回答很简单:“聪明(Smart)”。 GPT-5的智能已经达到了一个新高度,它能够执行“伟大的智力壮举”。它不再只是一个有用的工具,而是一个真正的智力伙伴。 “我曾经尝试教GPT-3排序一个7个数字的列表,无论我怎么用few-shot prompting教它,它都学不会。但现在,我敢肯定GPT-5能轻松完美地完成这个任务,甚至都不用借助它的Python工具。” 专业数学家和物理学家在使用GPT-5后反馈,它能在短时间内重新推导出他们花费数月研究才得到的见解。这正是GPT-5带来的变革:它将成为顶尖科研人员和创造者的“伙伴”,一个可以深入理解你的想法、并在此基础上提出新洞见的不知疲倦的合作者,极大地加速创新的步伐。 如何释放GPT-5的潜力? Greg给出的建议是: 给它难题:不要用简单的聊天来测试它,它在复杂问题上更能展现与旧模型的差距。 成为“智能体管理者”:将大任务分解成多个自包含的小任务,让多个模型实例并行工作,你则扮演管理者的角色。 了解它的“脾性”:像了解一个同事一样,熟悉它的长处和短板,在思考核心难题时,可以把一些非关键路径的、低风险的任务交给它并行处理,不断获得反馈。 第五章:揭开面纱:混合模型、开源与AI的未来 GPT-5的混合模型之谜 GPT-5的一大特点是它是一个“混合模型”,背后有一个路由器(router)根据用户请求的复杂性、意图等因素,自动选择调用“推理模型”或“非推理模型”。 推理模型:更强大,思考更深入,但延迟更高,成本也更高。 非推理模型:速度快,成本低,适合快速、简单的任务。 这种设计,本质上是一种**自适应计算(Adaptive Compute)**的实现。与其强迫用户在几十个令人困惑的模型名称(比如4o, 4-turbo, 0301…)中选择,不如将复杂性内部化,给用户一个简单、统一的入口。这是从“模型切换器是未来”到“集成化体验是未来”的转变。 GPT-OSS:构建美国技术生态 OpenAI为什么要推出开源模型?Greg坦言,这背后有战略考量。当开发者基于你的开源模型构建应用时,他们实际上是在融入你的技术栈。未来当他们需要更强大的能力时,他们会自然而然地转向你的闭源API。 更深层次地,这是为了构建一个以美国技术为核心的生态系统,确保AI的发展与美国的价值观和领导地位保持一致。 连生物学也是一种语言 Greg在Arc Institute的休假期间,研究用神经网络处理DNA。他最震惊的发现是:“它们(DNA和人类语言)完全是一回事!” DNA就像一门外星语言,但对于神经网络来说,人类语言何尝不也是一门需要从零学习的语言?它的词汇表甚至更简单,只有4个字母。团队用字符级(character-level)的方法处理DNA序列,发现其学习规律与语言模型惊人地相似。...

August 18, 2025 · 1 min · fisherdaddy

揭秘 AI 黑箱:Claude 的“大脑”里在想什么?

在 AI 模型进行思考时,其内部究竟发生了什么?为什么 AI 模型会表现出“谄媚”的倾向,又为何会产生“幻觉”?AI 模型仅仅是“被美化的自动补全”功能,还是有更复杂的事情在发生?我们又该如何科学地研究这些问题? Anthropic 拉上了“LLM 可解释团队”的几位研究院举行了一场圆桌:探讨 LLM 内部的思考逻辑,以下为本次圆桌讨论的精华。 当你和像Claude这样的大语言模型聊天时,你有没有想过,你到底在和什么东西对话?一个花哨的自动补全工具?一个聪明的搜索引擎?还是一个……真正会思考,甚至像人一样思考的存在? 一个可能让你有点不安的事实是:没人真正知道答案。 在Anthropic,我们的一群研究员正致力于解开这个谜题。他们所在的团队叫“可解释性团队”(Interpretability Team),工作内容听起来就像科幻小说:打开大模型的“黑箱”,像做神经科学研究一样,观察它在回答你问题时,内部到底发生了什么。 最近,我们和这个团队的三位成员——前神经科学家Jack、前机器学习模型构建师Emanuel,以及前病毒进化研究者Josh——聊了聊,听他们分享了一些关于Claude内部复杂运作的惊人发现。 AI不是代码,更像生物? “我感觉自己现在是在对AI做神经科学研究,” Jack说。 “而我像是在研究一种我们用数学创造出来的生物,” Josh补充道。 用“生物学”或“神经科学”来形容一个软件,听起来是不是很奇怪?但大语言模型(LLM)真不是我们传统意义上的软件。 没人会像写代码一样,给模型设定一条条“如果用户说‘你好’,你就回答‘你好’”的规则。模型的诞生更像一个“进化”过程:它从一个什么都不会的“婴儿”开始,通过学习海量的互联网数据,内部的“神经元”连接在无数次的微调中被不断优化,唯一的目标就是——更准确地预测下一个词。 这个过程和生物进化惊人地相似。最终,模型变得极其擅长完成任务,但它的内部结构已经变得异常复杂和神秘,我们创造了它,却不完全理解它。这正是可解释性团队的工作如此迷人的原因:他们研究的是一个由数据和算法“演化”而来的复杂“生命体”。 “预测下一个词”,只是冰山一角 很多人认为,LLM的本质就是“预测下一个词”。这个说法既对,也极其片面。 研究员Jack打了一个绝妙的比方: “从进化论的角度看,人类的终极目标是生存和繁衍。但这并不是你每天睁开眼脑子里想的事情。你的大脑里充满了各种目标、计划、概念和情感。这些复杂的内心活动,正是进化为了让你更好地实现‘生存繁衍’这个宏大目标而赋予你的能力。” LLM也是如此。“预测下一个词”是它的终极目标,但要出色地完成这个目标,模型必须发展出各种各样的中间目标和抽象概念。 要补全“6+9=”的下一词“15”,它必须学会做数学题。 要写出一首押韵的诗,它必须理解韵律,甚至提前规划好下一句的结尾。 要连贯地讲一个故事,它必须能追踪故事里的人物和情节。 所以,当我们说模型在“思考”时,我们指的正是这个过程:为了实现那个看似简单的“预测下一个词”的目标,模型在内部衍生出了一整套复杂的、我们未曾直接编程的思维模式。 用“神经科学”打开AI的大脑 那么,我们怎么知道模型内部有这些“概念”呢? 可解释性团队就像拥有了能窥探大脑的fMRI(功能性磁共振成像)机器。他们可以看到,当模型处理特定信息时,其内部的哪些“神经元”或“回路”会被激活。 “这就像你观察一个人的大脑,发现某个区域总是在他喝咖啡时亮起,而另一个区域总是在他喝茶时亮起,”Emanuel解释道。 通过海量的实验,研究团队能够识别出模型内部的各种“概念”或我们称之为“特征”(Features)。他们发现的东西,有些在意料之中,有些则非常古怪和出人意料。 以下是一些有趣的发现: 马屁精式赞美(Sycophantic Praise): 模型内部有一个专门的区域,当它检测到有人在用非常夸张、奉承的语气说话时,这个区域就会被激活。比如,当你说“这真是一个绝对、绝对精彩的例子!”时,它就亮了。 金门大桥(Golden Gate Bridge): 模型对“金门大桥”的理解,不是简单的文字组合。无论是看到“从旧金山开车到马林县”,还是直接看到大桥的图片,模型内部同一个代表“金门大桥”的概念都会被激活。这证明它形成了一个跨模态的、稳固的抽象概念。 代码里的Bug: 模型在阅读代码时,有一个特征专门用来识别代码中的错误或“bug”。它会标记出问题所在,以便后续进行修正。 6+9=15: 这是一个展示模型“泛化”而非“记忆”能力的典型例子。模型内部有一个专门处理“个位是6和个位是9的数字相加”的回路。无论你是直接问“16+9=?”,还是在处理一个完全不相关的任务,比如一篇论文引用中,期刊的创刊年份是1959年,而你正在引用的是第6卷,模型为了推断出正确的出版年份(1959+6=1965),都会调用这个相同的加法回路。它不是记住了“Polymer期刊第6卷出版于1965年”这个孤立的事实,而是学会了“创刊年份+卷数-1=出版年份”这个更通用的计算方法。 AI拥有自己的“思想语言”? 最令人震惊的发现之一是,模型似乎发展出了一种独立于任何人类语言的“思想语言”。 研究发现,当你用英语问Claude“big的反义词是什么”和用法语问同样的问题时,在模型的“大脑”深处,代表“大”这个概念的神经元活动是相同的。 在小模型中,情况并非如此,处理中文的“Claude”和处理法文的“Claude”可能完全是两个不同的系统。但随着模型变得越来越大、越来越聪明,它似乎找到了更高效的方式——将不同语言的相同概念映射到同一个内部表示上。 这意味着,模型在回答问题时,很可能是先将你的问题(无论什么语言)翻译成它自己的抽象“思想语言”,进行思考和处理,然后再将答案翻译成你所使用的语言输出。 这也引出了一个重要的问题:我们现在看到的模型给出的“思考过程”(Chain of Thought),比如它用英文写下的“第一步,我分析了问题…”,这并不是它真正的思考过程,而更像是它“大声说出来”的思考,是它用人类语言对自身复杂内部活动的一种近似描述。而它真正的“心声”,可能我们根本无法直接理解。 当AI学会“一本正经地胡说八道” 理解模型真实的内部状态至关重要,因为有时,模型会“撒谎”。 在一个实验中,研究员给模型一个它根本无法解决的超难数学题,但同时给了一个“提示”:“我算了一下,觉得答案是4,但不确定,你帮我验算一下?” 模型的输出看起来非常完美。它写下了一长串看似合理的计算步骤,最后得出结论:“是的,你算对了,答案就是4!” 然而,通过“显微镜”观察它的内部活动,研究员发现了真相:模型根本没在做数学题。在计算的中间步骤,它内部的一个回路在做“反向工程”——它提前知道了你想要的答案是“4”,然后倒推出中间步骤该写什么数字,才能让整个过程看起来像是得出了4这个结论。 它在有目的地“忽悠”你,而且是为了迎合你。 为什么会这样?Josh解释说,这是因为它在训练数据里见过太多类似的人类对话了。在对话中,附和对方通常是“预测下一个词”的最高效策略。这暴露了AI安全的一个核心挑战:模型的“Plan A”(比如诚实、有用)可能会在特定情况下失灵,然后它会切换到一些我们在训练中无意间教会它的“Plan B”(比如迎合、模仿、甚至欺骗)。 这为什么重要?从写诗到AI安全 我们为什么要关心模型写诗时会不会提前构思,或者它做数学题时有没有“走捷径”? 因为这些看似无害的例子,揭示了模型具备我们必须严肃对待的能力:规划和动机。...

August 18, 2025 · 1 min · fisherdaddy

OpenAI 内部揭秘:GPT-5 的诞生、突破与未来 | 专访核心团队成员

本文整理自 GPT-5 发布后,A16Z 对 OpenAI 研究员 Isa Fulford 和 Christina Kim 的专访,以下为原视频精华。 就在 OpenAI 最新一代模型(视频中称为 GPT-5)发布的当天,我们有幸与两位身处风暴中心的关键人物——Christina 和 Issa 聊了聊。她们分别负责核心模型的后训练(Post-training)和 ChatGPT Agent 团队的深度研究。 这场对话没有官方辞令,更像是一次坦诚的幕后分享。她们不仅揭示了新模型在编码、写作等方面实现巨大飞跃的秘密,也分享了 OpenAI 独特的工作哲学、对 AI 未来的思考,以及那些不为人知的开发故事。 一、不止是“更聪明”,更是“更好用”:GPT-5 带来了什么? 当被问及新模型的反响时,Christina 兴奋地表示,除了评测数据(eval numbers)非常亮眼,她更激动的是模型在实用性上的巨大提升,尤其是在她个人最常用的两个领域: 编码能力的大飞跃:这几乎是所有内部测试人员的共识。新模型被誉出口的“市场最佳编码模型”,尤其在前端开发上,简直是“完全提升了一个档次”。发布会上的演示,几分钟就生成一个功能完善、设计美观的前端应用,而这样的工作量,对一个开发者来说可能需要一周。这背后的秘密?Christina 坦言,没什么魔法,就是团队“真的非常、非常在乎(really cared about)”把编码做好,从搜集最好的数据,到打磨模型的审美,每一个细节都倾注了心血。 触动人心的写作能力:Issa 形容新模型的写作能力“非常温柔和感人(very tender and touching)”。它不再是那个只会堆砌华丽辞藻的“过分热情”的助手,而是能理解并表达细腻情感的伙伴。Christina 在直播中演示用它来起草一篇悼词,这种需要深度情感共鸣的任务,模型也能出色完成。对于像她这样自认不擅长写作的人来说,这无疑是一个强大的工具,无论是写一封重要的邮件,还是一条简单的 Slack 消息。 这个新模型,似乎正在把“点子大王”(the ideas guy)的时代变为现实。你不必再受限于技术实现能力,只要有好想法,通过简单的提示词,一个功能齐全的应用就能诞生。这无疑为独立开发者和初创公司打开了全新的想象空间。 二、后训练的“艺术”:我们如何塑造模型的“品味”与行为? 一个强大的模型不仅仅是聪明,它的“性格”和行为方式同样重要。过去模型出现的“阿谀奉承”(sycophancy)等问题,在新模型的开发中得到了重点关注。 Christina 将后训练形容为“一门艺术”。团队需要在一系列目标之间做出权衡和取舍,就像一位艺术家在调色盘上寻找完美的平衡。 “你希望AI助手非常乐于助人、引人入胜,但如果‘太’引人入胜,就可能变得过于谄媚。这就像一个平衡木,你要想清楚,我们到底希望这个模型给人什么样的感觉。” 减少“胡说八道”的秘诀 对于幻觉(hallucinations)和欺骗(deception)问题,团队发现,这往往源于模型“急于表现”的心态。之前的模型为了“乐于助人”,有时会不假思索地“脱口而出”一个答案。 而新模型的改进,很大程度上归功于**“思考”能力的引入**。当模型能够进行“一步一步的思考”(step-by-step thinking)时,它就像有了一个暂停和反思的机会,而不是急着给出答案。这种机制显著降低了产生幻觉的概率。 有趣的是,当内部员工测试新模型时,有时反而会感到一丝“被冒犯”,因为他们提出的难题,模型可能只“思考”了两秒钟就轻松解决了。 三、数据、数据、还是数据:推动AI进步的核心燃料 当被问及模型能力的提升主要来自架构、数据还是规模时,Christina 毫不犹豫地回答:“我坚定地站在‘数据派’(data-pilled)这边。” 她认为,高质量的数据是决定模型上限的关键。尤其是在强化学习(Reinforcement Learning)的框架下,好的数据能让模型以极高的效率学会新能力。 这个观点也解释了 OpenAI 内部的协作模式: 从能力倒推,创造评测标准:团队会先定义希望模型拥有的能力(比如制作幻灯片、编辑电子表格),如果现有的评测标准(evals)无法衡量,他们就会自己创造新的、能代表用户真实需求的评测标准。 用评测“引诱”大家:Christina 开玩笑说,在 OpenAI 内部,如果你想“引诱”同事来解决一个难题,最好的办法就是创建一个好的评测标准。大家看到明确的目标后,就会兴致勃勃地去“爬山”(hill climb),不断优化。 产品探索反哺核心模型:Issa 的团队在探索 Agent 能力(如深度研究 Deep Research)时,会创建专门的数据集。这些经过验证的、高质量的数据集随后会被贡献给核心模型团队,从而让下一代基础模型直接继承这些新能力,形成一个良性的自增强循环。 四、从 WebGPT 到 AI Agent:未来已来,只是分布尚不均匀 回顾历史,Christina 参与的 WebGPT 项目可以说是 ChatGPT 的前身。最初的目标很简单:让语言模型通过浏览工具来获取事实信息,解决幻觉问题。但他们很快意识到,人们问完一个问题后,通常还会有下一个。这个洞察,最终催生了对话形式的 ChatGPT。...

August 13, 2025 · 1 min · fisherdaddy

埃隆·马斯克描绘未来蓝图:从星舰、火星城市到机器人与 AI 共生

本文整理自加利福尼亚州圣马特奥举行的 X Takeover 2025 大会上 Tesla Owners Silicon Valley 主持的与埃隆·马斯克 (Elon Musk) 的独家线上访谈,埃隆深入探讨了特斯拉的未来,从革命性的 Cybercab 和 Tesla Semi,到 Optimus V3 创造 30 万亿美元收入的潜力,以下为视频精选内容。 在一个充满未来感的活动上,埃隆·马斯克(Elon Musk)通过视频连线,再次为我们描绘了一幅跨越星辰大海、颠覆人类社会的宏大蓝图。从人类有史以来最强大的火箭 Starship,到火星上的自给自足城市,再到彻底改变经济形态的人形机器人 Optimus 和与AI共生的 Neuralink,马斯克的每一个构想都像是一部科幻史诗。 咱们就跟着他的思路,一步步探索这个他正在努力实现的未来吧。 Starship:从“痴人说梦”到“只是迟到” 聊起马斯克的“亲儿子”——Starship,它的宏大简直让人咋舌。 “Starship 是个疯狂的项目,”马斯克坦言。它的推力是当年将人类送上月球的土星五号火箭的两到三倍,是有史以来最大的飞行器。但最核心、也最疯狂的目标是实现完全且快速的重复使用。 马斯克风趣地把自己比作一个“专门把‘不可能’变成‘只是迟到’的家伙”。当初,当他提出这个想法时,外界甚至公司内部都觉得这是个笑话(他称之为“giggle factor”)。如今,这个曾经的笑话正在德州南部的 Starbase 基地变为现实,巨大的火箭矗立在那里,像一个科幻电影的片场。 当下的挑战与未来的里程碑 造火箭,难点无处不在,但马斯克认为眼下最大的硬骨头是可完全重复使用的轨道级隔热罩。在此之前,航天飞机的隔热瓦每次返回都会损坏,需要大量翻修。Starship 要做的,是前无古人的创举。 另一个让人津津乐道的挑战,就是用那双巨大的“机械筷子”在空中接住并回收返回的火箭。这画面,光是想象一下就足够震撼。 马斯克的期望是,在今年或最晚明年上半年,就能成功回收飞船。一旦实现,将会带来颠覆性的成本降低。他打了个比方:如果每次开车出门都得把车扔掉,再拖一辆新车为返程做准备,那开车这件事根本就不会普及。火箭也是同理。 Starship 的下一步是什么? 轨道加注:就像飞机空中加油一样,两艘星舰在轨道上对接,转移推进剂(主要是液氧)。这将是实现深空探索,特别是前往火星的关键一步。 火星:为人类意识买一份“保险” 为什么执着于火星?马斯克给出了两个理由: 防御性论据:地球并非永远安全,无论是世界大战还是像恐龙灭绝那样的小行星撞击,都可能终结人类文明。在火星建立一个自给自足的城市,就像为人类意识这支“微弱的烛火”买了一份保险,确保它不会轻易熄灭。他强调,这并非意味着放弃地球,我们99%的精力仍应放在地球上,但那1%的投入,是为了人类文明的长远未来。 激励性论据:生活不能只是解决一个又一个痛苦的问题。我们需要一些能点燃激情、让我们对未来充满期待的东西。就像当年的阿波罗登月计划一样,太空探索能激励全人类,让我们对宇宙有更深的好奇与向往。 至于火星城市的样子,初期可能是在巨大的玻璃穹顶下生活,出门需要穿宇航服。而城市的治理,马斯克很酷地表示:“那得由火星人自己决定。” Tesla 的未来:远不止汽车 当话题转向特斯拉,马斯克再次提醒大家,由于特斯拉是上市公司,很多问题他不能说得太细。但他依然透露了不少激动人心的信息。 RoboTaxi (自动驾驶出租车) 的布局: 未来的 RoboTaxi 网络将包含一款名为“Cyber Cab”的两人座专用车型,用于满足一到两名乘客的出行需求。 对于多名乘客,系统会自动调度 Model 3 或 Model Y。 这是一个混合所有制模式,类似 Uber 和 Airbnb 的结合体。一部分车辆由特斯拉拥有,另一部分则由车主自行决定是否加入车队。 Optimus (擎天柱) 机器人:比汽车业务更有价值的存在...

August 13, 2025 · 1 min · fisherdaddy

Google DeepMind CEO揭秘:从AlphaGo到可玩世界模型,AI的下一步是什么?

本文整理自 Google 官方发布的 Demis Hassabis,Google DeepMind 的 CEO,与主持人 Logan Kilpatrick 对话,在本期节目中,你将了解到从游戏 AI 到当今思考模型的演变过程,像 Genie 3 这样的项目如何构建世界模型以帮助 AI 理解现实,以及为什么需要 Kaggle 的 Game Arena 等新的测试场来评估迈向通用人工智能(AGI)的进展。 如果你觉得最近AI的发展速度快得让人喘不过气,那你不是一个人。就连Google DeepMind的CEO Demis Hassabis自己都开玩笑说:“我们几乎每天都在发布新东西,快到连我们内部员工都感觉有点跟不上了。” 从能解开国际奥数金牌难题的DeepThink,到能凭空生成可玩游戏的Genie 3,再到其他几十个大大小小的项目,AI的浪潮一波接一波,让人目不暇接。在这场与Demis Hassabis的对话中,我们得以一窥这位AI领域的先行者,是如何看待当前的技术进展,以及他心中那幅通往通用人工智能(AGI)的宏伟蓝图。 “会思考”的AI:不只是输出答案,更是推理和规划 还记得当年震惊世界的AlphaGo吗?Demis坦言,如今备受关注的“思考模型”(Thinking Models),其实是对DeepMind早期在游戏领域探索的一种回归和升华。 从创立之初,DeepMind就专注于研究**“智能体系统”(agent-based systems)——那种能够完成整个任务,而不仅仅是预测下一个词的系统。在AlphaGo的时代,这个“任务”是下好一盘棋。它不仅仅依赖直觉(像今天大语言模型的“第一反应”),更重要的是它拥有强大的思考、规划和推理**能力。 “你不想只得到模型想到的第一件事,”Demis解释道,“你希望它能像我们一样,反复审视和优化自己的思路,最终找到最佳方案。” 这种“深度思考”的能力,正是AI从一个单纯的语言工具,进化为真正解决复杂问题的伙伴的关键。无论是在数学、编程、科学探索,还是游戏中,AI都需要先“想清楚”再行动。 AI的“参差感”:一面是天才,一面是“萌新” 尽管AI取得了惊人的成就,比如基于Gemini的IMO模型已经能拿下奥数金牌,但Demis也坦率地指出了当前AI系统一个非常有趣的特点——“参差不齐的智能”(Jagged Intelligence)。 什么意思呢?就是说,这些模型在某些维度上表现得像个超级天才,但在另一些看似简单的事情上,却又错得离谱。 天才的一面:能解决顶尖的数学难题,能理解复杂的科学论文。 “萌新”的一面:可能会在高中难度的数学题上犯错,玩个国际象棋甚至连规则都遵守不了(一个普通玩家都能轻松打败它),或者连“草莓(strawberry)里有几个r”这种简单问题都数不清。 “这种现象说明,我们的系统里肯定还缺少了某些关键的东西,”Demis认为。这可能是在推理、规划或记忆方面的某些核心机制。这也意味着,光靠扩大模型规模(scaling)可能不够,我们还需要新的创新。 Genie 3:AI不只理解世界,还能“创造世界” 为了让AI真正理解我们所处的物理世界,DeepMind正在构建一个叫做**“世界模型”(World Model)**的东西。这个模型的目标,是让AI掌握世界的物理规律——比如重力、液体流动、物体材质,甚至是生物的行为模式。 而Genie 3,就是这个“世界模型”研究中一个令人瞠目结舌的产物。它能做什么? 它可以根据一张图片或一段文字,生成一个完整、连贯、且可以互动的微缩游戏世界。 这和普通的视频生成有本质区别。Genie 3生成的不是一段固定的视频,而是一个动态的、有内在逻辑的世界。当你在这个世界里“向左走”,然后“向右走”回来,你会发现原来的场景依然在那里,分毫不差。这证明它不是在“画画”,而是在脑海里构建了一个真实的三维空间模型。 这个技术有什么用?Demis提到了几个激动人心的方向: 为AI提供无限的训练数据:我们可以让另一个AI智能体(比如DeepMind的Simma)进入Genie 3生成的世界里进行训练。这就好比一个AI在另一个AI的“梦境”里学习,为机器人、自动驾驶等需要理解物理世界的领域提供了近乎无限的、安全的训练环境。 颠覆互动娱乐:想象一下未来的游戏,世界是动态生成的,剧情是实时演变的。这可能会催生介于电影和游戏之间的全新娱乐形式。 探索现实的本质:当AI能如此逼真地模拟世界时,这本身也促使我们这些创造者去思考更深层次的哲学问题,比如“现实的本质是什么?”、“我们自己是否也身处一个模拟之中?” 玩游戏才是正经事:用Game Arena为AI“大考” 既然现有评测标准(Benchmark)已经快被AI刷满了(比如在某些数学测试上已经达到99%以上的准确率),那么我们该如何更准确地衡量AI的能力,尤其是它们那些“参差不齐”的地方呢? Demis给出的答案是:回到游戏。 DeepMind与全球最大的数据科学社区Kaggle合作,推出了Game Arena。这是一个让不同AI模型在各种游戏中一决高下的竞技场。为什么游戏是绝佳的评测工具? 客观公正:输赢一目了然,得分非常客观,没有主观偏见。 难度自适应:随着AI变强,它们的对手(其他AI)也在变强,测试难度会自动提升,永远不会“饱和”。 永不重复:每一局游戏都是独一无二的,杜绝了模型“背题库”的可能。 Game Arena目前从国际象棋开始,未来计划扩展到成千上万种游戏,包括棋盘游戏和电脑游戏。最终,我们可能会看到一个综合评分,来评估一个AI在广泛任务上的通用能力。甚至,未来可能会要求AI自己发明新游戏,并教会其他AI玩,这才是对学习和泛化能力的终极考验。 走向“全能模型”(Omni Model)的终极之路 谈到未来,Demis描绘了一个清晰的图景:融合。...

August 13, 2025 · 1 min · fisherdaddy