六位人工智能先驱、2025年伊丽莎白女王工程奖得主罕见同台,分享他们的“顿悟时刻”,激辩 AI 泡沫论,并预测 AGI 的未来

Yoshua Bengio、Geoffrey Hinton、John Hopfield、 Yann LeCun、黄仁勋、比尔·戴利、李飞飞七人获得2025 年英国女王工程奖,以表彰他们在现代机器学习发展方面做出开创性贡献。 本文来自于 11 月 6 日黄仁勋 (Jensen Huang)、Yoshua Bengio、Geoffrey Hinton、李飞飞 (Fei-Fei Li)、杨立昆 (Yann LeCun) 和 Bill Dally 在伦敦举行的英国《金融时报》 人工智能 未来峰会上与英国《金融时报》 人工智能 编辑 Madhumita Murgia 进行的对话。他们共同回顾了数十年的开创性工作——从神经网络到 生成式 AI,并讨论了他们帮助创造的这项技术所带来的伦理、社会和经济影响。 想象一下,把当今人工智能领域最顶尖、最具影响力的大脑们聚在同一张桌子旁,会碰撞出怎样的火花? 最近,2025年伊丽莎白女王工程奖的六位获奖者——这个星球上最聪明、最举足轻重的一群人——就进行了一场这样的对话。他们是Geoffrey Hinton、Yann LeCun、Yoshua Bengio、Fei-Fei Li、Bill Dally和Jensen Huang(黄仁勋)。从奠定深度学习基石的理论家,到打造AI算力帝国的实干家,他们的工作共同塑造了我们今天所处的AI时代。 在这场难得的围炉夜话中,他们不仅分享了职业生涯中那些“灵光一闪”的时刻,还就当下的AI热潮、未来的技术走向,甚至是“机器何时超越人类”等终极问题,展开了坦诚而深刻的讨论。 灵光一闪:六位巨擘的AI觉醒时刻 每个伟大的征程都始于一个微小的起点。对于这些AI先驱来说,那些决定性的“啊哈!”时刻,不仅改变了他们个人的轨迹,也为整个科技世界埋下了伏笔。 Yoshua Bengio:从兴奋到警觉 Bengio分享了两个截然不同的时刻。第一次是在他还是研究生时,读到Geoffrey Hinton的早期论文,他兴奋地想:“哇!也许有几个简单的物理定律就能帮我们理解人类智能。”这颗种子让他投身AI研究。而第二次,则是在ChatGPT问世后,一种“我们到底在做什么?”的警觉感油然而生。他对拥有目标且可能比人类更聪明的机器感到担忧,这促使他彻底转变了研究方向,致力于解决AI安全问题。 Bill Dally:从“内存墙”到“找猫实验” 在90年代末,Bill Dally致力于解决“内存墙”问题——访问内存比计算本身更耗时耗能。他提出的“流处理”概念,为后来的GPU计算铺平了道路。而真正的转折点,是2010年他与吴恩达(Andrew Ng)的一次早餐会。那时,吴恩达正用16000个CPU和神经网络技术在互联网上“找猫”。Dally和同事用48块Nvidia GPU重复了这个实验,结果让他大为震撼。他立刻意识到,Nvidia应该全力投入深度学习,专门为AI优化GPU。 Geoffrey Hinton:40年前的“迷你”语言模型 早在1984年,Hinton就在尝试用反向传播算法来预测词语序列中的下一个词。他惊喜地发现,这个“迷你”语言模型仅仅通过预测,就能学习到词语的深层含义。这其实就是今天大语言模型(LLM)的雏形。那么,为什么花了40年才走到今天?Hinton坦言:“我们当时没有足够的算力,也没有足够的数据。” Jensen Huang:芯片设计与AI软件的惊人相似 作为Nvidia的掌门人,黄仁勋大约在2010年同时从多伦多大学、纽约大学和斯坦福大学的研究者那里,接触到了深度学习的早期形态。他发现,设计深度学习软件的模式,和他过去设计芯片的思路惊人地相似——都是通过高层次的表示和结构化设计来构建复杂系统。这种“可伸缩性”的洞察至关重要:一个算法如果能在一个GPU上高效运行,就能在多个GPU、多个系统,甚至多个数据中心上运行。这为Nvidia的算力帝国奠定了基础。 Fei-Fei Li(李飞飞):数据是那块缺失的拼图 2006年前后,作为一名年轻的助理教授,李飞飞痴迷于解决机器的视觉识别问题。她尝试了当时所有的算法,但都无法突破“泛化能力”的瓶颈。她和学生们意识到,机器和人类幼儿最大的区别在于——机器被“饿”着,缺乏足够的数据。于是,他们决定做一件当时看起来很“疯狂”的事:创建一个互联网规模的、手动标注的数据集——ImageNet。这个包含1500万张图片的数据集,成为了引爆深度学习革命的关键燃料。而她的第二个顿悟时刻是在谷歌担任首席科学家时,她意识到AI是一项“文明级技术”,必须将人文价值置于其核心,这也是她后来回到斯坦福创办“以人为本AI研究院”(Human-Centered AI Institute)的初衷。 Yann LeCun:从“仰慕者”到论战伙伴 LeCun年轻时就对“让机器自我学习”的想法着迷。他形容自己当时“要么太笨要么太懒”,不想从零开始编程一个智能机器。他希望能找到一种方法让机器自我组织和训练。在遍寻无果时,他发现了Hinton的论文,并视其为“1983年全世界最想见的人”。两年后,两人终于见面,在一次午餐上,他们发现彼此简直能补完对方的句子。LeCun早期痴迷于解决多层网络训练的难题,这正是反向传播的关键。后来,他与Hinton就“监督学习”和“无(自)监督学习”的路线展开了多年的辩论。有趣的是,ImageNet的巨大成功让监督学习大放异彩,整个社区都暂时“放弃”了自监督学习。但LeCun认为,LLM的成功恰恰证明了自监督学习的潜力,而下一个挑战,将是把这种能力应用到视频等更复杂的数据上。 是泡沫还是革命?顶级大脑激辩AI算力狂热 随着Nvidia成为全球市值最高的公司,一个问题盘旋在每个人心头:当前的AI热潮是可持续的革命,还是另一个即将破裂的科技泡沫?...

November 11, 2025 · 1 min · fisherdaddy

科技圈的疯狂一周:OpenAI 求政府“兜底”,马斯克拿万亿薪酬包,亚马逊发起对 Perplexity 的诉讼

本文来自于 Youtube 知名博主 Alex Kantrowitz 每周一次的最新科技新闻讨论。 这周的科技圈,简直比好莱坞大片还精彩。OpenAI似乎在暗示,如果玩脱了,希望美国政府能来“兜底”;特斯拉的股东们大手一挥,批准了马斯克那份价值可能高达一万亿美元的薪酬计划,只为让他打造一个“全新的特斯拉”;而另一边,亚马逊已经把AI新贵Perplexity告上了法庭。 这些看似孤立的事件,背后其实都指向了同一个问题:在这场狂飙突进的AI革命中,我们究竟身在何处?是泡沫破裂的前夜,还是新纪元的黎明? OpenAI想要的“政府兜底”:一场公关灾难的诞生 “这周最大的‘社会主义’新闻,居然来自OpenAI。”播客一开场,主持人就忍不住调侃道。 事情的起因是OpenAI的首席财务官Sarah Friar在《华尔街日报》的科技大会上的一番言论。当被问及如何为庞大的AI基础设施融资时,她直白地表示,公司正在寻求政府的“支持(backstop)”或“担保(guarantee)”,以便在出现问题时,能有政府来兜底。 “……也就是政府能提供的支持……比如担保,这能让融资顺利进行。” 记者追问:“所以是某种形式的芯片投资支持?” Friar肯定地回答:“正是如此。” 她将此举包装成国家战略安全的需要,声称为了在与中国的AI竞赛中保持领先,美国需要不惜一切代价加速AI生态系统的发展。 站在OpenAI的角度,这个请求虽然听起来疯狂,却有其扭曲的逻辑。毕竟,这家公司近来予取予求,几乎没有什么是他们得不到的。既然AI是国家战略资产,那让纳税人为这个“国家冠军”的债务做担保,又何乐而不为呢? 然而,互联网并不买账。消息一出,舆论瞬间爆炸。人们的反应很直接:凭什么要让普通纳税人为一家估值可能高达5000亿美元的私营公司承担风险? 紧接着,更戏剧性的一幕发生了。面对汹涌的舆论,OpenAI开始了笨拙的“危机公关”。Sarah Friar在LinkedIn上发文,称自己用了“支持(backstop)”这个词“混淆了视听”,说自己的本意是强调公私合作的重要性。CEO萨姆·奥特曼(Sam Altman)也赶紧在推特上澄清: “我们没有、也不想要政府为OpenAI的数据中心提供担保。政府不应该挑选赢家和输家,纳税人也不应该为那些做出错误商业决策的公司买单。” 这番操作让人啼笑皆非。明明是自己亲口说出的话,被记者反复确认,现在却矢口否认。这已经不是简单的“口误”,而是一次暴露了公司沟通策略混乱的公关灾难。 这场风波为何如此引人注目? 这不仅仅是因为“向政府要钱”这个行为本身。更深层次的原因在于,整个市场对OpenAI的依赖和担忧。 不匹配的数字游戏:不久前,当被问及如何用130亿美元的年收入支撑起1.4万亿美元的支出承诺时,奥特曼显得相当不耐烦。现在,CFO又公开“求兜底”,这让外界不得不怀疑:OpenAI的财务状况是不是真的像看上去那么光鲜?他们描绘的宏伟蓝图,是不是一个无法兑现的空头支票? 系统性风险:如今,OpenAI几乎成了整个AI浪潮,乃至全球股市的“金字塔尖”。从英伟达、微软到甲骨文,无数公司的命运都与OpenAI的成功息息相关。如果OpenAI的根基不稳,其引发的连锁反应将是灾难性的。 不成熟的领导层:Sarah Friar并非新手,她曾在高盛工作十余年,担任过上市公司CFO。但在OpenAI,她的言行却像个初入职场的菜鸟。这不禁让人怀疑,是不是OpenAI内部那种混乱、缺乏纪律的文化,正在侵蚀着这些经验丰富的职业经理人? 这场闹剧暴露出的,是一家在技术上飞速前进,但在公司治理和沟通上却极度不成熟的“巨婴”形象。当一家公司的体量和影响力达到如此规模时,每一个公开表态都应慎之又慎。显然,OpenAI还没学会这一点。 马斯克的万亿薪酬与人形机器人大军 就在OpenAI焦头烂额之际,埃隆·马斯克却迎来了自己的高光时刻。 在德州奥斯汀总部,伴随着跳舞的人形机器人和炫目的灯光,特斯拉股东大会通过了那份备受争议的薪酬方案。这份方案如果完全实现,将为马斯克带来近万亿美元的财富。 但这钱也不是白拿的。马斯克得把特斯拉的市值从现在的5000亿美元左右,一路推高到惊人的8.5万亿美元,同时还要达成一系列近乎疯狂的营收和利润目标。 这究竟意味着什么? 这标志着特斯拉作为一家“汽车公司”的时代可能已经结束了。马斯克的目标不再是多卖几辆电动车,他的野心是RoboTaxi(自动驾驶出租车)和人形机器人。他直言不讳地表示,需要拥有公司25%的股份,以确保他正在创造的“机器人大军”不会落入坏人之手。 这番话听起来像是一种威胁,又像是一种承诺。他仿佛在对股东们说:“把控制权给我,否则这支强大的机器人军队可能会失控,只有我能驾驭它。” 从某种意义上说,如果马斯克真的能实现这个科幻般的愿景,那这份万亿薪酬或许是值得的。毕竟,相较于已经略显拥挤的电动车市场,一个由机器人提供无尽劳力的未来,其想象空间要大得多。 所以,别再盯着特斯拉的汽车销量看了。这家公司的未来,藏在那尚未成形的机器人大军里。 亚马逊 vs. Perplexity:互联网经济的未来之战 当我们在讨论万亿市值和机器人军队时,一场更接地气、却可能决定互联网未来的战斗已经打响。 亚马逊正式起诉了AI搜索创业公司Perplexity。原因是Perplexity推出了一项名为“Comet”的AI代理功能,它可以代替用户在亚马逊等网站上自动完成购物流程。 亚马逊认为,Perplexity的机器人没有表明自己的“非人类”身份,这是“计算机欺诈”。 这起诉讼的背后,是新旧两种互联网模式的根本冲突。 亚马逊的“万物商店”模式:亚马逊的成功,在于它将自己打造成了用户购物的唯一入口。你想买任何东西,第一个想到的就是去亚马逊。它通过锁定用户,控制了整个购物流程,并在此基础上建立了庞大的广告业务。 AI代理的“新万物商店”模式: 而Perplexity这样的AI代理,则彻底颠覆了这个逻辑。用户不再需要访问亚马逊,他们只需对AI说:“帮我买最好的纸巾。”AI就会自动浏览全网,比较价格,然后直接下单。在这个模式下,聊天机器人本身就成了新的“万物商店”。 亚马逊的护城河瞬间被夷为平地。它从一个用户离不开的平台,降级成了AI代理的一个可选项。这才是亚马逊真正恐惧并必须反击的原因。 这场诉讼引出了一个更宏大的问题:如果AI代理可以自动化人类在互联网上的一切行为,那么现有的商业模式将如何维系? 一个依赖广告的地图应用,如果用户只是通过AI获取路线,从不看页面上的广告,它还能生存吗? 一个内容网站,如果流量都来自不产生广告价值的AI爬虫,它还有动力创作吗? 这不禁让人联想到马斯克的机器人。如果亚马逊可以合法地禁止Perplexity的机器人流量,那么,线下的沃尔玛能不能禁止我的人形机器人进店购物呢?“机器人不得入内”的牌子会成为常态吗? 我们玩笑般讨论的“机器人权利”,或许在不远的将来,真的会成为一个严肃的法律和社会问题。 写在最后:当科幻照进现实 回顾这一周,充满了荒诞与现实的交织。 OpenAI内部“政变”的法庭文件被披露,我们看到的不是“为了全人类”的高尚情怀,而是一场充满谎言、背叛和权力斗争的办公室政治,甚至连双方律师都在庭上互呛“管好你自己(Check yourself)”。 可与此同时,一位接受采访的普通农民却告诉记者:“我现在用Claude,Google太难用了。” 这或许就是AI时代的真相:一边是精英们不成熟的权谋和资本市场的狂热泡沫,另一边是这项技术正以不可阻挡之势,渗透到我们生活的每一个角落,并确实在创造价值。 至于未来,它可能既混乱又充满希望。我们或许终将要为这些AI公司的疯狂买单,但我们也确实站在一场前所未有的技术革命的门槛上。正如播客里开的玩笑,也许我们的未来,就是去竞选一个“USGPT”(美国政府版GPT)平台,然后领导我们的人形机器人大军,去定义下一个时代。 毕竟,掌控机器人军队的人,才能掌控未来,不是吗?

November 11, 2025 · 1 min · fisherdaddy

我们正身处AI泡沫中吗?顶尖投资人 Gavin Baker 的硬核解读

最近很多知名公司开始下场做高质量的访谈,包括 A16Z,YC 等等。本篇文章来自于 A16Z 的一个访谈。在 a16z 的 Runtime 栏目中的这段对话里,Atreides Management 的管理合伙人兼首席投资官 Gavin Baker 与 a16z 的普通合伙人 David George 一起探讨了 AI 的宏观前景:万亿美元的数据中心建设,GPU 的新经济模式,以及这场繁荣对投资者、创始人和全球经济的意义。 主要观点 核心论点是,当前我们并未处于 AI 泡沫之中。与 2000 年的互联网泡沫相比,如今的 AI 投资有着本质的不同。主要的区别在于,当年的投资(如“暗光纤”)利用率极低,而如今的 AI 基础设施(如 GPUs)则被充分利用,并为投资者带来了可观的资本回报率(ROIC)。 此外,进行大规模投资的公司是全球财务最稳健的科技巨头,它们拥有雄厚的现金流和资本储备,能够支撑当前的支出。虽然“往返投资”(round-tripping)现象确实存在,但其规模较小,主要是出于战略竞争的需要,而非财务驱动。 最后,报告认为,尽管 AI 将重塑软件和消费互联网行业,但目前仍处于技术发展的早期阶段,预测应用层的最终赢家为时尚早。 关键细节 与 2000 年科网泡沫的对比 基础设施利用率:2000 年的泡沫是“电信泡沫”,其标志是“暗光纤”(dark fiber),在泡沫顶峰时,高达 97% 的已铺设光纤未被点亮使用。相比之下,如今“没有暗 GPU”(no dark GPUs),所有 GPU 算力都被充分利用,甚至出现过热问题。 公司估值:2000 年,像 Cisco 这样的公司市盈率一度高达 150 到 180 倍。而如今,Nvidia 的市盈率大约在 40 倍左右,估值更为合理。 投资回报:目前在 GPU 上投入巨资的公司(如大型科技公司),其投资资本回报率(ROIC)平均提升了约 10 个百分点,证明了投资的积极回报。 市场竞争格局 芯片层面:主要的竞争发生在 Nvidia 和 Google 的 TPU 之间。Broadcom 和 AMD 正在联合,为市场提供一个基于以太网的开放标准替代方案,以抗衡 Nvidia 的专有系统。 模型与平台层面:大型科技公司(如 Google、Meta)在数据、算力资本和分发渠道上拥有巨大优势,AI 可能成为它们的“持续性创新”。由于算力成本高昂,AI 模型的毛利率将结构性地低于传统 SaaS 公司。 关于 “Round-tripping”:Nvidia 等公司对其生态伙伴进行投资,这些伙伴再用资金购买 Nvidia 的芯片。这被视为一种战略行为,目的是为了在与 Google (TPU) 的竞争中确保关键客户(如 OpenAI、XAI)的忠诚度。 对软件和商业模式的影响 SaaS 公司的转型:应用型 SaaS 公司必须接受因 AI 算力成本而导致的毛利率下降。这不应被视为负面信号,而应被看作是 AI 功能被用户实际使用的标志。 商业模式的演变:AI 将推动商业模式从传统的订阅制转向“按成果付费”。例如,在客户服务领域,可以根据问题解决率来收费。 消费互联网:拥有庞大现有用户基础的公司(如 Google)具有显著优势。模型的推理能力将创造一个“飞轮效应”,即更多用户带来更好的算法,从而改善产品,这将改变 OpenAI 等前沿模型公司的经济模型。 未来展望 机器人技术:机器人领域将是真实且重要的发展方向,未来的竞争格局很可能在 Tesla 和中国公司之间展开。人形机器人因其能通过观看人类视频进行学习,而被认为更具发展潜力。 原文 最近,几乎所有人都在问同一个问题:“我们是不是正处在一个AI泡沫里?”...

November 11, 2025 · 1 min · fisherdaddy

从 Transformer 到推理模型:OpenAI 核心科学家、Transformer 论文作者 Łukasz Kaiser 的 AI 前沿洞察

本文来自于 OpenAI 核心科学家、Transformer 论文作者 Łukasz Kaiser 的一篇访谈。内容涵盖了从 Transformer 模型到新一代推理模型的范式转变,探讨了 AI 发展的瓶颈、AGI 的概念以及 AI 对科学和社会可能产生的深远影响。 主要观点 AI 发展的范式转变:当前 AI 领域正在经历一次重大的范式转变,从仅仅通过扩大模型规模和数据量来提升性能(Transformer 范式),转向了更为先进的“推理模型”(Reasoning Models)范式。这种新范式正处于高速发展初期,预示着 AI 能力将迎来新一轮的飞跃。 推理模型是未来的关键:与传统的大语言模型(LLM)不同,推理模型通过内部“思考”过程、调用外部工具(如网络搜索、代码执行)来解决复杂问题。它们不仅更加强大,而且数据效率极高,能够从更少的数据中学习,并大幅减少“幻觉”现象。 AI 的发展瓶颈与未来趋势:AI 的发展速度并未放缓,未来一到两年内甚至可能出现“非常急剧的进步”。当前最主要的瓶颈是 GPU 计算资源和能源的短缺。未来,AI 将能够执行越来越多在计算机上完成的复杂任务,尤其是在编程领域,这将深刻影响就业市场。 对 AGI 和社会影响的思考:与其纠结于 AGI(通用人工智能)的定义,不如关注 AI 在现实世界中的实际影响和能力。AI 的发展为科学研究带来了巨大机遇,有望加速人类的科学发现进程。然而,这也带来了社会挑战,需要整个社会共同努力,确保技术被负责任地使用,避免重蹈社交媒体的覆辙。 关键细节 Transformer 的诞生:2017 年的论文《Attention Is All You Need》引入了 Transformer 架构,这是一个历史性的突破,为后来的生成式 AI 奠定了基础。Łukasz Kaiser 是该论文的八位作者之一。 推理模型的运作方式: 推理模型在生成最终答案前,会进行一系列不向用户展示的内部思考步骤(Chain of Thought)。 它们可以通过调用工具来获取实时信息或执行任务,例如使用网络搜索验证事实,或运行 Python 代码进行计算。 这种模型通过强化学习(Reinforcement Learning)进行训练,使其能够从错误中学习并优化解决问题的策略。 AI 发展的限制因素: 所有顶尖 AI 实验室都面临 GPU 资源不足的问题,这限制了更强大模型的训练和向公众提供服务的能力。 OpenAI 的 CEO Sam Altman 正在努力获取尽可能多的计算资源,因为研究人员确信能够有效利用这些资源来推动 AI 的进步。 AI 在任务自动化上的进展: AI 在编程领域的进步尤为惊人。像 OpenAI 的 Codex 和 Anthropic 的 Claude 这样的模型已经可以编写大型程序、进行代码审查、发现漏洞,极大地提升了开发效率。 预计在不久的将来,AI 将能胜任大部分在计算机上进行的任务。 AI 的社会责任与商业模式: Łukasz Kaiser 强调,OpenAI 致力于通过订阅模式而非广告模式来盈利,旨在避免优化“用户参与度”而带来的负面社会影响。 他认为,如何正确使用 AI 是整个社会的责任,需要政府、企业和公众共同参与,以确保其发展最终造福人类。 原文 如果你关注人工智能,2017年绝对是一个无法绕开的年份。那一年,一篇名为《Attention Is All You Need》的论文横空出世,介绍了后来引爆生成式AI革命的Transformer架构。这篇论文注定会载入史册,而Łukasz Kaiser,就是这篇论文的八位作者之一。...

November 11, 2025 · 1 min · fisherdaddy

介绍一下 OpenAI 推出的一款由 GPT-5 驱动的代理式安全研究工具—— Aardvark

2025 年 10 月 30 号,OpenAI 推出了一款由 GPT-5 驱动的代理式安全研究工具 —— Aardvark。它旨在帮助开发者和安全团队大规模地发现并修复软件中的安全漏洞,从而在网络安全攻防战中为防御方提供优势。 Aardvark 是一款自主运行的 AI 代理,它能够像人类安全专家一样,通过分析代码、理解其行为并利用工具来主动发现和修复漏洞。它的核心目标是改变当前软件安全领域的格局,将天平向防御方倾斜。通过自动化漏洞的发现、验证和修复流程,Aardvark 能够帮助团队在不拖慢开发速度的前提下,持续提升代码的安全性。目前,该产品已进入私有测试阶段。 关键细节 工作原理与流程 Aardvark 的工作流程分为四个主要阶段,不依赖于模糊测试等传统技术,而是利用大语言模型的推理能力: 分析 (Analysis): 首先,Aardvark 会分析整个代码仓库,生成一个威胁模型,以理解项目的安全目标和设计。 提交扫描 (Commit scanning): 当有新的代码提交时,它会根据威胁模型检查代码变更,以发现潜在漏洞。它会用易于理解的方式逐步解释漏洞,并对代码进行注释。 验证 (Validation): 在发现潜在漏洞后,Aardvark 会在一个隔离的沙盒环境中尝试触发该漏洞,以确认其可利用性,从而确保提供给用户的洞察是准确且低误报的。 修补 (Patching): Aardvark 与 OpenAI Codex 集成,为发现的每个漏洞生成建议的修复补丁,供开发人员审查和一键应用。 实际影响与表现 内部应用与测试: Aardvark 已在 OpenAI 内部代码库和外部合作伙伴中运行数月,成功发现了多个重要漏洞。 基准测试: 在包含已知和人为引入漏洞的“黄金”代码库测试中,Aardvark 成功识别了 92% 的漏洞,展示了其高效性和实用性。 解决的问题: 软件漏洞已成为系统性风险,仅 2024 年就报告了超过 40,000 个 CVE。测试表明,约 1.2% 的代码提交会引入新的错误。 对开源社区的贡献 Aardvark 已被应用于开源项目,并成功发现了多个漏洞,其中 10 个已获得 CVE (通用漏洞披露) 编号。 OpenAI 承诺回馈开源社区,计划为部分非商业开源项目提供免费扫描服务。 公司还更新了其对外协调披露政策,采取了对开发者更友好的协作方式。 当前状态 Aardvark 目前已开放私有测试版,OpenAI 邀请感兴趣的组织或开源项目申请加入,以帮助团队进一步优化其性能和用户体验。...

November 3, 2025 · 1 min · fisherdaddy

深度解读微软 CEO 萨提亚·纳德拉与 OpenAI CEO 山姆·奥特曼的对话

本文来自于 OpenAI 重组后 OpenAI CEO 山姆·奥特曼和微软 CEO 萨提亚·纳德拉的播客。内容涵盖了双方的战略合作关系、OpenAI 的独特组织架构、对算力的巨大需求、AI 技术的未来发展方向以及其对经济和社会的深远影响。 关键细节 合作关系与财务条款 投资与股权:Microsoft 自 2019 年起向 OpenAI 投资约 134 亿美元,目前持有其约 27% 的股份。 独特的组织架构:OpenAI 采用了一种创新结构,顶层是一个非营利组织,其使命是确保 AGI (通用人工智能) 惠及全人类。该非营利组织已获得价值 1300 亿美元的 OpenAI 股票,成为全球最大的非营利组织之一。 商业协议: 模型独占性:OpenAI 的核心模型(Stateless APIs)在 2032 年前将独家在 Microsoft Azure 平台上提供。 收入分成:OpenAI 需要向 Microsoft 支付一定比例的收入分成,该协议同样持续到 2032 年或 AGI 被验证实现为止。 财务状况:Sam Altman 透露,OpenAI 的收入远超外界报道的 130 亿美元,并且正在以极快的速度增长。公司计划在未来四到五年内投入 1.4 万亿美元用于算力建设。 算力挑战与未来展望 当前瓶颈:增长的主要限制是算力不足。Satya Nadella 指出,目前的瓶颈已从芯片供应转向电力供应和数据中心建设速度。 未来供需:双方都认为算力市场未来某个时间点会出现供过于求的“算力过剩(compute glut)”情况,但对于这一情况出现的时间点(2-3 年或 5-6 年)看法不一。 成本与效率:AI 智能单位成本的快速下降,以及软件层面的优化(如推理堆栈的改进),将是推动 AI 普及的关键。 AI 的未来发展与社会影响 技术前沿:Sam Altman 预测,到 2026 年,AI 将能在编码(Codex)、科学发现(即使是微小的发现)、机器人技术和新型消费电子设备等领域取得重要进展。 监管问题:两位 CEO 都对美国各州制定不同 AI 法规的“碎片化(patchwork)”做法表示担忧,认为这会阻碍初创企业的发展,并呼吁建立统一的联邦层面监管框架。 对就业和生产力的影响:AI 将改变人们的工作方式,使员工能借助 AI 工具获得更高的生产力。公司虽然会增加员工数量,但人均产出的杠杆效应会远超以往。 美国再工业化:科技公司在数据中心和半导体领域的巨额投资(数万亿美元级别),被视为推动美国“再工业化”的重要力量,不仅能吸引外国资本,还能创造大量本地就业和供应链机会。 原文 一场重量级的对话,一边是微软的掌舵人萨提亚·纳德拉(Satya Nadella),另一边是OpenAI的创始人山姆·奥特曼(Sam Altman)。这场看似轻松的炉边谈话,却揭开了当今科技界最重要、也最被外界好奇的合作关系的神秘面纱。...

November 3, 2025 · 1 min · fisherdaddy

OpenAI Atlas 工程团队:我们如何构建 OWL,我们基于 ChatGPT 的浏览器 Atlas 背后的新架构

为了纠正大家都认为 ChatGPT Atlas 是 Chromium 的套壳,ChatGPT Atlas 工程团队编写本文来说明 ChatGPT Atlas 的底层有很多创新之处。虽然 Atlas 使用的是 Chromium,但它的构建方式与通常的 Chromium 不同。 Atlas 浏览器的核心创新在于其独特的 OWL 架构,该架构通过将 Chromium 引擎作为一个独立的服务层运行,从而与主应用程序进程分离。这种解耦设计不仅解决了传统浏览器架构在性能和用户体验上的瓶颈,还为实现复杂的 Agent (智能体) 功能和快速的产品迭代奠定了坚实的基础。它使得 Atlas 能够同时利用 Chromium 强大的网络兼容性与现代原生框架 (SwiftUI, AppKit) 带来的流畅体验。 关键细节 背景与挑战 产品目标: 团队希望创造一款能将 ChatGPT 作为网络“副驾驶”的浏览器,拥有即时启动、支持数百个标签页而不影响性能,以及丰富的动画和视觉效果。 技术选型: Chromium 因其先进的引擎、强大的安全模型和无与伦比的网络兼容性,成为自然的选择。 架构难题: 直接使用或修改 Chromium 的标准架构难以实现上述产品目标,特别是快速启动和高性能。同时,深度修改 Chromium 会导致后续版本更新和维护变得极其困难和耗时。 解决方案:OWL 架构 核心思想: OWL (OpenAI’s Web Layer) 是 OpenAI 的解决方案。它将 Chromium 的浏览器进程从 Atlas 主应用进程中剥离出来,使其成为一个独立的后台服务。 工作模式: Atlas 应用作为 OWL Client (客户端),而 Chromium 进程作为 OWL Host (主机)。两者通过 Chromium 自家的消息传递系统 Mojo 进行通信 (IPC)。 OWL 带来的优势 应用更简洁: Atlas 的用户界面几乎完全由 SwiftUI 和 AppKit 构建,代码库更清晰、技术栈更统一。 启动更快速: Chromium 在后台异步启动,用户界面几乎可以瞬间加载。 隔离性更强: Chromium 引擎的卡顿或崩溃不会影响 Atlas 主应用的稳定性。 维护更容易: 由于 Atlas 没有构建在 Chromium 的开源 UI 之上,与上游 Chromium 的代码差异更小,便于维护和升级。 迭代更迅速: 大多数工程师无需在本地编译 Chromium (耗时数小时),而是使用预编译的 OWL 二进制文件,使 Atlas 的构建时间从数小时缩短到几分钟。 针对 Agent 功能的特殊设计 渲染: 为了让 AI 模型能看到完整的页面上下文,Atlas 会将下拉菜单等在主窗口外渲染的 UI 元素重新组合到主页面图像中。 输入: Agent 生成的输入事件会直接发送到渲染器,而不是通过拥有更高权限的浏览器层,以保证沙箱安全边界。 数据隔离: Agent 浏览可以在临时的“登出”环境中运行。它使用 Chromium 的 StoragePartition 基础架构创建隔离的内存存储,确保每个 Agent 会话都是全新的,会话结束后所有数据都会被丢弃。 原文:我们如何构建OWL:我们基于ChatGPT的浏览器Atlas背后的新架构 作者:Ken Rockot,技术团队成员;Ben Goodger,ChatGPT Atlas工程主管...

October 31, 2025 · 2 min · fisherdaddy

OpenAI 的未来蓝图:从超级智能到万亿投资,Sam Altman 的透明宣言

本文是 OpenAI 完成重组后, Sam Altman 和 OpenAI 首席科学家 Jakub Pachocki、OpenAI 联合创始人 Wojciech Zaremba 谈论 OpenAI 的未来的直播,以下是 Sam Altman 对本次直播核心内容的总结: 我们设立了内部目标,即到2026年9月拥有一个在数十万个GPU上运行的自动化AI研究实习生,到2028年3月拥有一个真正的自动化AI研究员。我们可能完全无法实现这个目标,但鉴于其非凡的潜在影响,我们认为对此保持透明符合公众利益。 我们的安全策略依赖于5个层面:价值对齐、目标对齐、可靠性、对抗性鲁棒性和系统安全。思维链的忠实性是我们特别兴奋的一个工具,但它有些脆弱,需要划定一个边界和清晰的抽象。 在产品方面,我们正努力转向一个真正的平台,让基于我们产品构建的个人和公司将捕获大部分价值。今天,人们可以在ChatGPT中使用我们的API和应用程序进行构建;最终,我们希望提供一个能够赋能大型企业的人工智能云。 我们目前已承诺投入约30吉瓦的算力,多年来的总拥有成本约为1.4万亿美元。鉴于我们所看到的模型能力增长和收入增长的前景,我们对此感到坦然。我们希望做得更多——我们希望建立一个AI工厂,能以远低于今天的成本每周制造1吉瓦的新容量——但这将需要对未来的模型、收入以及技术/金融创新有更多信心。 我们的新结构比旧结构简单得多。我们有一个名为OpenAI基金会的非营利组织,它管理着一个名为OpenAI集团的公益公司(PBC)。该基金会最初拥有PBC 26%的股份,但如果PBC表现超级出色,它可以通过认股权证随时间增加持股。PBC可以吸引实现使命所需的资源。 我们的非营利组织和PBC的使命保持不变:确保通用人工智能造福全人类。 该非营利组织最初承诺投入250亿美元用于健康和治愈疾病,以及AI韧性(所有能帮助社会成功过渡到后AGI世界的事物,包括技术安全,也包括经济影响、网络安全等等)。与以前不同,该非营利组织现在有能力相对迅速地实际部署资本。 我们预计到2026年,我们的AI系统或许能够做出一些小型的新发现;到2028年,我们可能看到重大的发现。这是一件非常重要的事情;我们认为科学,以及那些让我们能广泛分享科学成果的机构,是生活质量随时间推移而改善的最重要途径。 原文: “Hello,我是Sam。” 伴随着这句简单的开场白,OpenAI的CEO Sam Altman和他的首席科学家Jakub Pachocki,以前所未有的透明度,向世界揭示了他们关于人工智能未来的宏伟蓝图。这不仅仅是一次常规的更新,更像是一场关于技术、社会和人类未来的坦诚对话。他们分享了内部的研究目标、庞大的基础设施计划,以及一个旨在“确保通用人工智能(AGI)惠及全人类”的全新公司架构。 让我们一起深入这场信息量爆炸的分享会,看看OpenAI到底在谋划些什么。 重新定义AGI:从“神谕”到赋能人类的“工具” 在OpenAI的早期,团队曾想象AGI会像一个高悬于天空的“神谕”,自动为人类创造各种奇迹。但随着研究的深入,他们的看法变得更加清晰和务实。 “我们想创造工具,然后让人们用这些工具去创造未来。” Sam Altman解释道。 这个观点的转变至关重要。未来的AGI不再是一个包办一切的“神”,而是一个强大的赋能者。OpenAI的愿景是为每个人打造一个“个人AGI”(Personal AGI),这个智能体可以随时随地调用各种工具和服务,帮助人们处理工作与个人生活中的大小事务。 想象一下,当AI甚至能够帮助我们发现新的科学知识时,普通人能用它创造出什么?这正是OpenAI所期待的,一个由无数个体用AI工具共同构建的、更加美好的未来。 直面超级智能:一个大胆到令人咋舌的时间表 接下来,首席科学家Jakub Pachocki接过了话筒,分享了更令人震撼的研究进展。他坦言,AGI这个词甚至可能低估了深度学习所带来的变革。 “我们相信,深度学习系统离**超级智能(Superintelligence)**可能不到十年。” 超级智能,即在许多关键领域都比全人类更聪明的系统。这是一个严肃的命题,而OpenAI的整个研究计划,正是围绕着利用这种力量来加速科学发现和技术发展而展开的。 Jakub用一个非常直观的指标来衡量模型的进步:人类完成同样任务所需的时间。 当前模型(如GPT-5):已经能处理需要人类顶尖专家花费约5个小时才能完成的任务,比如在国际信息学奥林匹克竞赛中取得优异成绩。 未来的可能性:模型的“思考时间”(即测试时计算量,Test-Time Compute)还有巨大的提升空间。如果为了攻克科学难题,我们可以让模型动用整个数据中心的算力去“思考”,那会发生什么? 基于这种预期,Open-AI罕见地公开了他们的内部研究时间表(并强调这只是目标,可能会有偏差): 到2026年9月:开发出“AI研究实习生”(AI Research Interns),能够通过大量计算,显著加速研究人员的工作。 到2028年3月:实现一个“全自动AI研究员”(Fully Automated AI Researcher),能够独立完成大型研究项目。 这听起来像是科幻电影,但它正是OpenAI正在全力冲刺的方向。 安全的基石:五层防御与“思想链忠诚度” 拥有如此强大的力量,安全自然是重中之重。Jakub详细介绍了OpenAI的五层安全框架,从模型内部到外部系统,层层递进: 价值对齐 (Value Alignment):最核心也最困难的一环。它要确保AI从根本上“关心”人类的福祉,当面对模糊或冲突的指令时,能遵循高层原则。简单说,就是“AI爱人类吗?” 目标对齐 (Goal Alignment):确保AI能正确理解并遵循人类的指令。 可靠性 (Reliability):AI能正确评估自己的能力,在简单任务上保持可靠,在困难任务上表达不确定性。 对抗性鲁棒性 (Adversarial Robustness):系统能抵御来自人类或AI的恶意攻击。 系统性安全 (Systemic Safety):不依赖于AI自身智能或对齐性的外部保障,例如数据访问权限、物理设备控制等。 在这些层面中,Jakub特别深入地讲解了一个前沿且充满希望的技术方向:思想链忠诚度 (Chain-of-Thought Faithfulness)。...

October 30, 2025 · 1 min · fisherdaddy

介绍一下 OpenAI 推出的浏览器 Atlas

OpenAI 于 2025 年 10 月 21 日推出了一款以 ChatGPT 为核心的全新网络浏览器——ChatGPT Atlas。这款浏览器旨在通过深度集成 AI,重塑用户的网页浏览体验,使其成为一个能够理解用户意图并主动完成任务的“超级助理”。 ChatGPT Atlas 的核心思想是将 ChatGPT 的强大功能与浏览器深度融合,让 AI 能够理解用户正在浏览的内容和上下文,从而在不离开当前页面的情况下,提供即时帮助、自动化执行任务。这标志着网页浏览从被动获取信息,向与 AI 协同完成工作的主动模式转变。其最终目标是让用户能够将繁琐的日常任务委托给 AI,从而专注于更重要的事情。 关键细节 核心功能与特性 深度集成: ChatGPT 内置于浏览器中,可随时调用,理解当前页面内容,无需复制粘贴。 浏览器记忆 (Browser memories): Atlas 可以选择性地记住用户浏览过网站的上下文信息,并在后续的对话和任务中利用这些信息,例如,可以要求它“总结我上周看过的所有招聘信息,并分析行业趋势”。 代理模式 (Agent mode): 在此模式下,ChatGPT 可以在浏览器中为用户执行具体操作。例如,根据一个在线食谱,自动寻找商店、将所有配料加入购物车并下单。该功能目前为 Plus、Pro 和 Business 用户提供预览。 用户控制与隐私安全 用户自主控制: “浏览器记忆”功能完全可选,用户可以随时在设置中查看、归档或删除这些记忆。用户也可以随时控制 ChatGPT 对特定网站的访问权限。 数据训练: 默认情况下,用户的浏览内容不会被用于训练 OpenAI 的模型。用户可以选择在数据控制设置中开启“包括网页浏览”来授权训练。 代理模式安全措施: 代理无法在浏览器中运行代码、下载文件或安装扩展程序。 在访问金融机构等敏感网站时,代理会暂停以确保用户知情。 尽管有安全措施,官方仍提示代理模式存在被恶意指令利用的风险,并建议用户保持警惕。 发布与平台支持 首发平台: ChatGPT Atlas 今日起在全球范围内向 macOS 用户推出,覆盖 Free、Plus、Pro 和 Go 等多个版本。 后续支持: Windows、iOS 和 Android 平台的版本也即将推出。 企业版本: Business、Enterprise 和 Edu 用户可在管理员授权后使用 Beta 版本。 原文:介绍 ChatGPT Atlas 今天我们推出 ChatGPT Atlas,一款以 ChatGPT 为核心构建的新型网页浏览器。...

October 27, 2025 · 2 min · fisherdaddy

快速了解一下 DeepSeek-OCR

2025年 10 月 20 号 DeepSeek 团队在 HuggingFace 开源 DeepSeek-OCR ,该模型主要用于探索一种名为“上下文光学压缩” (contexts optical compression) 的创新理念。该方法旨在解决大型语言模型 (LLM) 在处理长文本时面临的计算效率难题,通过将文本信息渲染成图像,利用视觉 Token 实现比原始文本 Token 更高效的压缩。 主要观点 核心问题: 当前的大型语言模型 (LLM) 在处理长文本时,其计算复杂度会随文本长度呈二次方增长,导致效率低下。 创新方案: 提出“上下文光学压缩”概念,即将文本内容转换为图像,利用视觉语言模型 (VLM) 进行处理。由于一张图像可以用远少于原始文本的视觉 Token 来表示,这种方法有望实现极高的信息压缩率。 关键成果: 研发了 DeepSeek-OCR 模型作为此概念的验证。实验证明,该模型能在 9-10x 的压缩率下达到 96% 以上的文本解码精度。此外,DeepSeek-OCR 在主流的文档解析基准测试中,以最少的视觉 Token 消耗实现了端到端模型中的最佳性能 (state-of-the-art)。 关键细节 模型架构与创新 DeepSeek-OCR 组成: 模型由两部分构成:一个新颖的视觉编码器 DeepEncoder 和一个 DeepSeek-3B-MoE 解码器。 DeepEncoder 架构: 这是模型的核心创新。它串联了以窗口注意力为主的 SAM 模型和以全局注意力为主的 CLIP 模型,并通过一个 16x 的卷积压缩器连接两者。这种设计使得模型在处理高分辨率图像时,能有效控制计算内存和视觉 Token 的数量。 多分辨率支持: DeepEncoder 支持多种分辨率模式(如 Tiny, Small, Base, Large, Gundam),使其能够灵活测试不同压缩比下的性能,并适应不同复杂度的文档。 性能评估 视觉-文本压缩率研究: 在 Fox 基准测试中,DeepSeek-OCR 表现出色: 在 9-10x 的压缩比下,解码精度超过 96%。 在 10-12x 的压缩比下,精度约为 90%。 即使在接近 20x 的高压缩比下,精度仍能保持在 60% 左右。 OCR 实践性能: 在 OmniDocBench 基准测试中,DeepSeek-OCR 的表现优于其他端到端模型: 仅用 100 个视觉 Token,性能就超过了使用 256 个 Token 的 GOT-OCR2....

October 27, 2025 · 3 min · fisherdaddy