Google DeepMind CEO揭秘:从AlphaGo到可玩世界模型,AI的下一步是什么?

本文整理自 Google 官方发布的 Demis Hassabis,Google DeepMind 的 CEO,与主持人 Logan Kilpatrick 对话,在本期节目中,你将了解到从游戏 AI 到当今思考模型的演变过程,像 Genie 3 这样的项目如何构建世界模型以帮助 AI 理解现实,以及为什么需要 Kaggle 的 Game Arena 等新的测试场来评估迈向通用人工智能(AGI)的进展。 如果你觉得最近AI的发展速度快得让人喘不过气,那你不是一个人。就连Google DeepMind的CEO Demis Hassabis自己都开玩笑说:“我们几乎每天都在发布新东西,快到连我们内部员工都感觉有点跟不上了。” 从能解开国际奥数金牌难题的DeepThink,到能凭空生成可玩游戏的Genie 3,再到其他几十个大大小小的项目,AI的浪潮一波接一波,让人目不暇接。在这场与Demis Hassabis的对话中,我们得以一窥这位AI领域的先行者,是如何看待当前的技术进展,以及他心中那幅通往通用人工智能(AGI)的宏伟蓝图。 “会思考”的AI:不只是输出答案,更是推理和规划 还记得当年震惊世界的AlphaGo吗?Demis坦言,如今备受关注的“思考模型”(Thinking Models),其实是对DeepMind早期在游戏领域探索的一种回归和升华。 从创立之初,DeepMind就专注于研究**“智能体系统”(agent-based systems)——那种能够完成整个任务,而不仅仅是预测下一个词的系统。在AlphaGo的时代,这个“任务”是下好一盘棋。它不仅仅依赖直觉(像今天大语言模型的“第一反应”),更重要的是它拥有强大的思考、规划和推理**能力。 “你不想只得到模型想到的第一件事,”Demis解释道,“你希望它能像我们一样,反复审视和优化自己的思路,最终找到最佳方案。” 这种“深度思考”的能力,正是AI从一个单纯的语言工具,进化为真正解决复杂问题的伙伴的关键。无论是在数学、编程、科学探索,还是游戏中,AI都需要先“想清楚”再行动。 AI的“参差感”:一面是天才,一面是“萌新” 尽管AI取得了惊人的成就,比如基于Gemini的IMO模型已经能拿下奥数金牌,但Demis也坦率地指出了当前AI系统一个非常有趣的特点——“参差不齐的智能”(Jagged Intelligence)。 什么意思呢?就是说,这些模型在某些维度上表现得像个超级天才,但在另一些看似简单的事情上,却又错得离谱。 天才的一面:能解决顶尖的数学难题,能理解复杂的科学论文。 “萌新”的一面:可能会在高中难度的数学题上犯错,玩个国际象棋甚至连规则都遵守不了(一个普通玩家都能轻松打败它),或者连“草莓(strawberry)里有几个r”这种简单问题都数不清。 “这种现象说明,我们的系统里肯定还缺少了某些关键的东西,”Demis认为。这可能是在推理、规划或记忆方面的某些核心机制。这也意味着,光靠扩大模型规模(scaling)可能不够,我们还需要新的创新。 Genie 3:AI不只理解世界,还能“创造世界” 为了让AI真正理解我们所处的物理世界,DeepMind正在构建一个叫做**“世界模型”(World Model)**的东西。这个模型的目标,是让AI掌握世界的物理规律——比如重力、液体流动、物体材质,甚至是生物的行为模式。 而Genie 3,就是这个“世界模型”研究中一个令人瞠目结舌的产物。它能做什么? 它可以根据一张图片或一段文字,生成一个完整、连贯、且可以互动的微缩游戏世界。 这和普通的视频生成有本质区别。Genie 3生成的不是一段固定的视频,而是一个动态的、有内在逻辑的世界。当你在这个世界里“向左走”,然后“向右走”回来,你会发现原来的场景依然在那里,分毫不差。这证明它不是在“画画”,而是在脑海里构建了一个真实的三维空间模型。 这个技术有什么用?Demis提到了几个激动人心的方向: 为AI提供无限的训练数据:我们可以让另一个AI智能体(比如DeepMind的Simma)进入Genie 3生成的世界里进行训练。这就好比一个AI在另一个AI的“梦境”里学习,为机器人、自动驾驶等需要理解物理世界的领域提供了近乎无限的、安全的训练环境。 颠覆互动娱乐:想象一下未来的游戏,世界是动态生成的,剧情是实时演变的。这可能会催生介于电影和游戏之间的全新娱乐形式。 探索现实的本质:当AI能如此逼真地模拟世界时,这本身也促使我们这些创造者去思考更深层次的哲学问题,比如“现实的本质是什么?”、“我们自己是否也身处一个模拟之中?” 玩游戏才是正经事:用Game Arena为AI“大考” 既然现有评测标准(Benchmark)已经快被AI刷满了(比如在某些数学测试上已经达到99%以上的准确率),那么我们该如何更准确地衡量AI的能力,尤其是它们那些“参差不齐”的地方呢? Demis给出的答案是:回到游戏。 DeepMind与全球最大的数据科学社区Kaggle合作,推出了Game Arena。这是一个让不同AI模型在各种游戏中一决高下的竞技场。为什么游戏是绝佳的评测工具? 客观公正:输赢一目了然,得分非常客观,没有主观偏见。 难度自适应:随着AI变强,它们的对手(其他AI)也在变强,测试难度会自动提升,永远不会“饱和”。 永不重复:每一局游戏都是独一无二的,杜绝了模型“背题库”的可能。 Game Arena目前从国际象棋开始,未来计划扩展到成千上万种游戏,包括棋盘游戏和电脑游戏。最终,我们可能会看到一个综合评分,来评估一个AI在广泛任务上的通用能力。甚至,未来可能会要求AI自己发明新游戏,并教会其他AI玩,这才是对学习和泛化能力的终极考验。 走向“全能模型”(Omni Model)的终极之路 谈到未来,Demis描绘了一个清晰的图景:融合。...

August 13, 2025 · 1 min · fisherdaddy

介绍一下 Google 最新发布的世界模型 Genie 3

Genie 3 是一项在世界模型领域取得重大突破的技术,其核心能力在于实时创造可供探索的虚拟环境。它不仅能模拟物理世界和自然生态,还能构建富有想象力的虚构场景。该模型的主要目标是推动人工智能研究,特别是为机器人等具身智能体(embodied agent)提供一个广阔、一致且可控的训练平台,从而加速通用人工智能(AGI)的进程。Google DeepMind 强调负责任的开发,目前以有限研究预览的形式发布 Genie 3,以便在探索其潜力的同时,收集反馈并管理相关风险。 您的浏览器不支持视频标签。 核心技术与能力 多样的世界生成:Genie 3 能够生成各种类型的世界,包括: 物理模拟:模拟水流、光照等物理现象和复杂的环境互动。 自然生态:生成包含动植物行为的生动生态系统。 虚构动画:创造富有想象力的奇幻场景和动画角色。 历史与地理探索:重现特定地点(如阿尔卑斯山)和历史时期。 实时交互性:模型实现了高度的可控性和实时互动。它能在一秒内多次响应用户的导航输入,实现流畅的实时探索体验。 长期环境一致性:Genie 3 生成的环境能在数分钟内保持高度的物理一致性,其视觉记忆可追溯至一分钟前。这是一种“涌现”能力,与依赖显式 3D 表征的 NeRFs 或 Gaussian Splatting 等技术不同。 可提示的世界事件:除了导航控制,用户还可以通过文本指令(promptable world events)来改变世界,例如更改天气或引入新物体,极大地增强了互动性和场景的丰富度。 应用与未来方向 推动智能体研究:Genie 3 已被用于为 Google 的通用智能体 SIMA 提供训练环境。由于其环境的一致性,智能体可以在其中执行更长、更复杂的任务序列。 未来潜力:该技术有望在教育、专业培训、机器人和自动驾驶系统等领域创造新的机会,提供一个广阔的平台来训练和评估智能体的性能。 局限性与责任 当前局限性: 智能体可直接执行的动作空间有限。 精确模拟多个独立智能体之间的复杂互动仍是挑战。 无法完美准确地再现真实世界的地理位置。 文本渲染效果不佳。 连续互动时长限制在几分钟内。 负责任的开发:Google DeepMind 认识到该技术的潜在风险,与责任创新团队紧密合作。目前,Genie 3 作为有限研究预览版,仅向一小部分学者和创作者开放,以收集反馈,确保技术以安全、负责任的方式发展。

August 6, 2025 · 1 min · fisherdaddy

Demis Hassabis 深入探讨 AI 的未来,从模拟现实、破解物理学难题到创造终极视频游戏。探索 Google DeepMind 负责人对 P vs NP、AGI、AlphaFold 及人类未来的独特见解

本文整理自 Lex Fridman 对 Google DeepMind CEO Demis Hassabis 的访谈,访谈中他们讨论了AI 的未来,模拟现实、物理和视频游戏,以及最后 Hassabis 给出了当前 AI 时代的生存法则。 Demis Hassabis:从电子游戏到模拟宇宙,AI正在揭开现实的终极奥秘 如果你有机会和当今世界上最聪明的大脑之一聊一聊,你会问些什么?也许是关于宇宙的终极谜题,比如P vs NP问题,或是生命的起源。又或者,你会和他聊聊电子游戏,那个我们许多人魂牵梦绕的虚拟世界。 幸运的是,Lex Fridman最近在他的播客上就和这样一位人物——Google DeepMind的负责人、诺贝尔奖得主Demis Hassabis——进行了一场深入的对谈。他们的谈话跨越了从理论物理到AI伦理,从模拟一个完整的细胞到创造一个真正开放的游戏世界。这不仅仅是一场技术访谈,更像是一次对现实本质、人类未来以及我们在这个宇宙中位置的哲学探索。 Hassabis的观点,就像他领导的AI一样,总能带给我们意想不到的启发。 自然的秘密,其实都可以被“学习”? 在获得诺贝尔奖的演讲中,Hassabis提出了一个颇具“挑衅性”的猜想:“任何能在自然界中找到或生成的模式,都可以被一个经典的机器学习算法有效地发现和建模。” 这听起来有点疯狂,但仔细想想,这背后是他多年科研经验的深刻洞察。无论是AlphaGo在围棋中那看似无穷的变化,还是AlphaFold在蛋白质折叠这个巨大的组合空间中寻找答案,它们面对的都是一个“暴力破解”方法在宇宙终结前都无法解决的问题。 那它们是怎么做到的呢?答案是,这些系统通过学习,构建了一个关于环境的“模型”,从而能用一种更聪明的方式进行搜索,让难题变得“可解”。 Hassabis认为,这之所以可能,是因为自然本身就不是随机的。 “自然系统充满了结构,因为它们经受了进化过程的塑造。无论是生命体的演化,山脉被风化的形状,还是行星的轨道,它们都经历了一遍又一遍的筛选过程,可以称之为‘最稳定者生存’。” 如果一个系统是经过这种非随机过程形成的,那么它内部必然存在某种可以被学习和逆向工程的“结构”或“模式”。神经网络恰恰最擅长发现和利用这种结构,沿着某种梯度找到解决方案。这就像蛋白质在我们的身体里,只需要几毫秒就能完成折叠一样,物理世界本身就在高效地解决这个问题。AI所做的,就是学习并模仿这个过程。 这个猜想的适用范围可能非常广,从生物、化学到物理,甚至宇宙学和神经科学。但它也有边界。比如,对大数进行质因数分解这类纯粹的数学难题,如果数字本身没有内在模式,AI就无从“学习”,这时可能就需要量子计算机这样的“蛮力”工具了。 P vs NP:一个物理问题,而非数学游戏 这个关于“可学习宇宙”的观点,直接触及了理论计算机科学中最核心的问题之一:P vs NP。 简单来说,P类问题是计算机能快速解决的,而NP问题是答案一旦给出就很容易验证,但找到答案却异常困难。P是否等于NP,本质上是在问:所有我们能快速验证答案的问题,是否也都能被快速解决? Hassabis将这个问题提升到了一个新的高度。他认为,如果我们把宇宙看作一个巨大的信息处理系统——信息比能量和物质更基本——那么P vs NP就不再仅仅是数学家的游戏,而变成了一个物理学问题。 AlphaFold的成功就是一个活生生的例子。蛋白质折叠曾被认为是NP难题,许多人甚至认为需要量子计算机才能模拟。但AlphaFold,一个运行在经典计算机上的神经网络,却做到了。这证明,至少对于某些看似棘手的自然问题,经典系统比我们想象的要强大得多。 这是否意味着,我们可以定义一个新的复杂性类别,比如“可学习的自然系统”(LNS, Learnable Natural Systems)?这个类别里的问题,虽然理论上可能很难,但因为其源于自然,拥有可学习的结构,所以能够被AI在多项式时间内高效解决。 我们可能正不断地被经典计算机的能力所震惊。无论是AlphaFold 3对蛋白质与DNA/RNA相互作用的建模,还是AlphaGenome将基因编码与功能联系起来,AI似乎总能从看似无限的组合可能性中,找到那个可以被高效建模的核心。 连流体动力学都能“悟”出来? 就连那些传统上被认为极难处理的非线性动力系统,比如涉及纳维-斯托克斯方程的流体动力学(想想天气预报的复杂计算),也可能并非无法攻克。 Hassabis兴奋地提到了Google的视频生成模型Veo。 “你看看Veo,它对液体、材质和镜面光照的模拟好得惊人。我最喜欢看那些生成的视频,比如液压机挤压装满透明液体的容器。我年轻时在游戏行业写过物理引擎和图形引擎,我知道从零开始编程实现这些效果有多么痛苦。但这些AI系统,仅仅通过观看YouTube视频,似乎就逆向工程出了物理规律。” 这背后发生了什么?AI很可能从海量视频中提取出了关于物质行为的某种底层结构,一个可以被学习的“低维流形”。如果这个猜想成立,那么我们所处的大部分现实,可能都存在这样的“捷径”等待被发现。 Veo与游戏世界:AI正在构建“世界模型” Veo对物理世界的直观理解,让许多人(包括Hassabis自己)都感到惊讶。这动摇了一个长期以来的观念:要理解物理世界,AI必须是一个能与世界互动的机器人(即所谓的“具身智能”)。 但Veo证明,通过被动观察,同样可以学到深刻的物理直觉,就像一个孩子通过观察来理解世界一样。它不一定能写出物理公式,但它“知道”物体应该如何运动、光线应该如何反射。 这不仅仅是为了生成酷炫的视频。当这种模拟变得足够逼真,并且能够实时交互时,我们就离Hassabis心中的“圣杯”——一个真正的世界模型——不远了。 这自然而然地引向了他最初的挚爱:电子游戏。 Hassabis在青少年时期就是一名出色的游戏AI设计师,他参与制作的《主题公园》(Theme Park)和《黑与白》(Black & White)等都是开放世界游戏的先驱。他一直梦想着创造一个真正自由的、由玩家和AI共同叙事的游戏。 在过去,这几乎是不可能的。开发者无法为玩家每一个可能的选择都预先创造好内容,所谓的“选择”往往只是假象。但现在,情况不同了。 “想象一个交互版的Veo,再把它快进五到十年。我们可能正处在一个新时代的风口浪尖上。AI系统将能够围绕你的想象力动态地创造内容,无论你选择做什么,它都能生成引人入胜的故事情节。这将是终极版的‘选择你自己的冒险’游戏。” 这是一种深度的个性化体验。你打开的每一扇门背后的世界,都是为你即时生成的,独一无二。对于像Hassabis和伊隆·马斯克这样的资深玩家来说,这无疑是终极梦想。Hassabis甚至开玩笑说,等AGI被安全地引导到世界之后,他的“退休”计划之一就是投身于物理理论,另一个就是用AI技术做一款这样的游戏。在他看来,这两件事是相通的——因为一个尽可能真实的模拟游戏,本身就是对“宇宙是什么”以及“P vs NP”这些终极问题的探索。 AGI之路:不只是扩大规模,还需要“品味”和“顿悟” Hassabis乐观地预测,我们有50%的可能在2030年前实现通用人工智能(AGI)。但他设定的标准非常高:AGI必须具备人类大脑那样的全面认知能力,而不是在某些方面超强、在另一些方面却漏洞百出的“锯齿状智能”。...

July 24, 2025 · 1 min · fisherdaddy