本文整理自 Google 官方发布的 Demis Hassabis,Google DeepMind 的 CEO,与主持人 Logan Kilpatrick 对话,在本期节目中,你将了解到从游戏 AI 到当今思考模型的演变过程,像 Genie 3 这样的项目如何构建世界模型以帮助 AI 理解现实,以及为什么需要 Kaggle 的 Game Arena 等新的测试场来评估迈向通用人工智能(AGI)的进展。

如果你觉得最近AI的发展速度快得让人喘不过气,那你不是一个人。就连Google DeepMind的CEO Demis Hassabis自己都开玩笑说:“我们几乎每天都在发布新东西,快到连我们内部员工都感觉有点跟不上了。”

从能解开国际奥数金牌难题的DeepThink,到能凭空生成可玩游戏的Genie 3,再到其他几十个大大小小的项目,AI的浪潮一波接一波,让人目不暇接。在这场与Demis Hassabis的对话中,我们得以一窥这位AI领域的先行者,是如何看待当前的技术进展,以及他心中那幅通往通用人工智能(AGI)的宏伟蓝图。

“会思考”的AI:不只是输出答案,更是推理和规划

还记得当年震惊世界的AlphaGo吗?Demis坦言,如今备受关注的“思考模型”(Thinking Models),其实是对DeepMind早期在游戏领域探索的一种回归和升华。

从创立之初,DeepMind就专注于研究**“智能体系统”(agent-based systems)——那种能够完成整个任务,而不仅仅是预测下一个词的系统。在AlphaGo的时代,这个“任务”是下好一盘棋。它不仅仅依赖直觉(像今天大语言模型的“第一反应”),更重要的是它拥有强大的思考、规划和推理**能力。

“你不想只得到模型想到的第一件事,”Demis解释道,“你希望它能像我们一样,反复审视和优化自己的思路,最终找到最佳方案。”

这种“深度思考”的能力,正是AI从一个单纯的语言工具,进化为真正解决复杂问题的伙伴的关键。无论是在数学、编程、科学探索,还是游戏中,AI都需要先“想清楚”再行动。

AI的“参差感”:一面是天才,一面是“萌新”

尽管AI取得了惊人的成就,比如基于Gemini的IMO模型已经能拿下奥数金牌,但Demis也坦率地指出了当前AI系统一个非常有趣的特点——“参差不齐的智能”(Jagged Intelligence)

什么意思呢?就是说,这些模型在某些维度上表现得像个超级天才,但在另一些看似简单的事情上,却又错得离谱。

  • 天才的一面:能解决顶尖的数学难题,能理解复杂的科学论文。
  • “萌新”的一面:可能会在高中难度的数学题上犯错,玩个国际象棋甚至连规则都遵守不了(一个普通玩家都能轻松打败它),或者连“草莓(strawberry)里有几个r”这种简单问题都数不清。

“这种现象说明,我们的系统里肯定还缺少了某些关键的东西,”Demis认为。这可能是在推理、规划或记忆方面的某些核心机制。这也意味着,光靠扩大模型规模(scaling)可能不够,我们还需要新的创新。

Genie 3:AI不只理解世界,还能“创造世界”

为了让AI真正理解我们所处的物理世界,DeepMind正在构建一个叫做**“世界模型”(World Model)**的东西。这个模型的目标,是让AI掌握世界的物理规律——比如重力、液体流动、物体材质,甚至是生物的行为模式。

而Genie 3,就是这个“世界模型”研究中一个令人瞠目结舌的产物。它能做什么?

它可以根据一张图片或一段文字,生成一个完整、连贯、且可以互动的微缩游戏世界。

这和普通的视频生成有本质区别。Genie 3生成的不是一段固定的视频,而是一个动态的、有内在逻辑的世界。当你在这个世界里“向左走”,然后“向右走”回来,你会发现原来的场景依然在那里,分毫不差。这证明它不是在“画画”,而是在脑海里构建了一个真实的三维空间模型。

这个技术有什么用?Demis提到了几个激动人心的方向:

  1. 为AI提供无限的训练数据:我们可以让另一个AI智能体(比如DeepMind的Simma)进入Genie 3生成的世界里进行训练。这就好比一个AI在另一个AI的“梦境”里学习,为机器人、自动驾驶等需要理解物理世界的领域提供了近乎无限的、安全的训练环境。
  2. 颠覆互动娱乐:想象一下未来的游戏,世界是动态生成的,剧情是实时演变的。这可能会催生介于电影和游戏之间的全新娱乐形式。
  3. 探索现实的本质:当AI能如此逼真地模拟世界时,这本身也促使我们这些创造者去思考更深层次的哲学问题,比如“现实的本质是什么?”、“我们自己是否也身处一个模拟之中?”

玩游戏才是正经事:用Game Arena为AI“大考”

既然现有评测标准(Benchmark)已经快被AI刷满了(比如在某些数学测试上已经达到99%以上的准确率),那么我们该如何更准确地衡量AI的能力,尤其是它们那些“参差不齐”的地方呢?

Demis给出的答案是:回到游戏

DeepMind与全球最大的数据科学社区Kaggle合作,推出了Game Arena。这是一个让不同AI模型在各种游戏中一决高下的竞技场。为什么游戏是绝佳的评测工具?

  • 客观公正:输赢一目了然,得分非常客观,没有主观偏见。
  • 难度自适应:随着AI变强,它们的对手(其他AI)也在变强,测试难度会自动提升,永远不会“饱和”。
  • 永不重复:每一局游戏都是独一无二的,杜绝了模型“背题库”的可能。

Game Arena目前从国际象棋开始,未来计划扩展到成千上万种游戏,包括棋盘游戏和电脑游戏。最终,我们可能会看到一个综合评分,来评估一个AI在广泛任务上的通用能力。甚至,未来可能会要求AI自己发明新游戏,并教会其他AI玩,这才是对学习和泛化能力的终极考验。

走向“全能模型”(Omni Model)的终极之路

谈到未来,Demis描绘了一个清晰的图景:融合

目前,我们有处理语言的Gemini,生成视频的VEO,创造世界的Genie。它们在各自的领域都非常出色,但它们是分离的。未来的方向,是将这些能力整合进一个统一的**“全能模型”(Omni Model)**中。

这个模型将不再有模态的边界,它能看、能听、能说、能思考、能创造,就像一个真正通用的智能体。

同时,**工具使用(Tool Use)**将成为AI能力放大的关键。模型在思考过程中,可以随时调用外部工具,比如搜索引擎、计算器、代码解释器,甚至是AlphaFold这样的专业AI模型。

这就引出了一个有趣的设计哲学:哪些能力应该内置于模型本身,哪些应该作为外部工具?Demis的判断标准是:如果一项能力(比如数学和编程)能提升模型在所有其他任务上的表现(lifts all boats),那就应该内置。反之,如果过于专业化,可能会损害通用性,那么作为工具调用或许更合适。

从早年的AlphaGo,到如今的“思考模型”和“世界模型”,再到未来的“全能模型”,DeepMind的探索之路始终围绕着一个核心目标:构建真正通用的智能。而对于Demis个人来说,他还有一个藏在心底的梦想——当AGI安全地实现后,他想回过头,用这些亲手创造的、最强大的工具,去制作一款前所未有的、最伟大的游戏。这或许是对他职业生涯最好的致敬。