Google DeepMind CEO揭秘:从AlphaGo到可玩世界模型,AI的下一步是什么?
本文整理自 Google 官方发布的 Demis Hassabis,Google DeepMind 的 CEO,与主持人 Logan Kilpatrick 对话,在本期节目中,你将了解到从游戏 AI 到当今思考模型的演变过程,像 Genie 3 这样的项目如何构建世界模型以帮助 AI 理解现实,以及为什么需要 Kaggle 的 Game Arena 等新的测试场来评估迈向通用人工智能(AGI)的进展。 如果你觉得最近AI的发展速度快得让人喘不过气,那你不是一个人。就连Google DeepMind的CEO Demis Hassabis自己都开玩笑说:“我们几乎每天都在发布新东西,快到连我们内部员工都感觉有点跟不上了。” 从能解开国际奥数金牌难题的DeepThink,到能凭空生成可玩游戏的Genie 3,再到其他几十个大大小小的项目,AI的浪潮一波接一波,让人目不暇接。在这场与Demis Hassabis的对话中,我们得以一窥这位AI领域的先行者,是如何看待当前的技术进展,以及他心中那幅通往通用人工智能(AGI)的宏伟蓝图。 “会思考”的AI:不只是输出答案,更是推理和规划 还记得当年震惊世界的AlphaGo吗?Demis坦言,如今备受关注的“思考模型”(Thinking Models),其实是对DeepMind早期在游戏领域探索的一种回归和升华。 从创立之初,DeepMind就专注于研究**“智能体系统”(agent-based systems)——那种能够完成整个任务,而不仅仅是预测下一个词的系统。在AlphaGo的时代,这个“任务”是下好一盘棋。它不仅仅依赖直觉(像今天大语言模型的“第一反应”),更重要的是它拥有强大的思考、规划和推理**能力。 “你不想只得到模型想到的第一件事,”Demis解释道,“你希望它能像我们一样,反复审视和优化自己的思路,最终找到最佳方案。” 这种“深度思考”的能力,正是AI从一个单纯的语言工具,进化为真正解决复杂问题的伙伴的关键。无论是在数学、编程、科学探索,还是游戏中,AI都需要先“想清楚”再行动。 AI的“参差感”:一面是天才,一面是“萌新” 尽管AI取得了惊人的成就,比如基于Gemini的IMO模型已经能拿下奥数金牌,但Demis也坦率地指出了当前AI系统一个非常有趣的特点——“参差不齐的智能”(Jagged Intelligence)。 什么意思呢?就是说,这些模型在某些维度上表现得像个超级天才,但在另一些看似简单的事情上,却又错得离谱。 天才的一面:能解决顶尖的数学难题,能理解复杂的科学论文。 “萌新”的一面:可能会在高中难度的数学题上犯错,玩个国际象棋甚至连规则都遵守不了(一个普通玩家都能轻松打败它),或者连“草莓(strawberry)里有几个r”这种简单问题都数不清。 “这种现象说明,我们的系统里肯定还缺少了某些关键的东西,”Demis认为。这可能是在推理、规划或记忆方面的某些核心机制。这也意味着,光靠扩大模型规模(scaling)可能不够,我们还需要新的创新。 Genie 3:AI不只理解世界,还能“创造世界” 为了让AI真正理解我们所处的物理世界,DeepMind正在构建一个叫做**“世界模型”(World Model)**的东西。这个模型的目标,是让AI掌握世界的物理规律——比如重力、液体流动、物体材质,甚至是生物的行为模式。 而Genie 3,就是这个“世界模型”研究中一个令人瞠目结舌的产物。它能做什么? 它可以根据一张图片或一段文字,生成一个完整、连贯、且可以互动的微缩游戏世界。 这和普通的视频生成有本质区别。Genie 3生成的不是一段固定的视频,而是一个动态的、有内在逻辑的世界。当你在这个世界里“向左走”,然后“向右走”回来,你会发现原来的场景依然在那里,分毫不差。这证明它不是在“画画”,而是在脑海里构建了一个真实的三维空间模型。 这个技术有什么用?Demis提到了几个激动人心的方向: 为AI提供无限的训练数据:我们可以让另一个AI智能体(比如DeepMind的Simma)进入Genie 3生成的世界里进行训练。这就好比一个AI在另一个AI的“梦境”里学习,为机器人、自动驾驶等需要理解物理世界的领域提供了近乎无限的、安全的训练环境。 颠覆互动娱乐:想象一下未来的游戏,世界是动态生成的,剧情是实时演变的。这可能会催生介于电影和游戏之间的全新娱乐形式。 探索现实的本质:当AI能如此逼真地模拟世界时,这本身也促使我们这些创造者去思考更深层次的哲学问题,比如“现实的本质是什么?”、“我们自己是否也身处一个模拟之中?” 玩游戏才是正经事:用Game Arena为AI“大考” 既然现有评测标准(Benchmark)已经快被AI刷满了(比如在某些数学测试上已经达到99%以上的准确率),那么我们该如何更准确地衡量AI的能力,尤其是它们那些“参差不齐”的地方呢? Demis给出的答案是:回到游戏。 DeepMind与全球最大的数据科学社区Kaggle合作,推出了Game Arena。这是一个让不同AI模型在各种游戏中一决高下的竞技场。为什么游戏是绝佳的评测工具? 客观公正:输赢一目了然,得分非常客观,没有主观偏见。 难度自适应:随着AI变强,它们的对手(其他AI)也在变强,测试难度会自动提升,永远不会“饱和”。 永不重复:每一局游戏都是独一无二的,杜绝了模型“背题库”的可能。 Game Arena目前从国际象棋开始,未来计划扩展到成千上万种游戏,包括棋盘游戏和电脑游戏。最终,我们可能会看到一个综合评分,来评估一个AI在广泛任务上的通用能力。甚至,未来可能会要求AI自己发明新游戏,并教会其他AI玩,这才是对学习和泛化能力的终极考验。 走向“全能模型”(Omni Model)的终极之路 谈到未来,Demis描绘了一个清晰的图景:融合。...