Genie

本文整理自 Google 官方发布的 Demis Hassabis，Google DeepMind 的 CEO，与主持人 Logan Kilpatrick 对话，在本期节目中，你将了解到从游戏 AI 到当今思考模型的演变过程，像 Genie 3 这样的项目如何构建世界模型以帮助 AI 理解现实，以及为什么需要 Kaggle 的 Game Arena 等新的测试场来评估迈向通用人工智能（AGI）的进展。如果你觉得最近AI的发展速度快得让人喘不过气，那你不是一个人。就连Google DeepMind的CEO Demis Hassabis自己都开玩笑说：“我们几乎每天都在发布新东西，快到连我们内部员工都感觉有点跟不上了。” 从能解开国际奥数金牌难题的DeepThink，到能凭空生成可玩游戏的Genie 3，再到其他几十个大大小小的项目，AI的浪潮一波接一波，让人目不暇接。在这场与Demis Hassabis的对话中，我们得以一窥这位AI领域的先行者，是如何看待当前的技术进展，以及他心中那幅通往通用人工智能（AGI）的宏伟蓝图。 “会思考”的AI：不只是输出答案，更是推理和规划还记得当年震惊世界的AlphaGo吗？Demis坦言，如今备受关注的“思考模型”（Thinking Models），其实是对DeepMind早期在游戏领域探索的一种回归和升华。从创立之初，DeepMind就专注于研究**“智能体系统”（agent-based systems）——那种能够完成整个任务，而不仅仅是预测下一个词的系统。在AlphaGo的时代，这个“任务”是下好一盘棋。它不仅仅依赖直觉（像今天大语言模型的“第一反应”），更重要的是它拥有强大的思考、规划和推理**能力。 “你不想只得到模型想到的第一件事，”Demis解释道，“你希望它能像我们一样，反复审视和优化自己的思路，最终找到最佳方案。” 这种“深度思考”的能力，正是AI从一个单纯的语言工具，进化为真正解决复杂问题的伙伴的关键。无论是在数学、编程、科学探索，还是游戏中，AI都需要先“想清楚”再行动。 AI的“参差感”：一面是天才，一面是“萌新” 尽管AI取得了惊人的成就，比如基于Gemini的IMO模型已经能拿下奥数金牌，但Demis也坦率地指出了当前AI系统一个非常有趣的特点——“参差不齐的智能”（Jagged Intelligence）。什么意思呢？就是说，这些模型在某些维度上表现得像个超级天才，但在另一些看似简单的事情上，却又错得离谱。天才的一面：能解决顶尖的数学难题，能理解复杂的科学论文。 “萌新”的一面：可能会在高中难度的数学题上犯错，玩个国际象棋甚至连规则都遵守不了（一个普通玩家都能轻松打败它），或者连“草莓（strawberry）里有几个r”这种简单问题都数不清。 “这种现象说明，我们的系统里肯定还缺少了某些关键的东西，”Demis认为。这可能是在推理、规划或记忆方面的某些核心机制。这也意味着，光靠扩大模型规模（scaling）可能不够，我们还需要新的创新。 Genie 3：AI不只理解世界，还能“创造世界” 为了让AI真正理解我们所处的物理世界，DeepMind正在构建一个叫做**“世界模型”（World Model）**的东西。这个模型的目标，是让AI掌握世界的物理规律——比如重力、液体流动、物体材质，甚至是生物的行为模式。而Genie 3，就是这个“世界模型”研究中一个令人瞠目结舌的产物。它能做什么？它可以根据一张图片或一段文字，生成一个完整、连贯、且可以互动的微缩游戏世界。这和普通的视频生成有本质区别。Genie 3生成的不是一段固定的视频，而是一个动态的、有内在逻辑的世界。当你在这个世界里“向左走”，然后“向右走”回来，你会发现原来的场景依然在那里，分毫不差。这证明它不是在“画画”，而是在脑海里构建了一个真实的三维空间模型。这个技术有什么用？Demis提到了几个激动人心的方向：为AI提供无限的训练数据：我们可以让另一个AI智能体（比如DeepMind的Simma）进入Genie 3生成的世界里进行训练。这就好比一个AI在另一个AI的“梦境”里学习，为机器人、自动驾驶等需要理解物理世界的领域提供了近乎无限的、安全的训练环境。颠覆互动娱乐：想象一下未来的游戏，世界是动态生成的，剧情是实时演变的。这可能会催生介于电影和游戏之间的全新娱乐形式。探索现实的本质：当AI能如此逼真地模拟世界时，这本身也促使我们这些创造者去思考更深层次的哲学问题，比如“现实的本质是什么？”、“我们自己是否也身处一个模拟之中？” 玩游戏才是正经事：用Game Arena为AI“大考” 既然现有评测标准（Benchmark）已经快被AI刷满了（比如在某些数学测试上已经达到99%以上的准确率），那么我们该如何更准确地衡量AI的能力，尤其是它们那些“参差不齐”的地方呢？ Demis给出的答案是：回到游戏。 DeepMind与全球最大的数据科学社区Kaggle合作，推出了Game Arena。这是一个让不同AI模型在各种游戏中一决高下的竞技场。为什么游戏是绝佳的评测工具？客观公正：输赢一目了然，得分非常客观，没有主观偏见。难度自适应：随着AI变强，它们的对手（其他AI）也在变强，测试难度会自动提升，永远不会“饱和”。永不重复：每一局游戏都是独一无二的，杜绝了模型“背题库”的可能。 Game Arena目前从国际象棋开始，未来计划扩展到成千上万种游戏，包括棋盘游戏和电脑游戏。最终，我们可能会看到一个综合评分，来评估一个AI在广泛任务上的通用能力。甚至，未来可能会要求AI自己发明新游戏，并教会其他AI玩，这才是对学习和泛化能力的终极考验。走向“全能模型”（Omni Model）的终极之路谈到未来，Demis描绘了一个清晰的图景：融合。...