介绍一下 Google 最新发布的世界模型 Genie 3
Genie 3 是一项在世界模型领域取得重大突破的技术,其核心能力在于实时创造可供探索的虚拟环境。它不仅能模拟物理世界和自然生态,还能构建富有想象力的虚构场景。该模型的主要目标是推动人工智能研究,特别是为机器人等具身智能体(embodied agent)提供一个广阔、一致且可控的训练平台,从而加速通用人工智能(AGI)的进程。Google DeepMind 强调负责任的开发,目前以有限研究预览的形式发布 Genie 3,以便在探索其潜力的同时,收集反馈并管理相关风险。 您的浏览器不支持视频标签。 核心技术与能力 多样的世界生成:Genie 3 能够生成各种类型的世界,包括: 物理模拟:模拟水流、光照等物理现象和复杂的环境互动。 自然生态:生成包含动植物行为的生动生态系统。 虚构动画:创造富有想象力的奇幻场景和动画角色。 历史与地理探索:重现特定地点(如阿尔卑斯山)和历史时期。 实时交互性:模型实现了高度的可控性和实时互动。它能在一秒内多次响应用户的导航输入,实现流畅的实时探索体验。 长期环境一致性:Genie 3 生成的环境能在数分钟内保持高度的物理一致性,其视觉记忆可追溯至一分钟前。这是一种“涌现”能力,与依赖显式 3D 表征的 NeRFs 或 Gaussian Splatting 等技术不同。 可提示的世界事件:除了导航控制,用户还可以通过文本指令(promptable world events)来改变世界,例如更改天气或引入新物体,极大地增强了互动性和场景的丰富度。 应用与未来方向 推动智能体研究:Genie 3 已被用于为 Google 的通用智能体 SIMA 提供训练环境。由于其环境的一致性,智能体可以在其中执行更长、更复杂的任务序列。 未来潜力:该技术有望在教育、专业培训、机器人和自动驾驶系统等领域创造新的机会,提供一个广阔的平台来训练和评估智能体的性能。 局限性与责任 当前局限性: 智能体可直接执行的动作空间有限。 精确模拟多个独立智能体之间的复杂互动仍是挑战。 无法完美准确地再现真实世界的地理位置。 文本渲染效果不佳。 连续互动时长限制在几分钟内。 负责任的开发:Google DeepMind 认识到该技术的潜在风险,与责任创新团队紧密合作。目前,Genie 3 作为有限研究预览版,仅向一小部分学者和创作者开放,以收集反馈,确保技术以安全、负责任的方式发展。