美国当地时间周三,谷歌旗下人工智能研究机构DeepMind推出了一款新模型Genie 2。作为今年初推出的Genie模型的升级版,Genie 2标志着人工智能在虚拟世界生成领域的一次重大突破。
作为一种基础世界生成模型,Genie 2能够凭借一张图生成无限多样的、可操控且可玩的3D环境,用于训练和评估具身智能体。
DeepMind宣称,Genie 2能够生成“丰富多样的3D世界”,用户可通过鼠标或键盘在这些世界中自由跳跃、游泳等。经过视频训练,该模型能够精准模拟物体的交互、动画效果、照明、物理现象、反射效果以及“NPC”(非玩家角色)的行为。
DeepMind 发布的演示视频,就生动展示了用户与Genie 2的互动过程。
首先,系统使用Imagen 3根据文字描述生成初始图片。然后,Genie 2就能基于这张图片创造出一个完整的互动世界。最后,用户可以用键盘鼠标在这个世界里自由探索,而Genie 2会实时模拟生成你看到的每一帧画面。
更重要的是,DeepMind透露,Genie 2具备从不同视角(如第一人称视角与等距视角)生成连贯世界的能力,这些生成的世界可持续时间长达一分钟,尽管多数情况下维持在10到20秒之间。
事实上,谷歌对世界模型研究的投入正在持续扩大。今年 10 月,DeepMind 聘请了OpenAI前视频生成项目负责人Tim Brooks,同时两年前从Meta挖来了以开放式实验闻名的Tim Rocktäschel。