近期,谷歌旗下的人工智能研究先锋DeepMind,在美国当地时间周三震撼发布了其最新研发成果——Genie 2模型。这一升级版本,继今年早些时候推出的Genie模型后,再次在虚拟世界生成领域取得了突破性进展。
Genie 2被定位为一种基础世界生成模型,其独特之处在于,仅凭一张图片,就能生成无数种可操控、可探索的3D环境。这些环境不仅多样,而且非常适合用于训练和评估具身智能体,为人工智能领域带来了全新的可能性。
DeepMind自豪地宣称,Genie 2能够构建出“丰富而多样的3D世界”。用户在这些世界中,可以通过鼠标或键盘自由移动,如跳跃、游泳等,体验仿佛置身于真实环境般的互动感。经过视频训练,Genie 2能够精确模拟物体的交互、动画效果、照明、物理现象、反射效果以及非玩家角色的行为,让用户体验更加逼真。
为了直观展示Genie 2的强大功能,DeepMind还发布了一段演示视频。视频中,系统首先利用Imagen 3根据文字描述生成了一张初始图片。随后,Genie 2基于这张图片,迅速构建出了一个完整的、可互动的3D世界。用户通过键盘和鼠标,在这个世界中自由探索,而Genie 2则实时生成用户所看到的每一帧画面,流畅且自然。
Genie 2还具备从不同视角生成连贯世界的能力,无论是第一人称视角还是等距视角,都能生成一致且连贯的世界。这些生成的世界可持续时间长达一分钟,尽管在多数情况下,它们会维持在10到20秒之间。这一功能无疑进一步增强了Genie 2的实用性和灵活性。
谷歌对世界模型研究的投入正在不断加大。为了推动这一领域的发展,DeepMind不仅在今年10月聘请了OpenAI前视频生成项目负责人Tim Brooks,还在两年前从meta挖来了以开放式实验闻名的Tim Rocktäschel。这些顶尖人才的加入,无疑为DeepMind在人工智能领域的研究注入了新的活力和动力。