在人工智能技术的不断突破中,一家名为Decart与Etched的初创公司联手推出了一个颠覆性的创新——Oasis,一个无需游戏引擎即可实时交互并生成可玩Minecraft风格游戏的世界模型。这一成果不仅挑战了传统游戏开发的边界,更预示着生成式交互体验新时代的到来。
Oasis模型通过数百万小时的游戏视频数据进行训练,用户仅需通过键盘输入,即可实时体验一个开放世界的游戏。与传统的游戏引擎不同,Oasis的核心是一个AI基座模型,不包含任何游戏引擎组件。玩家可以在游戏中移动、跳跃、拾取物品和打破砖块,而这些操作不仅包含了图形学的渲染,还体现了对物理原则和游戏规则的理解。
Oasis在NVIDIA H100上运行时,能够以每秒20帧的速度在360p分辨率下实时生成视频交互内容,且没有延迟。尽管分辨率略显复古,但这一成果已经足够引人注目。Oasis不仅开源了代码,还公开了500M参数版本的模型权重,使得开发者可以进一步探索和应用这一技术。
更令人兴奋的是,如果在Etched打造的Sohu芯片上运行优化后的100B+参数模型,Oasis将能够达到4K级别的实时渲染,并发用户数量也将大幅提升。这一突破性的性能提升,使得Oasis在技术上具备了更广泛的应用前景。就在模型发布的当天,红杉资本也宣布以2100万美金投资了Decart,进一步证明了市场对这一技术的看好。
Oasis的技术核心在于其独特的视频生成模型架构。该模型基于Transformer架构,结合了基于ViT的变分自动编码器(VAE)和基于DiT的潜在扩散主干,通过加速的轴向、时空和因果注意力机制来克服长序列中的模型发散问题。这种架构使得Oasis能够像工厂一样分工明确,各个组件各司其职,实时生成游戏内容。
Oasis还展示了其在理解复杂游戏机制方面的能力,如物体和建筑的物理规律、照明的物理原理等。这些能力使得Oasis不仅仅是一个简单的游戏模型,而是一个真正的“世界模型”。然而,在生成游戏画面的过程中,如何保证时间稳定性是一个挑战。Oasis通过部署动态噪声技术,有效地解决了这一问题。
Decart和Etched这两家初创公司的联手合作,无疑为生成式交互体验开启了新的纪元。Decart专注于提高AI模型的效率和降低运行成本,而Etched则推出了专为Transformer架构打造的ASIC芯片Sohu,为LLM推理加速提供了前所未有的性能。这两家公司的强强联合,不仅推动了Oasis的诞生,更为人工智能技术的未来发展注入了新的活力。