微软近期在游戏领域迈出了一大步,推出了名为Muse的新一代生成式AI模型,该成果在《自然》杂志上发表,引起了业界的广泛关注。Muse的核心是一个被称为“世界与人类行为模型”(WHAM)的生成式架构,它通过学习《Bleeding Edge》游戏中超过7年的玩家数据,形成了对3D空间中物体、角色和环境交互方式的深刻理解。
这些数据包括约50万场匿名化的游戏对局录像,总计27.89TB,被降采样并处理成约14亿帧训练样本。WHAM模型不仅学习了游戏物理规则,还能理解玩家控制器动作对游戏的影响,这使得Muse能够生成连贯且多样的游戏玩法,为游戏创作者提供了全新的工具。
从技术层面来看,Muse采用了主流的Transformer架构,包含16亿参数,能够处理每秒10帧的游戏画面和控制器输入序列。为了高效编码数据,模型使用了VQGAN将每帧游戏画面压缩为540个离散标记,并将Xbox手柄的输入离散化为具体的区间和状态。
WHAM模型的训练分为两个阶段:首先是VQGAN编码器/解码器的训练,以确保压缩后的图像质量;其次是Transformer的因果预测训练,用于预测下一个标记。通过这种方法,Muse在一致性、多样性和持久性方面表现出色。
具体而言,一致性通过比较模型生成的10秒视频序列与真实游戏录像的差异来评估,结果显示模型能够生成长达2分钟的连贯序列。多样性则通过比较模型生成的控制器操作序列与真实玩家行为的分布差异来评估,模型展现出了行为多样性和视觉多样性。持久性测试表明,模型能够在后续生成的画面中保持用户编辑的内容。
微软表示,Muse的应用场景广泛,可用于游戏原型开发、经典游戏的现代化改造、游戏资产生成以及NPC行为模拟等领域。然而,尽管微软对Muse寄予厚望,但开发者群体对此技术的反应却褒贬不一。
资深游戏开发者David Goldfarb直言不讳地批评了生成式AI在游戏行业的应用,他认为这项技术实际上是在贬低和剥夺游戏开发者和艺术家们的美学积累。一些匿名开发者也表达了类似的担忧,他们认为AI正在逐步取代人工开发者的工作,而行业动荡使得人们害怕因为反对AI而失去工作。
不过,并非所有人都对AI在游戏开发中的应用持否定态度。Creative Assembly的开发总监Marc Burrage承认,在原型设计阶段,AI确实可能提供帮助。但他也强调,原型设计既重视过程也重视结果,开发者必须亲历这个过程才能获得所有的学习。
微软游戏AI部门副总裁Fatima Kardar在公告中表示,他们认为通过合作和负责任的方式引导生成式AI的发展,对支持游戏行业和创作社区非常重要。然而,从开发者们的反应来看,微软要想说服他们接受这项技术,还有很长的路要走。
这场争议折射出了游戏行业面临的一个更深层次的问题:随着AI技术在创意产业的渗透,如何在提升效率与保护创作者利益之间取得平衡?在游戏这样高度依赖人类创造力的领域,AI究竟应该扮演什么样的角色?这些问题的答案或许将决定游戏行业的未来发展方向。