甲骨文公司近期揭晓了其最新的人工智能模型——Claude 3.7 Sonnet,该模型据称融合了推理能力和实时文本生成功能,成为市场上独一无二的混合模型。
Claude 3.7 Sonnet的一大亮点在于其拓展思考能力。与OpenAI的o3-mini和Deepseek R1类似,Claude 3.7 Sonnet可以通过增加计算资源和时间成本,应对更为复杂的推理挑战。为了验证这一能力,甲骨文选择了一个有趣的测试方式:让模型参与游戏。
在一篇博客文章中,甲骨文透露,他们在经典游戏《精灵宝可梦(红)》中测试了Claude 3.7 Sonnet。为了给模型提供足够的自由度,公司为其配备了基础内存、屏幕像素输入和功能调用功能,使其能够不受上下文限制地连续闯关。测试结果显示,Claude 3.7 Sonnet的表现相较于之前的3.0版本有了显著提升。3.0版本甚至无法离开新手村,而3.7版本已经成功挑战到宝可梦道馆的Boss,并赢得徽章。
然而,甲骨文并未透露达到这一成就所需的计算能力和每关所耗费的时间。他们仅表示,Claude 3.7 Sonnet在执行了35000次操作后才成功挑战到最后的道馆馆主Surge。
利用游戏作为人工智能模型的基准测试在业界并不新鲜。例如,加州理工大学和英伟达的一支团队就曾推出Voyager组件,与GPT-4合作攻略热门游戏《我的世界》。Voyager包括自动课程、技能库和迭代提示机制等关键模块,表现出强大的情境学习能力,优于基准人工智能模型。
最近,微软也加入了AI打游戏的行列。他们推出了一款名为Muse的模型,可以生成游戏视觉效果和控制器输入,旨在支持游戏设计时的创造力。Muse已经在多人竞技战斗游戏《Bleeding Edge》中进行训练,据Gaming AI公司副总裁Fatima Kardar介绍,Muse的突破之处在于其对3D游戏的深入了解,包括游戏物理和玩家控制操作的反应,能够创建一致且多样化的游戏玩法。
随着技术的不断进步,AI在游戏领域的应用将越来越广泛,为游戏创作者和玩家带来更多可能性。