AI版《超级马力欧兄弟》:Claude系列领先,推理模型为何掉队?

   时间:2025-03-04 16:54 来源:天脉网作者:江紫萱

加利福尼亚大学圣地亚哥分校的Hao人工智能实验室最近公布了一项引人入胜的研究,该研究将AI技术引入经典游戏《超级马力欧兄弟》中,以评估不同AI模型的性能。

在这次实验中,AI模型们并非面对1985年的原版游戏,而是游戏的一个模拟器版本。通过Hao实验室自主研发的GamingAgent框架,AI得以控制游戏主角马力欧。GamingAgent不仅向AI提供诸如“避开障碍物和敌人”的基本指令,还传输游戏内的实时截图。AI则通过生成Python代码来操控马力欧的行动。

实验结果令人惊讶。在参与测试的AI模型中,Anthropic的Claude 3.7表现最为抢眼,紧随其后的是Claude 3.5。而谷歌的Gemini 1.5 Pro和OpenAI的GPT-4o则未能展现出令人满意的水平。值得注意的是,此次实验中,一些通常在基准测试中表现强劲的推理模型,如OpenAI的o1,并未能在游戏中展现出同样的优势。研究人员指出,这类模型在实时游戏中往往需要较长时间来做出决策,而《超级马力欧兄弟》中,时机把握至关重要。

游戏作为衡量AI性能的工具已有数十年历史。然而,一些专家对此持保留态度,认为游戏环境相对抽象和简单,可能无法准确反映AI在现实世界中的表现。游戏能为AI提供理论上无限的数据,这在现实场景中是无法实现的。

最近,一些游戏基准测试的结果也引发了业界的广泛讨论。OpenAI的研究科学家安德烈・卡帕西甚至在社交媒体上表示,他目前对如何评估AI的性能感到困惑,不知道这些模型到底有多好。

尽管存在这些争议,但观看AI玩《超级马力欧兄弟》仍然是一种有趣的体验。这项研究不仅展示了AI技术的最新进展,也引发了人们对AI性能评估方法的深入思考。

 
反对 0举报 0 收藏 0
 
更多>同类天脉资讯
全站最新
热门内容
媒体信息
新传播周刊
新传播,传播新经济之声!
网站首页  |  关于我们  |  联系方式  |  版权隐私  |  网站留言  |  RSS订阅  |  违规举报