天脉网 | 天脉新媒体中心主办！
手机版
二维码

时事快闻

当前位置：首页 > 天脉资讯 > 游戏天地 > 正文内容

高中生打造MC-Bench，让AI在《我的世界》里一决高下

时间：2025-03-22 22:13 来源：天脉网作者：钟景轩

在探索生成式人工智能（AI）能力评估的新边界时，传统的基准测试方法正逐渐被更具创新性的方案所取代。12年级学生阿迪·辛格引领的这一潮流尤为引人注目，他选择了一款全球知名的游戏——《我的世界》（Minecraft），作为评估AI的新舞台。

Minecraft游戏画面

辛格与合作伙伴共同开发的Minecraft Benchmark（MC-Bench）平台，旨在通过《我的世界》中的创作挑战来比拼AI模型的能力。用户参与投票，决定哪个AI的作品更胜一筹，且只有在投票后才能揭晓作品的创作者身份。这一创意利用了《我的世界》的广泛认知度，使非专业人士也能轻松理解并评价AI的进步。

辛格强调，《我的世界》不仅是一款游戏，更是一个易于理解且深受喜爱的平台，有助于直观展示AI的发展成果。其画面风格和游戏氛围为人们所熟知，使得AI的创作成果更容易被大众所接受和评判。

MC-Bench平台界面

MC-Bench平台目前已有多家知名公司参与，包括Anthropic、谷歌、OpenAI和阿里巴巴，它们提供了产品支持以运行基准测试提示，但并未直接参与项目开发。辛格表示，目前的挑战主要集中在简单的构建任务上，旨在反映自GPT-3时代以来AI领域的进步。未来，他计划扩展到更复杂的长期项目和目标导向任务，认为游戏作为一种测试媒介，相较于现实生活更加安全且易于控制。

事实上，《我的世界》并非首个被用作AI基准测试的游戏。《精灵宝可梦红》、《街头霸王》和《你画我猜》等游戏也曾被尝试用于此目的，这反映出传统AI基准测试的局限性。标准化评估虽然常见，但往往让AI在某些领域占据天然优势，尤其是那些依赖记忆和简单推理的任务。

AI在MC-Bench中的创作示例

从技术角度看，MC-Bench是一种编程基准测试，要求AI模型根据提示编写代码（即在游戏中构建物体）。然而，对于大多数用户而言，判断一个雪人或海滩小屋是否美观，远比深入分析代码来得简单直观。这种直观的评估方式使得MC-Bench具有广泛的吸引力，并有助于收集更多关于模型性能的数据。

尽管MC-Bench的测试结果对AI实用性的影响尚存争议，但辛格认为这是一个积极的信号。他指出，MC-Bench的排行榜与他个人使用这些模型的经验高度一致，这与许多纯文本基准测试形成鲜明对比。因此，MC-Bench或许能为相关公司提供有价值的反馈，帮助它们判断自身是否正朝着正确的方向发展。

点赞 0反对 0举报 0 收藏 0

更多>同类天脉资讯

小白龙取经路上的“职级”之谜：为何他只能喊八戒沙僧“师兄”？

所以，在这种“职级”关系下，哪怕小白龙加入团队早，也得认八戒、沙僧是“师兄”，因为人家是“正式编制内”的！八戒和沙僧虽然来得晚，但他们是唐僧亲口收的徒弟，小白龙就只能默认自己是“编外人员”，规规矩矩喊人家…

03-22

安琪拉成赛季上分密码？克制甄姬小乔，轻松赢得比赛

同时安琪拉不怕小乔，因为安琪拉前期在线上是有能力压着小乔打的，特别是四级之后的安琪拉，甚至可以做到让小乔很难出塔，而且小乔只要被安琪拉的二技能命中可以说没有任何还手的机会，反之，安琪拉的大招还能规避小乔的二…

03-22

这款解压游戏，竟让我对丝袜有了新“认识”？

游戏也不全是收拾屋子、锅啥的，咱们也可以收拾人，比如这关就是给小姐姐卸妆，姬有些苦手啊，算了硬着头皮上……姬有些害怕，不过想了想可能有的姬友就好这口，姬只能默默凝视了。游戏提示同样很难评，比如清理水池关卡…

03-22

BT小游戏风靡背后：乐趣无限，社交新宠，你中招了吗？

但与此同时，我们也应该认识到，许多玩家对BT小游戏的热爱也源于其独特的乐趣和自由感。总的来说，BT小游戏以其独特的魅力吸引了大量玩家。其乐趣、自由与社交的魅力，让许多玩家在这个虚拟的世界中找到属于自己的快乐…

03-22

QQ小游戏：多样玩法社交乐，便捷体验乐无边

此外，QQ小游戏还提供了丰富的社区功能，玩家可以在社区中交流心得、分享经验，形成一个互动、共享的游戏世界。综上所述，QQ小游戏以其多样化的玩法、便捷的操作、社交的功能以及不断的发展和创新，赢得了众多玩家的青…

03-22

《TNT游戏》：探索虚拟世界的无限魅力与深度社交体验

这些社交互动不仅提升了玩家的游戏体验，还在虚拟世界中建立了真正的友谊。它通过丰富多样的玩法、精美的地图设计、简单的战斗系统、吸引人的社交互动、持续的游戏更新、独特的经济系统以及玩家的成长和成就感，为玩家创造了…

03-22

《古墓丽影9》深度攻略：跟随劳拉，揭秘遗迹，解锁冒险新体验！

这些谜题不仅考验玩家的逻辑思维和观察力，也让玩家在游戏中学习到历史和文化知识。根据游戏设计师的访谈，他们强调在战斗中灵活运用环境和武器的策略性。每个boss都有其独特的攻击方式和弱点，根据资深玩家的经验分享，…

03-22

《恐龙快打》：经典街机魅力何在？探寻玩家心中不灭的游戏之魂

《恐龙快打》是一款自1993年由南梦宫推出的经典街机游戏，至今仍受到广大玩家的热爱与追捧。根据市场统计数据，现在仍有大量玩家在模拟器上重温这款游戏，甚至有些人会购买复刻版街机设备，以体验当年的氛围。希望未来能…

03-22

游戏绘制全攻略：创意启航，打造你的个性化游戏宇宙

对于热爱游戏并希望亲自设计和绘制游戏的人来说，了解“游戏怎么画”显得尤为重要。通过深入了解游戏类型和风格、角色设计、场景、道具与物品设计等方面的知识，并持续学习和练习，每一个热爱游戏绘制的人都能找到属于自己的…

03-22

任天堂：从红白机到Switch，游戏产业的传奇与创新之旅

这些游戏不仅仅是简单的娱乐，它们承载了许多玩家的童年和青春回忆。此外，任天堂对老字号游戏的持续关注，让新老玩家都能体验到经典游戏的魅力。其独特的设计、经典的游戏、精准的市场策略以及广泛的文化影响力，使得任天堂…

03-22

北京环球度假区新玩法！首开“原神”主题餐厅，沉浸式体验来袭

在近两个小时的互动体验中，涵盖了用餐、见面会、演出和互动游戏等多种形式，为游客提供了沉浸式体验空间。北京环球度假区表示，未来将持续探索把广受中国消费者欢迎的本土IP故事和潮流娱乐引入季节性活动中，满足中国年…

03-22

剧本杀：沉浸式推理盛宴，多元互动为何让人欲罢不能？

或许你在朋友聚会时偶尔听到过这个词，或者在社交媒体上浏览到了相关的讨论，但你是否真正了解剧本杀是何物，它究竟有何魅力，为何越来越多的人沉迷其中呢？每种玩法都有其独特的魅力，如推理类剧本满足了解谜爱好者的需求，…

03-22

微信小游戏风靡背后：轻松娱乐与社交互动的新宠

游戏中的竞争机制、排行榜和分享功能等，不仅增加了游戏的趣味性，也使得玩家在玩游戏的过程中能够与朋友保持联系。这些创新不仅吸引了更多的玩家关注，也提升了游戏的可玩性。它不仅丰富了我们的娱乐方式促进了社交互动还创…

03-22

《吃鸡游戏》：探索生存竞技的魅力，你准备好成为最后的赢家了吗？

对于PC玩家来说，通过Steam平台是最常见的游戏购买和注册方式。每次游戏的体验都是独一无二的，这也让人对每一局充满期待。总的来说，《吃鸡游戏》不仅仅是一个简单的安装过程，而是一个充满挑战、竞争和乐趣的旅程…

03-22

红魔游戏手机：游戏爱好者的挚爱，性能与设计并重引领潮流

在外观设计方面，红魔游戏手机融入了极具未来感的设计元素，独特的RGB灯光系统更是其标志性的特色之一。在软件体验方面，红魔游戏手机也注重细节设计。总的来说，红魔游戏手机凭借其出色的性能、独特的设计和良好的…

03-22

点击查看更多 +

全站最新

高中生打造MC-Bench，让AI在《我的世界》里一决高下

小白龙取经路上的“职级”之谜：为何他只能喊八戒沙僧“师兄”？

安琪拉成赛季上分密码？克制甄姬小乔，轻松赢得比赛

这款解压游戏，竟让我对丝袜有了新“认识”？

BT小游戏风靡背后：乐趣无限，社交新宠，你中招了吗？

QQ小游戏：多样玩法社交乐，便捷体验乐无边

热门内容

媒体信息

新传播周刊

新传播，传播新经济之声！

本栏最新

高中生打造MC-Bench，让AI在《我的世界》里一决高下

小白龙取经路上的“职级”之谜：为何他只能喊八戒沙僧“师兄”？

安琪拉成赛季上分密码？克制甄姬小乔，轻松赢得比赛

这款解压游戏，竟让我对丝袜有了新“认识”？

BT小游戏风靡背后：乐趣无限，社交新宠，你中招了吗？

QQ小游戏：多样玩法社交乐，便捷体验乐无边