在探索生成式人工智能(AI)能力评估的新边界时,传统的基准测试方法正逐渐被更具创新性的方案所取代。12年级学生阿迪·辛格引领的这一潮流尤为引人注目,他选择了一款全球知名的游戏——《我的世界》(Minecraft),作为评估AI的新舞台。
辛格与合作伙伴共同开发的Minecraft Benchmark(MC-Bench)平台,旨在通过《我的世界》中的创作挑战来比拼AI模型的能力。用户参与投票,决定哪个AI的作品更胜一筹,且只有在投票后才能揭晓作品的创作者身份。这一创意利用了《我的世界》的广泛认知度,使非专业人士也能轻松理解并评价AI的进步。
辛格强调,《我的世界》不仅是一款游戏,更是一个易于理解且深受喜爱的平台,有助于直观展示AI的发展成果。其画面风格和游戏氛围为人们所熟知,使得AI的创作成果更容易被大众所接受和评判。
MC-Bench平台目前已有多家知名公司参与,包括Anthropic、谷歌、OpenAI和阿里巴巴,它们提供了产品支持以运行基准测试提示,但并未直接参与项目开发。辛格表示,目前的挑战主要集中在简单的构建任务上,旨在反映自GPT-3时代以来AI领域的进步。未来,他计划扩展到更复杂的长期项目和目标导向任务,认为游戏作为一种测试媒介,相较于现实生活更加安全且易于控制。
事实上,《我的世界》并非首个被用作AI基准测试的游戏。《精灵宝可梦红》、《街头霸王》和《你画我猜》等游戏也曾被尝试用于此目的,这反映出传统AI基准测试的局限性。标准化评估虽然常见,但往往让AI在某些领域占据天然优势,尤其是那些依赖记忆和简单推理的任务。
从技术角度看,MC-Bench是一种编程基准测试,要求AI模型根据提示编写代码(即在游戏中构建物体)。然而,对于大多数用户而言,判断一个雪人或海滩小屋是否美观,远比深入分析代码来得简单直观。这种直观的评估方式使得MC-Bench具有广泛的吸引力,并有助于收集更多关于模型性能的数据。
尽管MC-Bench的测试结果对AI实用性的影响尚存争议,但辛格认为这是一个积极的信号。他指出,MC-Bench的排行榜与他个人使用这些模型的经验高度一致,这与许多纯文本基准测试形成鲜明对比。因此,MC-Bench或许能为相关公司提供有价值的反馈,帮助它们判断自身是否正朝着正确的方向发展。