天脉网 | 天脉新媒体中心主办！
手机版
二维码

时事快闻

当前位置：首页 > 天脉资讯 > 游戏天地 > 正文内容

大模型对决“你画我猜”，Claude6局3胜，GPT-4表现让人捉摸不透？

时间：2024-11-03 14:27 来源：天脉网作者：冯璃月

在人工智能领域，一场别开生面的“你画我猜”游戏悄然兴起，吸引了众多大型语言模型的参与与人类观众的热烈围观。这场独特的比赛不仅为人工智能的能力评估提供了一个新的视角，还激发了关于AI训练方式的广泛讨论。

在这场游戏中，Grok负责绘制图像，如长颈鹿等，而其他大型语言模型如GPT-4o、Claude、Llama、Gemini等则根据图像内容进行猜测。这种新颖的测试基准不仅考验了模型的图像识别能力，还间接反映了它们的逻辑推理和语言组织能力。在一系列六局比赛中，Claude表现出色，赢得了三场胜利，而GPT-4o的回答则显得较为抽象，例如其绘制的龙卷风图像连人类也难以解读。

GPT-4o的“抽象派”作风在游戏中尤为突出，它经常以“Circle”作为首个回答，让人哭笑不得。相比之下，其他模型在大多数轮次中都表现得更为认真和准确。这一游戏不仅为观众带来了欢乐，也引发了关于AI能力评估的新思考。有人提议，这种游戏可以作为评估大型语言模型能力的新基准，甚至有人担忧，如果按照这个速度发展，人类或许将只能作为旁观者。

不过，并非所有题目都如此复杂。在较为简单的题目上，如房子、草地和海洋，所有模型都能在短时间内准确猜出答案。这显示了大型语言模型在基本图像识别方面的强大能力。然而，当涉及到更复杂的主题，如大象时，模型们则需要更多的回合来猜测正确答案。

这场“你画我猜”游戏的起源可以追溯到Simon Willison的一次测试，他让不同的大型语言模型绘制同一主题的图像以进行比较。随后，Paul Calcraft看到了这一测试的潜力，并决定将其发展成一个游戏。仅仅一天后，他就发布了游戏的0.0.1版，展示了惊人的执行力。网友们对这款游戏反应热烈，有人将其视为新的视觉基准测试，并提出了优化建议，如以答对互相题目的速度作为评分准则或加入人类成绩作为参考。

尽管有人对这场游戏的意义持怀疑态度，认为它只是一种娱乐方式，但更多人看到了其背后的教育价值。游戏化学习是教育理论和心理学中的重要概念，通过游戏，大型语言模型或许能够更快地提升能力、学习新技能。这场“你画我猜”游戏不仅为人工智能领域带来了欢乐和思考，也为未来的AI训练方式提供了新的启示。

点赞 0反对 0举报 0 收藏 0

更多>同类天脉资讯

2K启动器正式下线，旗下游戏可直接通过Steam及Epic启动

有许多游戏厂商都推出了启动器来适配自家的游戏，但并非所有的游戏启动器都令玩家满意，例如越更新体验越差的2K启动器。近日2K在服务支持页面发布公告，表示2K启动器现已完全停止服务，并从Epic和Steam上…

11-26

杉果感恩节特惠来袭，上千款游戏平史低，7.9元秒杀Steam好评佳作！

《伊苏X -北境历险-》杉果券后仅需 198 元，大幅击破 Steam史低！游戏中包含随意变换大小的特殊能力，充满巧妙设计的关卡，以及柔软又丰满的果冻生物，Steam 涨价后史低已经提升至 9.5 元，杉…

11-26

三国杀谋曹操：清正之力，能否成为斗地主农民新宠？

首先，谋曹操的技能是可以随意转变的，但想要玩好谋曹操，在大轮次上可以调整技能的方向，但在小轮次中，调整方向无疑容易调整不回来，所以最好的打法就是让谋曹操只有一个形态，那就是清正强度叠满，带个标奸雄完全够用。…

11-26

《白夜极光》国服停服启示：仅靠“良心”能否拯救二次元游戏？

国服上线时候让玩家称赞的组合拳不只是价格心理上的优惠，从开服优化到一周的更新计划，腾讯向玩家传达了接手运营后非常积极的态度，包括游戏UI的重修、角色高清重制、更多新的活动等一系列内容和游戏品质相关改良，与国…

11-26

腾讯英特尔联手发布裸眼3D游戏掌机3D One，游戏视觉新体验

IT之家 11 月 26 日消息，在今日召开的 2024 英特尔新质生产力技术生态大会上，腾讯游戏携手英特尔共同发布了全球首款裸眼 3D PC游戏掌机 —— Sunday Dragon 3D One。 IT…

11-26

索尼新PS掌机曝光，或将兼容PS4/5游戏，还有神作联动高德地图！

】拿下TGA 2023最佳独立游戏的《星之海》，玩家数量已被宣告突破600万人，其DLC“秋分黎明”也在近日上线Steam，包含三人合作玩法、新的剧情动画，以及更为方便的“极速模式”等诸多新内容。此外官方还称…

11-26

腾讯英特尔联手发布3D One掌机，裸眼3D游戏体验新纪元

这是一款由腾讯游戏自研、英特尔提供技术支持，旨在探索裸眼3D技术在游戏场景应用的实验性产品。这款掌机的一大亮点就是在裸眼3D体验方面，3D One游戏掌机无需任何辅助设备，实时对左右眼输出不同的画面，从而交织…

11-26

云顶之弈新六费卡曝光，梅尔维克托成神，这获取概率你能接受吗？

相较来说，狼人沃里克的羁绊跟技能就有点逊色了，羁绊是处决生命值低于阈值的敌人，技能被动额外增加吸血、攻速跟物理伤害，在参与击杀一定敌人后获得不可阻挡的嗜血BUFF，而主动就是进入嗜血状态不吃控制。这张卡D到…

11-26

腾讯首发裸眼3D PC游戏掌机3D One，公测招募即将开启

来源：芯智讯 11月26日上午，在成都召开的英特尔新质生产力技术生产大会上，腾讯IEG/新互动产品中心总经理吴丹发布了全球首款裸眼3DPC游戏掌机——3D One游戏掌机。据介绍，3D One游戏掌机采用…

11-26

2K动捕工作室员工投票，成功迈出成立工会关键一步！

游戏开发商 2K Games位于美国加利福尼亚州的动作捕捉工作室的员工已经成功投票成立工会。继上个月工作室成员表示有意成立工会后，投票已由美国国家劳动关系委员会（NLRB）监督，并于周五以 15 票赞成、…

11-26

英雄联盟与三国杀COSPLAY比拼，谁才是你心中的“胸”涌之选？

三国杀和英雄联盟都是比较老牌的游戏了，只不过一个现在日落西山另一个还能苟延残喘几年，但在巅峰时期三国杀的热度绝对是不低于英雄联盟的。嗯，卡特的也是老图了，但咱就是说老不老的，她确实好看哇，但对比一下我还是更…

11-26

三国杀谋曹操农民强度解析：清正叠满，他才是斗地主完美武将？

11-26

2024 ATP赛场风云：阿尔卡拉斯遇弱不强，罗杰斯杯新王诞生！

却有这样一站大师赛，连续三年诞生了三个新的冠军，这就是罗杰斯杯。尽管如此，由于其决赛对手卢布列夫曾是响当当的ATP500赛之王，所以依然没有几个人看好这位澳大利亚人能笑到最后，然而，最终却是波佩林完胜对手，…

11-26

三国杀谋曹操新打法揭秘：清正叠满，斗地主农民新宠？

11-26

三国杀谋曹操：清正之力崛起，为何成为斗地主农民新宠？

11-26

点击查看更多 +

全站最新

炖鸡肉必备！四种香料让你告别腥柴，鸡肉香嫩多汁有秘诀

饮品界巨头聚首上海，共探差异化增长之路

冬日护眼佳肴！胡萝卜牛肉丝，简单营养又美味

寒冬羊肉虽暖身，这五种羊肉却吃不得，你中招了吗？

中老年人必看！五种健康小零食，解馋又养生，别再省了！

中投公司换帅！张青松接任董事长，彭纯功绩被高度肯定

热门内容

媒体信息

新传播周刊

新传播，传播新经济之声！

本栏最新

2K启动器正式下线，旗下游戏可直接通过Steam及Epic启动

杉果感恩节特惠来袭，上千款游戏平史低，7.9元秒杀Steam好评佳作！

三国杀谋曹操：清正之力，能否成为斗地主农民新宠？

《白夜极光》国服停服启示：仅靠“良心”能否拯救二次元游戏？

腾讯英特尔联手发布裸眼3D游戏掌机3D One，游戏视觉新体验

索尼新PS掌机曝光，或将兼容PS4/5游戏，还有神作联动高德地图！