在人工智能领域,一场别开生面的“你画我猜”游戏悄然兴起,吸引了众多大型语言模型的参与与人类观众的热烈围观。这场独特的比赛不仅为人工智能的能力评估提供了一个新的视角,还激发了关于AI训练方式的广泛讨论。
在这场游戏中,Grok负责绘制图像,如长颈鹿等,而其他大型语言模型如GPT-4o、Claude、Llama、Gemini等则根据图像内容进行猜测。这种新颖的测试基准不仅考验了模型的图像识别能力,还间接反映了它们的逻辑推理和语言组织能力。在一系列六局比赛中,Claude表现出色,赢得了三场胜利,而GPT-4o的回答则显得较为抽象,例如其绘制的龙卷风图像连人类也难以解读。
GPT-4o的“抽象派”作风在游戏中尤为突出,它经常以“Circle”作为首个回答,让人哭笑不得。相比之下,其他模型在大多数轮次中都表现得更为认真和准确。这一游戏不仅为观众带来了欢乐,也引发了关于AI能力评估的新思考。有人提议,这种游戏可以作为评估大型语言模型能力的新基准,甚至有人担忧,如果按照这个速度发展,人类或许将只能作为旁观者。
不过,并非所有题目都如此复杂。在较为简单的题目上,如房子、草地和海洋,所有模型都能在短时间内准确猜出答案。这显示了大型语言模型在基本图像识别方面的强大能力。然而,当涉及到更复杂的主题,如大象时,模型们则需要更多的回合来猜测正确答案。
这场“你画我猜”游戏的起源可以追溯到Simon Willison的一次测试,他让不同的大型语言模型绘制同一主题的图像以进行比较。随后,Paul Calcraft看到了这一测试的潜力,并决定将其发展成一个游戏。仅仅一天后,他就发布了游戏的0.0.1版,展示了惊人的执行力。网友们对这款游戏反应热烈,有人将其视为新的视觉基准测试,并提出了优化建议,如以答对互相题目的速度作为评分准则或加入人类成绩作为参考。
尽管有人对这场游戏的意义持怀疑态度,认为它只是一种娱乐方式,但更多人看到了其背后的教育价值。游戏化学习是教育理论和心理学中的重要概念,通过游戏,大型语言模型或许能够更快地提升能力、学习新技能。这场“你画我猜”游戏不仅为人工智能领域带来了欢乐和思考,也为未来的AI训练方式提供了新的启示。