Grok3遭遇经典难题,“最聪明”AI也“翻车”了?

   时间:2025-02-19 17:51 来源:天脉网作者:沈瑾瑜

近期,科技界迎来了一则重大消息:特斯拉创始人埃隆·马斯克携手xAI团队,在一场备受瞩目的直播活动中,正式揭晓了他们的最新力作——Grok3。

马斯克在此之前,曾在社交媒体上高调宣称Grok-3为“地球上最智慧的AI”。他透露,自己整个周末都沉浸在与团队的紧张研发之中,只为打磨出这一划时代的产品。

然而,就在Grok3发布后不久,有媒体爆出测试结果显示,这款被寄予厚望的AI在面对一个经典难题时却栽了跟头。问题十分简单:“9.11与9.9哪个大?”在不附加任何额外说明的情况下,号称最聪明的Grok3竟未能给出正确答案。这一结果令人大跌眼镜。

有趣的是,当同样的问题抛给另一款AI——DeepSeek时,无论是否启用其深度思考(R1)模式,DeepSeek都能准确无误地回答:“9.9大于9.11。”

“9.11和9.9哪个大”这一问题,在AI领域堪称经典。此前,艾伦研究机构的成员林禹臣就曾揭示过ChatGPT-4o在这一问题上的尴尬失误,认为13.11比13.8更大。他感叹道:“AI在数学奥赛题上愈发得心应手,但在常识判断上仍显笨拙。”

受此事启发,Scale AI的提示工程师莱利·古德赛德巧妙变换问法,将这一难题抛给了当时顶尖的大模型,包括ChatGPT-4o、谷歌Gemini Advanced以及Claude 3.5 Sonnet。遗憾的是,这些主流大模型无一幸免,纷纷答错。这一话题也随之迅速发酵。

海外主流大模型答题示意图

回顾Grok3的发布会,背景板上赫然写着“我们的使命是了解宇宙”。马斯克曾多次强调,xAI公司的终极目标是探索宇宙的奥秘。在一周前的直播中,他在评论DeepSeek R1时满怀信心地预告:“xAI即将推出更卓越的AI模型。”现场数据显示,Grok3在数学、科学与编程领域的基准测试中已超越所有主流模型。马斯克甚至豪言,Grok3未来将在SpaceX的火星任务中大放异彩,并预言“三年内将实现诺贝尔奖级别的突破”。

马斯克在xAI直播现场

马斯克进一步透露,Grok3通过反复校验数据和追求逻辑一致性,有效减少了AI幻觉现象。训练Grok3所动用的算力远超以往,且大量使用了合成数据。与DeepSeek通过算法优化路径不同,Grok3的成功得益于xAI耗时8个月打造的Colossus超级计算机。这台由10万个英伟达H100 GPU驱动的超级计算机,为训练提供了2亿个GPU小时,是Grok-2的十多倍。

xAI还宣布推出了一款名为Deepsearch的智能搜索引擎,与Deepseek名字颇为相似,无疑为这场AI盛宴再添一把火。

 
反对 0举报 0 收藏 0
 
更多>同类天脉资讯
全站最新
热门内容
媒体信息
新传播周刊
新传播,传播新经济之声!
网站首页  |  关于我们  |  联系方式  |  版权隐私  |  网站留言  |  RSS订阅  |  违规举报