Grok3遭遇经典难题，“最聪明”AI也“翻车”了？-天脉网

近期，科技界迎来了一则重大消息：特斯拉创始人埃隆·马斯克携手xAI团队，在一场备受瞩目的直播活动中，正式揭晓了他们的最新力作——Grok3。

马斯克在此之前，曾在社交媒体上高调宣称Grok-3为“地球上最智慧的AI”。他透露，自己整个周末都沉浸在与团队的紧张研发之中，只为打磨出这一划时代的产品。

然而，就在Grok3发布后不久，有媒体爆出测试结果显示，这款被寄予厚望的AI在面对一个经典难题时却栽了跟头。问题十分简单：“9.11与9.9哪个大？”在不附加任何额外说明的情况下，号称最聪明的Grok3竟未能给出正确答案。这一结果令人大跌眼镜。

有趣的是，当同样的问题抛给另一款AI——DeepSeek时，无论是否启用其深度思考（R1）模式，DeepSeek都能准确无误地回答：“9.9大于9.11。”

“9.11和9.9哪个大”这一问题，在AI领域堪称经典。此前，艾伦研究机构的成员林禹臣就曾揭示过ChatGPT-4o在这一问题上的尴尬失误，认为13.11比13.8更大。他感叹道：“AI在数学奥赛题上愈发得心应手，但在常识判断上仍显笨拙。”

受此事启发，Scale AI的提示工程师莱利·古德赛德巧妙变换问法，将这一难题抛给了当时顶尖的大模型，包括ChatGPT-4o、谷歌Gemini Advanced以及Claude 3.5 Sonnet。遗憾的是，这些主流大模型无一幸免，纷纷答错。这一话题也随之迅速发酵。

回顾Grok3的发布会，背景板上赫然写着“我们的使命是了解宇宙”。马斯克曾多次强调，xAI公司的终极目标是探索宇宙的奥秘。在一周前的直播中，他在评论DeepSeek R1时满怀信心地预告：“xAI即将推出更卓越的AI模型。”现场数据显示，Grok3在数学、科学与编程领域的基准测试中已超越所有主流模型。马斯克甚至豪言，Grok3未来将在SpaceX的火星任务中大放异彩，并预言“三年内将实现诺贝尔奖级别的突破”。

马斯克进一步透露，Grok3通过反复校验数据和追求逻辑一致性，有效减少了AI幻觉现象。训练Grok3所动用的算力远超以往，且大量使用了合成数据。与DeepSeek通过算法优化路径不同，Grok3的成功得益于xAI耗时8个月打造的Colossus超级计算机。这台由10万个英伟达H100 GPU驱动的超级计算机，为训练提供了2亿个GPU小时，是Grok-2的十多倍。

xAI还宣布推出了一款名为Deepsearch的智能搜索引擎，与Deepseek名字颇为相似，无疑为这场AI盛宴再添一把火。

百度昨天发布了截至 12 月 31 日的 2024 年第四季度及全年财报。李彦宏：生成式人工智能和基础模型市场仍处于初期阶段，但发展速度极快，DeepSeek 的成功案例肯定会加快基础模型的应用速度。 …

恒生银行(00011.HK)发布公告，在银行董事会任职近11年后，利蕴莲女士将于2025年5月银⾏举⾏的股东周年常会结束后退任，不再出任银⾏独立非执⾏董事及董事长职务，同时不再出任提名委员会主席，以及审核委员…

·美国银行作为强周期行业代表，在经济衰退中股价易受冲击(过去7次衰退中6次大跌)，银行股在行业顶峰期估值看似便宜，但衰退期贷款违约激增将暴露资产质量风险(负债/权益杠杆率达11:1，资产减值9%即可能破产)…

截至目前，全球数家科技公司竞相发布了其人工智能模型的最新版本，这些模型具备更快速的回答能力、更强的多模态能力以及增强的推理与生成能力等，将为用户带来更加智能的使用体验，为各行各业注入新动能。美国开放人工智能…

业内也普遍认为，即使百度的AI新业务在大规模烧钱后走到了盈利的阶段，但是云与智能驾驶业务，一直面临来自华为、谷歌等巨头的激烈竞争，以及更加严峻的资本和业务扩张风险，并非前途一片光明。如今，搜索行业的战火已…

有零售从业者猜测，虽然按照地区、门店、主管、岗位的不同，会员拉新在执行细节上有所不同，甚至理论上门店也有专门做会员拉新的岗位，但是实际落地中，前场全员拉新几乎是大多数门店的经营常态。另一个是从集团政策层面…

总之，随着Grok3的问世，全球AI大模型的竞赛还将继续下去，但我们可以预见，这条赛道的未来将会是百花齐放的格局，因为开源、低成本、高性能三位一体的DeepSeek出现后，玩法已经变了，谁都可以通过Deep…

当地时间2月18日晚，马斯克在受访时表示，SpaceX计划在4周内执行一次发射任务，并将两名滞留太空的美国国家航空航天局宇航员接回地球。…

雷超还表示，就如同美的早就把专卖店门头改成“美的智慧家”，海尔叫“海尔智家”，格力的新名字也是类似的操作，希望将产品更倾向于智能化、专业化，只是董明珠更强化个人IP。正如这名销售所担心的，不少网友在“董明…

为了训练这个Grok3大模型，马斯克是直接建了一座AI数据中心，一开始就豪掷了10万块H100芯片，3个月之后又加了10万张。而咱们中国的deepseek走的是低成本高性能，更加务实的改良路线，并且就在今…

和普威视表示，根据股转公司下发的问询函，股转公司收到关于公司的举报材料，主要内容包括“公司董事、高管刘豪、张超岳设立公司的行为违反《公司法》规定的忠实勤勉义务”；公司“部分核心、关键技术、商业机会均涉嫌来自…

至少当时，不少文章指出，几天前还在喊着“马云爸爸”的很多人，转过头来就诅咒他是“资本家”，他的蚂蚁集团也被形容为“蚂蝗集团”——这显然不是一个“仇富”所能解释与概括的，也不代表这些人多么欢迎国家的规范监管及…

2024年OpenAI发布GPT-4o，GPT-4o的17位关键团队成员中，有6人是华人，占比约为35.29%，本科分别来自清华、北大、上交、中科大等；在根据谷歌和英伟达重点具身智能论文和项目梳理的114名…

一位网友在同样的提示下，对比了Grok-3和DeepSeek（实际是R1）。这是AI行业普遍认同的趋势，而Grok-3的发布进一步强化了这种趋势。总的来说，尽管Grok-3在技术上取得了重大突破，但这并…

瑞财经严明会2月18日，和普威视光电股份有限公司（以下简称：和普威视）在山东证监局完成IPO辅导备案，拟北交所IPO，辅导机构中泰证券。和普威视成立于2011年，注册资本5003万元，主营业务是红外光电…