马斯克“最聪明”AI Grok3遇难题，9.11与9.9比较竟“翻车”-天脉网

近日，科技巨头马斯克携手xAI团队，在一场备受瞩目的直播活动中，隆重推出了他们最新研发的AI模型——Grok3。这款模型在发布前就被马斯克誉为“地球上最聪明的AI”，他在个人社交平台上透露，自己整个周末都沉浸在与团队的紧张研发中，只为打磨出这款划时代的产品。

然而，就在Grok3发布后不久，有媒体曝光了关于其Beta版的测试结果，引发了业界的广泛关注。测试中，有人向Grok3提出了一个AI领域内的经典难题：“9.11与9.9哪个大？”令人遗憾的是，在没有任何额外修饰或标注的情况下，即便是号称目前最聪明的Grok3，也未能给出正确答案。这一结果不禁让人对其“最聪明”的称号产生了质疑。

相比之下，另一款AI模型DeepSeek在面对同样的问题时，则展现出了截然不同的表现。无论是否开启深度思考模式，DeepSeek都能准确回答：“9.9大于9.11。”这一结果无疑为DeepSeek增添了不少光彩。

DeepSeek测试结果截图

回顾历史，“9.11和9.9哪个大”这一看似简单的问题，实则早已成为AI领域内的经典难题。艾伦研究机构的成员林禹臣曾在社交媒体上分享过ChatGPT-4o在这一问题上的“尴尬”表现，认为13.11比13.8更大。这一事件再次证明，尽管AI在数学奥赛题方面越来越擅长，但在处理常识性问题时仍然显得力不从心。

而此次Grok3的“翻车”事件，也引发了业界对于AI模型能力的进一步思考。事实上，在此之前，Scale AI的提示工程师莱利·古德赛德就曾用类似的问题拷问过当时的主流大模型，包括ChatGPT-4o、谷歌Gemini Advanced以及Claude 3.5 Sonnet，结果这些模型都未能给出正确答案。这一事件无疑加剧了业界对于AI模型常识判断能力的担忧。

海外主流大模型答题情况

尽管遭遇了这样的尴尬，但马斯克对于Grok3的信心并未动摇。在发布会的背景板上，他明确表达了xAI公司的使命：“了解宇宙。”而在一周前的直播中，他还曾信心满满地表示，Grok3将在数学、科学与编程方面超越所有主流模型，并预测其未来将用于SpaceX的火星任务计算，甚至有望在三年内实现诺贝尔奖级别的突破。

马斯克在xAI直播现场

为了提升Grok3的能力，马斯克透露，团队在训练过程中使用了大量合成数据，并借助了由10万个英伟达H100 GPU驱动的Colossus超级计算机。这台超级计算机为Grok3的训练提供了2亿个GPU小时的计算资源，比之前的版本多了十多倍。xAI还推出了名为Deepsearch的智能搜索引擎，旨在进一步提升Grok3的应用能力。

早在2020年，格力电器就提出了新零售模式的渠道变革，最初上线了“董明珠的店”，根据董明珠的透露，全年该店的营业额已经超过了3.5亿元。格力电器还在2019年报中表示，2020年“格力董明珠店”将在全国范围…

‌‌我相信民企的一大半创业者都看过马云的视频，比如《赢在中国》、CCTV2《对话》，这些栏目对当时正在高中卢松松影响巨大，正在这样点滴的影响，高中起让我树立起创业的梦想。马云是这么说的也是这么做的，因为：(…

从效果来说，这其实是一个不错的营销战略，将个人信用注入品牌，通过直播带货，使企业家IP成为信任中介，而董明珠的带货成本远低于常规营销。这两年来，围绕在格力和董明珠身边的娱乐化舆情直线上涨，这些非业务话题消…

在能源行业与国家电网合作，基于文心大模型和百度智能云千帆大模型平台，为国家电网定制开发了全面的AI解决方案，覆盖电网规划、电网运维、电网运行、客户服务等领域。李彦宏在电话会上表示，开源有助于扩大新技术的采用率…

正因为有华为昇腾910B和910C，才能够让DeepSeek在没有英伟达高算力AI芯片的大背景下，完成了AI训练，用更低的成本、更高的效率以及更强的性能，达成了能够媲美ChatGPT的高性能表现，更重要的是…

李彦宏表示，我们在自动驾驶技术领域已经投入了十多年，通过萝卜快跑，我们将宏伟愿景变为了现实，确立了公司在自动驾驶技术领域的全球领先地位。这表明百度有能力使自动驾驶技术适应不同的交通系统，为拓展到其他具有类…

曾经有很多院士表示，AI大模型的核心硬件是算力（虽然DeepSeek主打一个低成本，用有限算力做更大的事，但这并不代表其不需要算力，反而只有更大的算力，才能令DeepSeek在全球竞争中立于不败之地），尽管…

罗福莉身上有着不少标签：保研北大、在顶会顶刊发文章、毕业进入阿里达摩院、转行跳槽知名私募公司、在DeepSeek从事人工智能研究、在知乎“一夜爆红”……她也因此被网友称为“AI才女”。该亲属还称，罗福莉老公…

马斯克旗下的xAI公司，发布了新的大模型Grok 3，这个大模型Grok 3不管是LMSYS盲测，还是AIME竞赛，都是领先于友商，马斯克称其是全球最聪明的AI。只要显卡堆的多，那么确实会给大模型带来更强的…

据都市快报报道，2月18日，被马斯克称为“地球上最聪明的人工智能”Grok 3推理模型亮相。发布会直播现场，他和带队工程师分坐两旁，将C位留给了两位主要负责模型研究的华人科学家。四人中唯一身穿浅色上衣的年轻…

」以往学习一门新技能或进入陌生领域，需要投入大量时间和精力，而AI导师的出现让这一切发生了翻天覆地的变化。黄仁勋的AI导师的应用愿景，不仅描绘了人工智能在教育和工作中的无限可能，更提醒我们——AI的终极…

王思聪又是培养网红，又是做直播的，当年也是风生水起的，后来就是资金链短缺，被迫放弃了，如果王健林当初能多给几个亿，撑过起步期，我觉得如今的王思聪，起码也是头部企业的CEO了赌王孩子多所以有竞争，老王只有一…

为了重点展示Grok 3的数学逻辑推理能力，马斯克还附上了5天前，Grok3在AIME（美国数学邀请赛，比美国数学奥林匹克竞赛稍弱）中的测试结果，同样和其他模型进行了对比，Grok 3表现更好。在直播过…

）。所以我提高了难度，并要求它生成 3 个“棘手”的井字棋棋盘，它失败了（生成无意义的棋盘/文本），但 o1 pro 也失败了。它可以对各种研究/查找问题产生高质量的响应，你可以想象在互联网上的文章中有答案…

百度预计百度智能云服务的支出将会增加，因为已观察到一个明显的趋势，通过千帆大模型平台的API调用而使用基础模型的客户，也倾向于增加在百度智能云服务上的支出。基于这一点，百度将进一步深化AI转型，特别是在搜索…