近日,科技巨头马斯克携手xAI团队,在一场备受瞩目的直播活动中,隆重推出了他们最新研发的AI模型——Grok3。这款模型在发布前就被马斯克誉为“地球上最聪明的AI”,他在个人社交平台上透露,自己整个周末都沉浸在与团队的紧张研发中,只为打磨出这款划时代的产品。
然而,就在Grok3发布后不久,有媒体曝光了关于其Beta版的测试结果,引发了业界的广泛关注。测试中,有人向Grok3提出了一个AI领域内的经典难题:“9.11与9.9哪个大?”令人遗憾的是,在没有任何额外修饰或标注的情况下,即便是号称目前最聪明的Grok3,也未能给出正确答案。这一结果不禁让人对其“最聪明”的称号产生了质疑。
相比之下,另一款AI模型DeepSeek在面对同样的问题时,则展现出了截然不同的表现。无论是否开启深度思考模式,DeepSeek都能准确回答:“9.9大于9.11。”这一结果无疑为DeepSeek增添了不少光彩。
回顾历史,“9.11和9.9哪个大”这一看似简单的问题,实则早已成为AI领域内的经典难题。艾伦研究机构的成员林禹臣曾在社交媒体上分享过ChatGPT-4o在这一问题上的“尴尬”表现,认为13.11比13.8更大。这一事件再次证明,尽管AI在数学奥赛题方面越来越擅长,但在处理常识性问题时仍然显得力不从心。
而此次Grok3的“翻车”事件,也引发了业界对于AI模型能力的进一步思考。事实上,在此之前,Scale AI的提示工程师莱利·古德赛德就曾用类似的问题拷问过当时的主流大模型,包括ChatGPT-4o、谷歌Gemini Advanced以及Claude 3.5 Sonnet,结果这些模型都未能给出正确答案。这一事件无疑加剧了业界对于AI模型常识判断能力的担忧。
尽管遭遇了这样的尴尬,但马斯克对于Grok3的信心并未动摇。在发布会的背景板上,他明确表达了xAI公司的使命:“了解宇宙。”而在一周前的直播中,他还曾信心满满地表示,Grok3将在数学、科学与编程方面超越所有主流模型,并预测其未来将用于SpaceX的火星任务计算,甚至有望在三年内实现诺贝尔奖级别的突破。
为了提升Grok3的能力,马斯克透露,团队在训练过程中使用了大量合成数据,并借助了由10万个英伟达H100 GPU驱动的Colossus超级计算机。这台超级计算机为Grok3的训练提供了2亿个GPU小时的计算资源,比之前的版本多了十多倍。xAI还推出了名为Deepsearch的智能搜索引擎,旨在进一步提升Grok3的应用能力。