近期,科技界迎来了一场轰动性事件,特斯拉创始人埃隆·马斯克携其xAI团队,在一场备受瞩目的直播活动中,正式揭晓了备受期待的人工智能系统——Grok 3。此前,马斯克通过一系列预热活动,已经将公众对Grok 3的期待推向了巅峰。
在发布会上,马斯克自信满满地宣布,Grok 3在数学、科学与编程等领域的基准测试中,已经超越了所有主流的人工智能模型。他甚至透露,计划将这一系统应用于SpaceX的火星任务计算,并预测在未来三年内,Grok 3有望实现诺贝尔奖级别的科学突破。
然而,发布会后不久,一些媒体就对Grok 3的Beta版进行了测试,并提出了一个经典难题:“9.11与9.9哪个大?”这一看似简单的问题,却意外地让号称“地球上最聪明的人工智能”Grok 3栽了跟头。它未能给出正确答案,这一失误迅速在网络上引发了热议,网友们戏称Grok 3为“不屑回答简单问题的天才”。
据相关媒体报道,针对这一问题,记者对12个大模型进行了测试。结果显示,阿里通义千问、百度文心一言、Minimax和腾讯元宝等模型给出了正确答案,而ChatGPT-4o、字节豆包、月之暗面kimi等多个知名模型则回答错误,且错误方式各不相同。值得注意的是,即便是在限定了数学语境的情况下,一些大模型如ChatGPT仍然未能给出正确答案。这一结果表明,大模型在数学能力上的欠缺仍然是一个亟待解决的问题。
业内人士指出,生成式语言模型在设计上更偏向于文科思维,而非理科逻辑。不过,通过针对性的语料训练,未来或许能够逐步提升这些模型的理科能力。然而,Grok 3在发布会上的另一场“翻车”事件,却让人对其能力产生了更大的质疑。
在xAI发布会直播过程中,当Grok 3被用来分析游戏《流放之路 2》的职业与升华效果时,它给出了大量错误答案。令人惊讶的是,即便是这些明显的错误,马斯克也未能及时发现。这一事件进一步加剧了公众对Grok 3能力的质疑。
面对这些质疑和错误,马斯克在社交媒体上表示,Grok 3的版本将每天进行快速改进,并邀请用户反馈使用过程中遇到的问题。这一表态显示出了马斯克对Grok 3的信心和决心,但能否真正解决这些问题,还有待时间的检验。