在AI领域的竞技舞台上,一场前所未有的风暴正席卷而来。就在近日,科技巨头马斯克携其神秘AI团队xAI,正式揭晓了被誉为“地球上最聪慧的人工智能”——Grok 3。这场发布会,尽管延续了马斯克一贯的风格,略显姗姗来迟,却无疑点燃了全球科技爱好者的热情。
发布会历时一小时,马斯克携手xAI天团(其中包括两位华人成员),全方位展示了Grok 3的惊人实力。据称,该模型在多项性能指标上均超越了谷歌、OpenAI及DeepSeek等业界巨头的明星产品。直播结束后,网络上瞬间炸开了锅,部分幸运用户已抢先体验,其中不乏对Grok 3推理能力的高度评价,认为其可与o1-pro相媲美,甚至略胜一筹于DeepSeek R1和Gemini。
国内外媒体对Grok 3的报道铺天盖地,诸如“首个突破1400分(Imarena.ai竞技场得分)的模型”、“首个十万卡集群训练出的模型”等头衔,让人目不暇接。世超亦全程观看了这场发布会,虽不至于用“炸裂”形容,但Grok 3确实再次印证了AI领域“大力出奇迹”的规律。
目前,Grok 3仅对X平台部分Premium+会员开放。发布会上,xAI团队首先将Grok与GPT的模型迭代速度进行了直观对比,针对性十足。在模型性能方面,Grok 3更是展现出了与众多顶尖模型一较高下的决心。
Grok 3家族分为非推理模型和推理模型两大系列。非推理模型方面,Grok 3与Grok 3 mini在AIME '24数学竞赛、GPQA(研究生水平科学知识问答基准测试)及代码测试中,均大幅领先GPT-4o、Gemini 2.0 pro、DeepSeek V3及Claude 3.5 Sonnet等竞品。尽管Grok 3 mini与其他模型差距不大,但其牺牲部分准确性以换取更快回答速度的特点,同样引人注目。
推理模型方面,Grok 3 Reasoning Beta与Grok 3 mini Reasoning同样表现出色。在测试中,尽管未加时情况下与其他模型差距不大,但一旦增加思考时间,其优势便显而易见。现场演示中,Grok 3推理模型在2025年AIME数学竞赛上的表现,更是令人印象深刻。Grok 3还能生成3D动画代码及结合多种游戏规则的新游戏,其游戏制作能力若如演示般强大,将对游戏圈产生深远影响。
Grok 3的强大离不开马斯克提及的10万卡集群,该集群仅用122天便搭建完成,后扩展至20万卡,为Grok 3的诞生奠定了坚实基础。然而,尽管Grok 3看似无敌,但抢先体验的用户分享中也不乏与宣传不符的实际测试案例,部分测试中Grok 3的表现甚至不及o3 mini和Claude 3.5 Sonnet。
关于Grok 3是否开源的问题也备受关注。马斯克表示,xAI通常在新模型发布后再开源旧版本,因此即便开源,也将是Grok 2。此举似乎表明,马斯克的主要目标仍是与老对手(暗指OpenAI)竞争,而非回应开源阵营的压力。