马斯克旗下人工智能公司xAI终于揭晓了其备受期待的AI模型Grok 3。这款一度推迟发布的模型,在2月17日晚的直播发布会上迎来了全球超过百万观众的瞩目。
Grok 3被视为xAI对OpenAI的o3-mini和DeepSeek的R1等模型的直接回应。马斯克在发布会前夕就在其社交平台X上预热,称Grok 3为“地球上最聪明的人工智能”。
发布会中,马斯克与三位xAI工程师共同展示了Grok 3的多种功能。据马斯克介绍,Grok 3在AIME(评估模型解决数学问题的能力)和GPQA(评估模型在博士级物理、生物和化学问题上的表现)等基准测试中,超越了市面上所有现有的AI模型。
AI基准测试开放平台lmarena.ai的数据也证实了这一点。早期版本的Grok 3(代号chocolate)在Arena排行榜上位居第一,成为首个突破1400分的模型。这一成绩标志着Grok 3在数学、科学和编程等多个领域的卓越表现。
然而,尽管Grok 3在发布会上大放异彩,一些用户和测试者却指出了其存在的问题。有用户表示,Grok 3在回答关于《流放之路2》游戏的问题时,给出的结论错误频出。同时,在经典的多边形小球编程问题上,Grok 3也未能给出正确答案。
xAI在直播中还透露了Grok 3背后强大的算力支持。马斯克表示,原本计划使用十万块H100 GPU的超级计算机集群Colossus来训练Grok模型,但实际上,在训练进行到92天时,集群的规模已经扩大到了20万块GPU。
为了展示Grok 3的强大功能,演示团队还进行了物理学和游戏的实例演示。Grok 3成功生成了一段代码,绘制了从地球发射火箭到火星并返回的三维动画图表,以及一个结合了俄罗斯方块和宝石迷城的游戏。
除了基本的模型能力外,Grok 3还具备智能体功能。xAI为Grok 3开发了类似于OpenAI的DeepSearch智能体,可以全面搜索互联网并为用户提供详尽的整合报告。然而,一些用户在体验后发现,Grok 3在某些领域的表现并未达到预期。
尽管Grok 3在发布会上受到了广泛关注,但一些用户和专家的反馈也提醒我们,AI模型的发展仍需时间和努力。未来,我们期待看到更多像Grok 3这样的创新模型,为人类带来更多便利和惊喜。