中美AI大模型路线分歧:马斯克力推性能,梁文锋聚焦降本增效

   时间:2025-02-21 18:19 来源:天脉网作者:柳晴雪

在人工智能领域,一场关于技术路径与理念的较量正悄然展开。2月18日,科技巨头埃隆·马斯克旗下的xAI公司震撼发布了名为Grok3的大型语言模型,该模型在多项测评中力压群雄,包括超越了o3-mini,荣登榜首。而就在同一天,来自DeepSeek的梁文锋与Kimi的杨植麟分别在专业学术平台上发布了他们的最新研究成果,聚焦于如何优化长文本处理,减少计算量,提升训练效率。

中美两国在AI大模型发展上的策略差异在此次事件中显露无遗。Grok3背靠20万张英伟达H100芯片的强大算力,展现了“力大砖飞”的美式风格,再次验证了“尺度定律”的有效性——即模型规模越大,性能越优越。而DeepSeek则在业界声名鹊起后,继续深耕“降本增效”,致力于将AI技术的成本降低,使大模型更加普及化,成为行业中的一股清流。

马斯克在Grok3的发布会上宣布,未来该模型将开源,但目前仍处于闭源状态。相比之下,DeepSeek则始终坚持开源策略,不断将技术研究成果免费分享给全球开发者。2月21日,DeepSeek官方宣布,将在接下来的一周内开源5个代码库,以完全开放透明的姿态,展示其技术进展。

xAI为训练Grok3所建立的数据中心规模宏大,成为发布会上的亮点之一。马斯克及其团队在直播中透露,为了解决冷却和电源问题,他们耗时数月新建了一个数据中心,首批部署了10万张英伟达H100芯片,随后又迅速扩容至20万张。如此庞大的算力支持,使得Grok3在性能上取得了突破,刷新了大模型权威测评榜单“Chatbot Arena”的得分记录。

然而,业界专家指出,Grok3背后所隐藏的算力成本高昂,且训练数据集规模庞大。尽管马斯克未透露具体数据规模,但分析人士认为,这必然包括了互联网上的海量数据以及特斯拉工厂的物理数据。相比之下,DeepSeek则通过技术创新,如NSA(原生稀疏注意力)机制,实现了在不牺牲性能的前提下,降低预训练成本和推理速度的提升。

NSA机制通过“压缩”、“选择”和“滑动”的方式,将输入序列分成三个并行处理的分支,有效减少了计算量,并与GPU的并行计算能力相匹配。DeepSeek在论文中展示的图表显示,NSA机制在基准测试中的得分优于传统全注意力模型,且计算速度显著提升。

几乎与此同时,Kimi也发布了一篇类似论文,介绍了MoBA(块状混合注意力)机制,同样实现了长文本处理效率的大幅提升。这两篇论文的发布,再次凸显了中国AI企业在技术创新和降本增效方面的努力。

面对Grok3的强劲势头,DeepSeek选择了开源共享的策略,以加速AI行业的发展。这一做法不仅赢得了国内外网友的赞誉,也对美国的大模型发展产生了影响。xAI随后宣布,将免费提供Grok3的服务,直至服务器达到承载极限。

在Grok3与DeepSeek的对比中,可以看出中美两国在AI大模型发展上的不同路径。美国企业更倾向于通过大规模算力投入和数据积累来推动技术进步,而中国企业则更加注重技术创新和成本效益的平衡。这两种路径各有千秋,也将共同推动全球AI行业的蓬勃发展。

 
反对 0举报 0 收藏 0
 
更多>同类天脉资讯
全站最新
热门内容
媒体信息
新传播周刊
新传播,传播新经济之声!
网站首页  |  关于我们  |  联系方式  |  版权隐私  |  网站留言  |  RSS订阅  |  违规举报