Meta开源大模型Llama-4-Maverick,刷榜质疑后排名大幅下滑

   时间:2025-04-14 15:59 来源:天脉网作者:杨凌霄

近期,LMArena排行榜上发生了一起引人注目的事件,meta公司最新发布的开源大模型Llama-4-Maverick的排名出现了戏剧性的下滑。这一变化引发了开发者对meta是否存在刷榜行为的质疑。

事情起源于4月6日,meta正式推出了Llama 4系列,包括Scout、Maverick和Behemoth三个版本。其中,Llama-4-Maverick在LMArena的Chatbot Arena LLM排行榜上迅速攀升至第二位,仅次于Gemini 2.5 Pro。然而,随着开源版本的广泛使用和反馈的积累,Llama 4的声誉开始遭受打击。一些开发者发现,meta提供给LMArena评测的Llama 4版本与向公众开放的源代码版本存在显著差异,因此怀疑meta有刷榜之嫌。

面对开发者的质疑,Chatbot Arena官方于4月8日发表声明,证实了meta提供的评测版本确实为“特供版”,并表示将考虑更新排行榜。据官方透露,meta最初提交的Llama-4-Maverick-03-26-Experimental是一个实验性的聊天优化版本,该版本在评测中获得了第二名的好成绩。然而,经过修正后的模型,即与HuggingFace开源版相同的Llama-4-Maverick-17B-128E-Instruct,在排行榜上的位置已降至第32名。

这一变化意味着,开源版的Llama-4-Maverick在LMArena的评测中表现远不如Gemini 2.5 Pro、GPT4o等竞争对手,甚至落后于基于上一代Llama 3.3改造的英伟达模型Llama-3.3-Nemotron-Super-49B-v1。这一结果无疑给meta的声誉带来了不小的冲击。

对于Llama-4-Maverick-03-26-Experimental表现不佳的原因,meta在一份图表中解释称,该模型是专门针对对话性进行优化设计的。这种优化在LMArena的评测中取得了显著效果,因为评测结果由人类评分者根据模型输出进行选择。然而,这也引发了关于基准测试公正性和模型泛化能力的讨论。

尽管LMArena的评测结果从未被视为衡量AI模型性能的唯一标准,但针对评测进行模型调整的行为仍然被视为具有误导性。这不仅影响了评测结果的公正性,也使得开发者难以准确评估模型在不同应用场景下的实际表现。

对此,meta的一位发言人向媒体表示,公司一直在尝试各种类型的定制变体。“Llama-4-Maverick-03-26-Experimental是我们针对聊天优化的一次尝试,它在LMArena上取得了不错的成绩。”该发言人说,“现在我们已经发布了开源版本,期待看到开发者如何根据自己的需求定制Llama 4,并期待他们的反馈。”

 
反对 0举报 0 收藏 0
 
更多>同类天脉资讯
全站最新
热门内容
媒体信息
新传播周刊
新传播,传播新经济之声!
网站首页  |  关于我们  |  联系方式  |  版权隐私  |  网站留言  |  RSS订阅  |  违规举报