天脉网 | 天脉新媒体中心主办！
手机版
二维码

时事快闻

当前位置：首页 > 天脉资讯 > 游戏天地 > 正文内容

Meta开源大模型Llama-4-Maverick，刷榜质疑后排名大幅下滑

时间：2025-04-14 15:59 来源：天脉网作者：杨凌霄

近期，LMArena排行榜上发生了一起引人注目的事件，meta公司最新发布的开源大模型Llama-4-Maverick的排名出现了戏剧性的下滑。这一变化引发了开发者对meta是否存在刷榜行为的质疑。

事情起源于4月6日，meta正式推出了Llama 4系列，包括Scout、Maverick和Behemoth三个版本。其中，Llama-4-Maverick在LMArena的Chatbot Arena LLM排行榜上迅速攀升至第二位，仅次于Gemini 2.5 Pro。然而，随着开源版本的广泛使用和反馈的积累，Llama 4的声誉开始遭受打击。一些开发者发现，meta提供给LMArena评测的Llama 4版本与向公众开放的源代码版本存在显著差异，因此怀疑meta有刷榜之嫌。

面对开发者的质疑，Chatbot Arena官方于4月8日发表声明，证实了meta提供的评测版本确实为“特供版”，并表示将考虑更新排行榜。据官方透露，meta最初提交的Llama-4-Maverick-03-26-Experimental是一个实验性的聊天优化版本，该版本在评测中获得了第二名的好成绩。然而，经过修正后的模型，即与HuggingFace开源版相同的Llama-4-Maverick-17B-128E-Instruct，在排行榜上的位置已降至第32名。

这一变化意味着，开源版的Llama-4-Maverick在LMArena的评测中表现远不如Gemini 2.5 Pro、GPT4o等竞争对手，甚至落后于基于上一代Llama 3.3改造的英伟达模型Llama-3.3-Nemotron-Super-49B-v1。这一结果无疑给meta的声誉带来了不小的冲击。

对于Llama-4-Maverick-03-26-Experimental表现不佳的原因，meta在一份图表中解释称，该模型是专门针对对话性进行优化设计的。这种优化在LMArena的评测中取得了显著效果，因为评测结果由人类评分者根据模型输出进行选择。然而，这也引发了关于基准测试公正性和模型泛化能力的讨论。

尽管LMArena的评测结果从未被视为衡量AI模型性能的唯一标准，但针对评测进行模型调整的行为仍然被视为具有误导性。这不仅影响了评测结果的公正性，也使得开发者难以准确评估模型在不同应用场景下的实际表现。

对此，meta的一位发言人向媒体表示，公司一直在尝试各种类型的定制变体。“Llama-4-Maverick-03-26-Experimental是我们针对聊天优化的一次尝试，它在LMArena上取得了不错的成绩。”该发言人说，“现在我们已经发布了开源版本，期待看到开发者如何根据自己的需求定制Llama 4，并期待他们的反馈。”

点赞 0反对 0举报 0 收藏 0

更多>同类天脉资讯

三国杀地主文鸯风光不再，农民策略升级致其陷入困境？

首先，在日常的斗地主对局中，过去的农民不会判断文鸯的主要进攻目标，虽然一般对局都是遇到刷双桃的农民，偶尔遇上一个会刷无懈的存在，基本上就是过去文鸯面对的最大挑战了，但文鸯本身的破核属性非常突出，就算刷这样的…

04-14

三国杀地主文鸯陷阱？进攻还是防御，策略选择成关键！

首先，在日常的斗地主对局中，过去的农民不会判断文鸯的主要进攻目标，虽然一般对局都是遇到刷双桃的农民，偶尔遇上一个会刷无懈的存在，基本上就是过去文鸯面对的最大挑战了，但文鸯本身的破核属性非常突出，就算刷这样的…

04-14

三国杀地主文鸯：曾经的破核利器，为何如今成陷阱选将？

首先，在日常的斗地主对局中，过去的农民不会判断文鸯的主要进攻目标，虽然一般对局都是遇到刷双桃的农民，偶尔遇上一个会刷无懈的存在，基本上就是过去文鸯面对的最大挑战了，但文鸯本身的破核属性非常突出，就算刷这样的…

04-14

三国杀斗地主文鸯陷阱选将？农民策略升级，地主如何应对？

首先，在日常的斗地主对局中，过去的农民不会判断文鸯的主要进攻目标，虽然一般对局都是遇到刷双桃的农民，偶尔遇上一个会刷无懈的存在，基本上就是过去文鸯面对的最大挑战了，但文鸯本身的破核属性非常突出，就算刷这样的…

04-14

《Whiteout Survival》登顶全球，盛趣游戏跻身TOP30，世纪华通双线飘红！

据Sensor Tower数据显示，点点互动凭借末日生存SLG手游《Whiteout Survival》（国内版《无尽冬日》）登顶全球手游收入榜；与此同时，盛趣游戏携经典IP重制手游《龙之谷世界》跻身中国手游…

04-14

魏贾诩策略解析：中后期伤害爆表，如何搭配对抗肉队？

这套搭配利用吕蒙的白衣渡江提供控制，荀彧携带神兵天降和大赏三军增强爆发，而魏贾诩则补充中后期伤害，适合对抗肉队。站位灵活调整：若队伍输出不足，可让魏贾诩站大营带不攻叠加伤害；若需平衡攻防，中军位置更适合他触发…

04-14

《兽猎突袭》：福瑞控射击新游，狐狸精猫娘等你来撩！

《兽猎突袭》工作室仅有20多人，能做到《兽猎突袭》如今的水平，已经算相当不错了，从去年A测到现在更新了不少东西，而且动物技能确实带来了非常不一样的游戏体验，在其它游戏中很难看到。游戏确实还是有很多地方需要…

04-14

奥尔特曼在TED宣布：DeepSeek未阻GPT增长，OpenAI将推更优开源模型

IT之家 4 月 14 日消息，在日前举行的 TED 2025 上，OpenAI CEO 萨姆・奥尔特曼表示，“DeepSeek 的出现并未影响GPT 的增长，将推出更好的开源模型。”…

04-14

索尼PS5多地涨价引热议，会员服务价格也将调整

当地时间4月13日，索尼互动娱乐（SIE）宣布，提高PS5在欧洲、澳大利亚和新西兰等部分市场的建议零售价，同时这些地区的PS5光驱价格也将降低。索尼官方称，对于当前的订阅用户，本次价格调涨将在6月24日或之…

04-14

《逍遥情缘》宠物易倒？这些保命技能让爱宠战场更持久！

手游巴士（www.shouyoubus.com）2025年04月14日:最近有小伙伴跟我抱怨，在《逍遥情缘》里养了一只宠物，哪哪都好，就是太脆皮，打不了几回合就被集火退场了。高级保命是最为人熟知的保命类技能…

04-14

《第五人格》Ib联动来袭！三款绝美免费时装，你选哪个？

和 Ib 的联动活动 4 月 17 日就开启，这次福利多到爆，尤其是免费奇珍时装 3 选 1，纠结症都要犯了，快跟着我来看看怎么选

04-14

《逍遥情缘》手游：与爱情之神月老共证，打造你的浪漫仙侣奇缘！

如果你来《逍遥情缘》手游里与爱侣结婚，就可以让月老成为你们的证婚人，保证这一段婚姻幸福美满，一直受到祝福！任何一对逍遥情侣想要永结连理的话，都可以请月老来当证婚人。浪漫的爱情就在逍遥世界，快来结一个美满的婚吧…

04-14

OceanBase AI黑客松大赛启幕，10万奖金等你来战，共探DB+AI新纪元！

4 月 10 日，OceanBase 与蚂蚁开源联合主办、机器之心协办的 AI 黑客松大赛已经开启报名。为了激发开发者无限潜能、深入挖掘OceanBase 与 AI 技术深度融合全新可能，打造出具有卓越…

04-14

天玑开发者大会：全链路开发套件，如何重塑移动游戏体验？

其中，天玑9400+等旗舰芯片无疑是整个体系的核心算力引擎：AI性能较前代提升25%、推理解码能力增强20%，轻松托起通用AI运算和端侧大模型的需求；这颗天玑旗舰芯片的图形方面继续扛起安卓GPU之王的大旗，在…

04-14

《妖精别走》仙侠新体验：无限资源，挑战你的仙侠巅峰！

只需登录即可领取丰厚的福利礼包，更有GM工具修改器助你轻松刷取无限资源。返利的游戏货币不增加VIP经验，也不计入其他充值活动。《妖精别走》摒弃了传统放置仙侠游戏的自动战斗概念。快来加入《妖精别走》的奇幻世…

04-14

点击查看更多 +

全站最新

三国杀地主文鸯风光不再，农民策略升级致其陷入困境？

三国杀地主文鸯风光不再，农民策略升级致其陷入困境？

三国杀地主文鸯陷阱？进攻还是防御，策略选择成关键！

三国杀地主文鸯陷阱？进攻还是防御，策略选择成关键！

三国杀地主文鸯：曾经的破核利器，为何如今成陷阱选将？

三国杀地主文鸯：曾经的破核利器，为何如今成陷阱选将？

三国杀斗地主文鸯陷阱选将？农民策略升级，地主如何应对？

三国杀斗地主文鸯陷阱选将？农民策略升级，地主如何应对？

《Whiteout Survival》登顶全球，盛趣游戏跻身TOP30，世纪华通双线飘红！

《Whiteout Survival》登顶全球，盛趣游戏跻身TOP30，世纪华通双线飘红！

魏贾诩策略解析：中后期伤害爆表，如何搭配对抗肉队？

魏贾诩策略解析：中后期伤害爆表，如何搭配对抗肉队？

热门内容

媒体信息

新传播周刊

新传播，传播新经济之声！

本栏最新

三国杀地主文鸯风光不再，农民策略升级致其陷入困境？

三国杀地主文鸯风光不再，农民策略升级致其陷入困境？

三国杀地主文鸯陷阱？进攻还是防御，策略选择成关键！

三国杀地主文鸯陷阱？进攻还是防御，策略选择成关键！

三国杀地主文鸯：曾经的破核利器，为何如今成陷阱选将？

三国杀地主文鸯：曾经的破核利器，为何如今成陷阱选将？

三国杀斗地主文鸯陷阱选将？农民策略升级，地主如何应对？

三国杀斗地主文鸯陷阱选将？农民策略升级，地主如何应对？

《Whiteout Survival》登顶全球，盛趣游戏跻身TOP30，世纪华通双线飘红！

《Whiteout Survival》登顶全球，盛趣游戏跻身TOP30，世纪华通双线飘红！

魏贾诩策略解析：中后期伤害爆表，如何搭配对抗肉队？

魏贾诩策略解析：中后期伤害爆表，如何搭配对抗肉队？

网站首页 | 关于我们 | 联系方式 | 版权隐私 | 网站留言 | RSS订阅 | 违规举报

天脉网由天脉文化中心主办，立足北京，放眼全中国，做首都圈新经济、新文化、新科技资讯平台！
2009-2021 天脉网 (c) All Rights Reserved 鲁ICP备2022032383号-1