Llama 4陷作弊风波!Meta AI紧急回应,图灵奖得主力挺:真相如何?

   时间:2025-04-08 20:00 来源:天脉网作者:唐云泽

近日,美国科技巨头meta震撼发布了其最新一代开源大模型——Llama 4。该模型家族包含Scout和Maverick两个基于混合专家(MoE)架构的版本,而更为强大的Llama 4 Behemoth则仍在紧锣密鼓的训练之中。

meta官方宣称,Llama 4在多个基准测试中表现卓越,尤其是Behemoth版本,在多项主流测试中超越了GPT-4.5、Claude Sonnet 3.7和Gemini 2.0 Pro等顶尖封闭模型,被誉为“全能选手”。

然而,随着Llama 4的发布,质疑声也随之而来。开发者们实测后发现,Llama 4的实际表现远未达到宣传中的惊艳程度,甚至在某些任务中表现平平。特别是在编程任务中,Llama 4的表现被指为“糟糕”,与官方宣传形成鲜明对比。

据开发者们反映,在KCORES基准测试中,Llama 4 Scout和Maverick在编程任务上落后于GPT-4o、Grok 3和DeepSeek-V3等模型。这一结果与Llama 4在大模型竞技场上的排名形成了巨大反差,引发了不少人的质疑。

更有开发者指出,Llama 4在大模型竞技场上的表现存在过拟合现象,有作弊“刷榜”的嫌疑。大模型竞技场官方也指出,meta在大模型竞技场使用的并非HuggingFace上供开发者使用的Llama 4版本,而是针对人类偏好进行优化的定制模型。

面对外界的质疑,meta生成式AI副总裁艾哈迈德·阿尔·达赫勒在社交平台X上进行了公开回应,明确表示相关说法毫无事实依据。他解释称,由于模型发布后需要几天的时间来调整所有公开版本,因此部分用户在使用时遭遇了质量不稳定的问题。

与此同时,meta内部也传出了一则爆料帖子,称Llama 4模型训练测试集作弊。一位自称参与了Llama 4训练的内部员工表示,公司领导层为达成目标,在训练后期将各种基准测试的测试集数据混入训练或微调数据中。然而,这一爆料帖子并未得到实名验证,且已有数名meta员工实名进行辟谣。

尽管如此,meta首席AI科学家、图灵奖得主Yann LeCun仍对Llama 4表示了坚定支持。他转发了艾哈迈德·阿尔·达赫勒的回应帖子,为Llama 4声援“站台”。

目前,meta仍在积极应对外界的质疑和批评,并承诺将持续进行错误修复工作,与合作伙伴保持沟通,以提供更稳定、更优质的Llama 4模型服务。

 
反对 0举报 0 收藏 0
 
更多>同类天脉资讯
全站最新
热门内容
媒体信息
新传播周刊
新传播,传播新经济之声!
网站首页  |  关于我们  |  联系方式  |  版权隐私  |  网站留言  |  RSS订阅  |  违规举报