近日,美国科技巨头meta震撼发布了其最新一代开源大模型——Llama 4。该模型家族包含Scout和Maverick两个基于混合专家(MoE)架构的版本,而更为强大的Llama 4 Behemoth则仍在紧锣密鼓的训练之中。
meta官方宣称,Llama 4在多个基准测试中表现卓越,尤其是Behemoth版本,在多项主流测试中超越了GPT-4.5、Claude Sonnet 3.7和Gemini 2.0 Pro等顶尖封闭模型,被誉为“全能选手”。
然而,随着Llama 4的发布,质疑声也随之而来。开发者们实测后发现,Llama 4的实际表现远未达到宣传中的惊艳程度,甚至在某些任务中表现平平。特别是在编程任务中,Llama 4的表现被指为“糟糕”,与官方宣传形成鲜明对比。
据开发者们反映,在KCORES基准测试中,Llama 4 Scout和Maverick在编程任务上落后于GPT-4o、Grok 3和DeepSeek-V3等模型。这一结果与Llama 4在大模型竞技场上的排名形成了巨大反差,引发了不少人的质疑。
更有开发者指出,Llama 4在大模型竞技场上的表现存在过拟合现象,有作弊“刷榜”的嫌疑。大模型竞技场官方也指出,meta在大模型竞技场使用的并非HuggingFace上供开发者使用的Llama 4版本,而是针对人类偏好进行优化的定制模型。
面对外界的质疑,meta生成式AI副总裁艾哈迈德·阿尔·达赫勒在社交平台X上进行了公开回应,明确表示相关说法毫无事实依据。他解释称,由于模型发布后需要几天的时间来调整所有公开版本,因此部分用户在使用时遭遇了质量不稳定的问题。
与此同时,meta内部也传出了一则爆料帖子,称Llama 4模型训练测试集作弊。一位自称参与了Llama 4训练的内部员工表示,公司领导层为达成目标,在训练后期将各种基准测试的测试集数据混入训练或微调数据中。然而,这一爆料帖子并未得到实名验证,且已有数名meta员工实名进行辟谣。
尽管如此,meta首席AI科学家、图灵奖得主Yann LeCun仍对Llama 4表示了坚定支持。他转发了艾哈迈德·阿尔·达赫勒的回应帖子,为Llama 4声援“站台”。
目前,meta仍在积极应对外界的质疑和批评,并承诺将持续进行错误修复工作,与合作伙伴保持沟通,以提供更稳定、更优质的Llama 4模型服务。