Meta Llama 4口碑翻车:开源大模型竞争加剧下的失速之痛

   时间:2025-04-08 22:59 来源:天脉网作者:沈如风

近期,开源大模型领域掀起了一场风波,焦点直指meta最新发布的Llama 4。

4月8日,备受瞩目的大模型评测平台Chatbot Arena发表了一份措辞严厉的声明,针对社群对meta新模型Llama 4排名的质疑,决定公开2000多场真人对比测试的完整数据,并直接点名meta。声明中指出:“meta应更清晰地表明‘Llama-4-Maverick-03-26-Experimental’是一个针对人类偏好进行优化的定制化模型。我们正在更新排行榜策略,以避免此类混淆再次发生。”

这份声明不仅是对质疑的回应,更是对整个大模型行业的一次警示。Chatbot Arena由加州大学伯克利分校发起,通过真人盲测机制,成为业界最具影响力的排行榜之一。开发者和AI爱好者在平台上用相同问题向两款模型提问,对比回答内容并投票打分。一款模型能否登上Chatbot Arena排行榜前列,直接影响其在媒体和开发者群体中的口碑与采纳率。

4月5日,meta发布最新一代开源大模型Llama 4,并迅速冲上Chatbot Arena排行榜第二,仅次于Google发布的Gemini 2.5 Pro,引发了广泛关注。然而,很快就有社区用户发现,这一版本是未公开的定制化调优实验模型,并非meta开源的正式版。争议由此爆发:这是否构成“刷榜”?Chatbot Arena是否被用作营销工具?meta为何如此操作?

更糟糕的是,在部分未公开的专业基准测试中,Llama 4的表现也不尽如人意,几乎垫底。不少首批尝试的用户在Reddit等社交平台上表达了失望,指出Llama 4在编程能力上的不足。有用户发帖称:“考虑到Llama-4-Maverick有402B的参数量,我为什么不直接使用DeepSeek-V3-0324呢?或者Qwen-QwQ-32B可能更合适——虽然性能相似,但它的参数量只有32B。”

这一连串事件让人不禁疑惑,曾经凭借Llama 2和Llama 3逐渐建立口碑的meta,为何在Llama 4上翻了车?

回溯到4月5日,meta在官方博客上宣布Llama 4系列模型面向社区开源,包括Llama 4 Scout、Llama 4 Maverick以及仍在训练中的“教师模型”Llama 4 Behemoth,均首次采用混合专家(MoE)架构。其中,最受关注的Maverick版本拥有128个“专家”、170亿活跃参数(总参数为4000亿),被meta描述为“同类最佳的多模态模型”,强调在多方面超过Gemini 2.0与GPT-4,在编码和推理方面比Deepseek 3.1更有竞争力。

然而,Llama 4发布后不久,情况迅速失控。首批用户对Llama 4的表现并不满意,尤其是在需要代码能力和严谨逻辑推理的场景中,Llama 4的表现并未兑现超越GPT、DeepSeek的承诺。在Aider Chat提供的Polyglot编程测试中,Maverick版本的正确率仅为16%,处于排行榜末尾,与其庞大的参数体量完全不符,甚至落后于规模更小的开源模型,如Google Gamma。这一结果让不少开发者大感意外,与官方宣传形成强烈反差。

随着风评下滑,更严厉的质疑接踵而至:Llama 4是否使用了公开测试集进行训练?是否针对Chatbot Arena进行了针对性优化?这些质疑在技术社区迅速传播、发酵。尽管Chatbot Arena在声明中未使用“作弊”等字眼,但语气已足够强硬和不满。中文社区也有自称meta员工的网友爆料,要求从Llama 4技术报告中删除名字。面对种种质疑,meta团队迅速出面澄清,负责meta GenAI的成员虞立成(Licheng Yu)表示:“这两天虚心聆听各方feedback,希望能在下一版有提升。但为了刷点而overfit测试集我们从来没有做过。”同时,meta GenAI的副总裁Ahmad Al-Dahle也在社交平台明确表示,meta没有在测试集上训练Llama 4。

尽管meta进行了澄清,但无法回避Llama 4真实能力的问题。作为开源阵营中曾经“最有希望挑战OpenAI”的旗手,Llama 4原本承载着开发者与产业界的高度期待。然而,发布一周内就从“高光”跌入“信任危机”,成为大模型竞赛中一次罕见的口碑“滑铁卢”。

追根究底,Llama 4的问题不在于造假,而在于开源大模型竞争加剧下的失速。过去两年,meta凭借Llama 2和Llama 3在开源模型市场上建立起领先地位。然而,到了Llama 4,情况已发生巨大变化,DeepSeek V3/R1的发布扭转了开源与闭源模型的差距,大大加速了开源模型的发展速度。这让原本作为“开源领导者”的Llama面临更大压力,加之参数规模膨胀、架构复杂化(MoE),Llama 4很可能没有留出足够的测试和改进时间,才导致发布后性能表现不稳定。

 
反对 0举报 0 收藏 0
 
更多>同类天脉资讯
全站最新
热门内容
媒体信息
新传播周刊
新传播,传播新经济之声!
网站首页  |  关于我们  |  联系方式  |  版权隐私  |  网站留言  |  RSS订阅  |  违规举报