天脉网 | 天脉新媒体中心主办！
手机版
二维码

时事快闻

当前位置：首页 > 天脉资讯 > 游戏天地 > 正文内容

Llama 4陷作弊风波！Meta AI紧急回应，图灵奖得主力挺：真相如何？

时间：2025-04-08 20:00 来源：天脉网作者：唐云泽

近日，美国科技巨头meta震撼发布了其最新一代开源大模型——Llama 4。该模型家族包含Scout和Maverick两个基于混合专家（MoE）架构的版本，而更为强大的Llama 4 Behemoth则仍在紧锣密鼓的训练之中。

meta官方宣称，Llama 4在多个基准测试中表现卓越，尤其是Behemoth版本，在多项主流测试中超越了GPT-4.5、Claude Sonnet 3.7和Gemini 2.0 Pro等顶尖封闭模型，被誉为“全能选手”。

然而，随着Llama 4的发布，质疑声也随之而来。开发者们实测后发现，Llama 4的实际表现远未达到宣传中的惊艳程度，甚至在某些任务中表现平平。特别是在编程任务中，Llama 4的表现被指为“糟糕”，与官方宣传形成鲜明对比。

据开发者们反映，在KCORES基准测试中，Llama 4 Scout和Maverick在编程任务上落后于GPT-4o、Grok 3和DeepSeek-V3等模型。这一结果与Llama 4在大模型竞技场上的排名形成了巨大反差，引发了不少人的质疑。

更有开发者指出，Llama 4在大模型竞技场上的表现存在过拟合现象，有作弊“刷榜”的嫌疑。大模型竞技场官方也指出，meta在大模型竞技场使用的并非HuggingFace上供开发者使用的Llama 4版本，而是针对人类偏好进行优化的定制模型。

面对外界的质疑，meta生成式AI副总裁艾哈迈德·阿尔·达赫勒在社交平台X上进行了公开回应，明确表示相关说法毫无事实依据。他解释称，由于模型发布后需要几天的时间来调整所有公开版本，因此部分用户在使用时遭遇了质量不稳定的问题。

与此同时，meta内部也传出了一则爆料帖子，称Llama 4模型训练测试集作弊。一位自称参与了Llama 4训练的内部员工表示，公司领导层为达成目标，在训练后期将各种基准测试的测试集数据混入训练或微调数据中。然而，这一爆料帖子并未得到实名验证，且已有数名meta员工实名进行辟谣。

尽管如此，meta首席AI科学家、图灵奖得主Yann LeCun仍对Llama 4表示了坚定支持。他转发了艾哈迈德·阿尔·达赫勒的回应帖子，为Llama 4声援“站台”。

目前，meta仍在积极应对外界的质疑和批评，并承诺将持续进行错误修复工作，与合作伙伴保持沟通，以提供更稳定、更优质的Llama 4模型服务。

点赞 0反对 0举报 0 收藏 0

更多>同类天脉资讯

率土青春服革新SLG，不花钱抽卡策略为王，能否引领新潮流？

对于新玩家而言，这使得游戏上手变得极为简单，无需花费大量时间去研究繁琐的系统，就能快速投身于紧张刺激的战斗中；而对于老玩家来说，这是一次回归策略初心的旅程，让他们能够摆脱繁杂系统的干扰，将全部心思放在策略的制…

04-08

任天堂高管：AI为辅助，人类创意才是游戏开发灵魂

这位高管表示，虽然AI在某些领域确实能提升生产效率，但任天堂始终认为游戏开发的核心驱动力应当是人类创意。同样，《马里奥》的创作者宫本茂表示，任天堂不会仅仅因为其他公司也在使用AI 就急于采用它。在行业层…

04-08

Switch 2卡带继续“苦”口婆心，任天堂防误食设计再升级？

近日，任天堂官方确认，Switch 2的游戏卡带将延续前代产品的"防误食"设计，继续采用特殊苦味涂层，以防止儿童或宠物误食。任天堂工程师堂田卓宏在接受采访时表示："我们的安全理念始终如一。Switch 2…

04-08

Switch 2游戏高价引热议，《博德之门3》总监：定价需灵活

现在《博德之门3》的发行总监Michael Douse在推特上发文提醒开发者们，他们不需要根据Switch2的零售规范来定价自己的游戏。他在推特上对美国任天堂总裁最近说任天堂将对产品价格采用“可变定价”策…

04-08

传奇迷宫攻略大揭秘：实战策略与智慧解析

根据多个游戏的数据显示，绘制地图是迷宫攻略中最有效的策略之一。根据游戏销售数据，许多迷宫都需要玩家解开机关或谜题才能通过，如《暗黑破坏神》系列中的地下城迷宫。引用权威：著名游戏评论家Jim Sterli…

04-08

游戏产业：全球影响力几何？未来趋势引人瞩目

案例研究：以腾讯为例，作为全球最大的游戏公司之一，腾讯的游戏业务不仅在游戏开发和运营上取得了巨大成功，还通过投资、收购等方式涉足游戏产业的各个环节，推动了整个游戏产业的全球化发展。我们期待游戏产业在未来能…

04-08

网游账号“至尊11”唯一存在，21.3万高价司法拍卖成交！

红星新闻注意到，根据此前游戏公司给法院出具的“游戏账号价值回函”信息显示，游戏《梦三国》自2010年上线运营至今，在国内外都享有一定的知名度。《梦三国》根据用户账号充值付费情况，有至尊1至至尊10共10个…

04-08

街机游戏换新大揭秘：各类街机更换游戏方法与策略详解

案例研究：在大型游戏展览或娱乐中心，经常能看到此类街机基板的更换，以满足不同玩家的需求。权威引用：根据Arcade Museum的资料，传统街机基板的更换是一个常见且必要的维护操作，以确保游戏的更新和多样…

04-08

赛尔号尤纳斯挑战秘籍：特攻策略为何更胜一筹？

他分享了使用阴谋技能提升特攻的重要性，以及在战斗过程中及时补血的策略。王浩采用了多只草系和火系精灵的组合，利用固定伤害技能和回血技能，成功击败了尤纳斯。在挑战尤纳斯时，玩家应根据其特性和技能，优先选择特攻策…

04-08

友徐庶强度解析：刘焉神器加持，军八表现究竟如何？

友徐庶的强度来源其实很简单，就是强大的过牌能力和多刀能力，这两点对于防御能力较弱的武将都是比较克制的，尤其是那些自身过牌能力并不算特别优秀的武将，在面对友徐庶的时候就更加难受了，自身的高频率回血绝对是那些低…

04-08

穿越乱世炼魂路，情缘劫数由你定！

面对这样的挑战，你纠结于自己的运气之差，但你也知道，你必须接受这个任务，因为这是你的命运。在游戏中，你需要做出各种选择，而这些选择也会影响到你与各个角色之间的关系。在两个都一样的选项中，你可以选择答应给他，…

04-08

王者荣耀S33赛季何时落幕？数据分析指向12月底至1月初

王者荣耀的赛季结束时间应当以官方公告为准，但基于对历史赛季时间的观察及当前S33赛季的常规安排，我们可以提供以下更为详细和有力的论证来预测S33赛季的预计结束时间。历史赛季数据：通过分析历史赛季的时长和结…

04-08

《火影忍者OL》主角随心换，解锁多元战斗新篇章！

在游戏《火影忍者OL》中，玩家拥有更换主角的特殊功能，这不仅能够为玩家带来不同的游戏体验，还能让玩家根据不同的战斗需求调整队伍配置。通过完成主线任务、进入阵容界面、更换主角等一系列步骤，玩家能够根据自己的喜…

04-08

Switch 2首批试玩反馈：画质提升，但最佳入手时机或在下半年？

就目前而言，Switch 2 对比 Switch 最大的优势其实是第三方游戏的支持，像《艾尔登法环》《赛博朋克 2077》这些 3A大作都已经宣布了 Switch 2 支持，可以预料的是，未来还会有更多第…

04-08

《不思议迷宫》SL技巧大揭秘：玩家如何巧妙改写游戏命运？

提供实际的数据或者案例，展示使用SL技巧前后的游戏进度差异，如使用SL技巧后，玩家成功获取理想装备的概率明显提高。通过实际的游戏数据，展示SL在BOSS战中的应用效果，如使用SL后，玩家成功击败高难度BO…

04-08

点击查看更多 +

全站最新

任天堂高管：AI为辅助，人类创意才是游戏开发灵魂

Switch 2卡带继续“苦”口婆心，任天堂防误食设计再升级？

Switch 2游戏高价引热议，《博德之门3》总监：定价需灵活

传奇迷宫攻略大揭秘：实战策略与智慧解析

游戏产业：全球影响力几何？未来趋势引人瞩目

网游账号“至尊11”唯一存在，21.3万高价司法拍卖成交！

热门内容

媒体信息

新传播周刊

新传播，传播新经济之声！

本栏最新

任天堂高管：AI为辅助，人类创意才是游戏开发灵魂

Switch 2卡带继续“苦”口婆心，任天堂防误食设计再升级？

Switch 2游戏高价引热议，《博德之门3》总监：定价需灵活

传奇迷宫攻略大揭秘：实战策略与智慧解析

游戏产业：全球影响力几何？未来趋势引人瞩目

网游账号“至尊11”唯一存在，21.3万高价司法拍卖成交！