天脉网 | 天脉新媒体中心主办！
手机版
二维码

时事快闻

当前位置：首页 > 天脉资讯 > 游戏天地 > 正文内容

Meta Llama 4实战翻车，竞技场高分遭质疑：是作弊还是误导？

时间：2025-04-07 12:55 来源：天脉网作者：钟景轩

meta新推Llama 4系列AI模型，用户体验与官方宣传存在出入

近日，科技巨头meta震撼发布了其最新的AI模型系列——Llama 4，该系列一举推出了三款不同规格的模型：Llama 4 Scout、Llama 4 Maverick和Llama 4 Behemoth。据meta官方宣称，这些模型在大模型竞技场中表现不俗，尤其Llama 4 Maverick更是在多项任务中排名领先。

然而，随着用户纷纷上手体验，Llama 4系列的实际表现却与官方宣传大相径庭。不少网友反馈称，尽管Llama 4 Maverick在开放模型排名中领先，但在专注于编程任务的Kscores基准测试中，其表现却不尽如人意，甚至不如GPT-4o、Gemini Flash等其他模型。

具体来说，在编程相关的测试中，如小球在旋转六边形中跳跃的任务，Llama 4的表现并不理想。网友们纷纷在评论区表示，无论是Scout还是Maverick，在实际编程中的使用体验都不尽如人意，即使有详细的提示也难以得到满意的结果。

还有网友在Novita AI平台上对Llama 4进行了测试，并得出结论称该模型在复杂问题上表现吃力，尽管其响应速度较快。这一反馈进一步引发了用户对Llama 4实际性能的质疑。

值得注意的是，Google Deepmind的工程师Susan Zhang也在社交媒体上对Llama 4的高分提出了质疑。她表示，不清楚Llama 4是如何在lmsys上获得如此高的分数的，并猜测是否meta为lmsys定制了一个专门的模型。

针对这一系列质疑，科技媒体TechCrunch报道称meta新AI模型的基准测试存在误导性。研究发现，公开可下载的Llama 4 Maverick与托管在LM Arena上的模型在行为上存在显著差异。LM Arena上的版本似乎使用了大量表情符号，并给出了冗长的回答。这一发现进一步加剧了用户对meta AI模型真实性能的担忧。

点赞 0反对 0举报 0 收藏 0

更多>同类天脉资讯

蔡浩宇AI游戏首秀：与iPhone上的AI小美共赴星际冒险，你能拯救她吗？

比如在《雷神之锤2》（Quake II）当中，微软通过其Muse AI模型，向游戏中为玩家植入了Copilot，并放出了DEMO。去年的CES上展示的“老黄拉面馆”就是由ACE中的模块驱动，不需要事先准备…

04-07

IG全神班不敌BLG，Meiko战绩1-36引热议：上辅还需多练？

朱开说得比较“暴力”，他觉得目前IG最大的问题就是辅助meiko的状态明显下滑，在打FPX与BLG共计五小场的比赛过程中，meiko打了个1-36战绩也是太离谱了，算是目前LPL最能死的辅助了。与此同时，…

04-07

“黎明之光”全面解析：数据案例支撑下的多元可能性探索

对于创作名为《黎明之光》的文学作品，可以参考以下数据：近年来，以末世、魔法世界、科幻未来等为背景的小说深受读者喜爱，其中很多作品都围绕光明与黑暗的对抗，或人类存亡危机等核心冲突展开。对于自制游戏、短片或艺…

04-07

《Q宠大乐斗》停运怎么办？四大热门手游接力你的游戏时光！

针对这篇关于腾讯《Q宠大乐斗》停运后的替代方案文章，我们可以进一步增加论点的说服力，通过添加更多事实数据、案例研究或权威引用，使论证更加充分。总的来说，虽然《Q宠大乐斗》的停运对于许多玩家来说是一个遗憾，但…

04-07

《塞尔达传说》大师剑进化之路：从旷野之息到王国之泪的全面升级攻略

完成试炼后，大师剑的基础攻击力会永久提升至40，对邪恶敌人时的攻击力提升至60。版本差异：不同版本的《塞尔达传说》游戏中，大师剑的升级方式和机制会有所不同。隐藏条件：部分升级方式需要玩家完成特定的主线任…

04-07

战神阿瑞斯终极挑战：分阶段策略与数据实战解析

在游戏中击败阿瑞斯，特别是经典游戏《战神》中的最终BOSS，需要精细的阶段策略和操作技巧。在此阶段，玩家需熟练掌握格挡与反击的技巧。走位优先，避免站桩输出，保持绕圈移动，这是根据游戏中BOSS的攻击模式及游…

04-07

《王者荣耀》吕布出装全攻略：实战中如何最大化真实伤害与生存力？

根据游戏数据，真实伤害与生存能力的平衡出装可以大大提高吕布的胜率。随着游戏版本的更新，吕布的出装和打法也需要相应调整。通过增加更多事实数据、案例研究及权威引用，我们可以更充分地论证吕布的出装、铭文、对线及团…

04-07

天缘传说：武侠手游新纪元，东方神话与江湖热血的完美交融！

开发团队也一直在努力，为玩家们带来更多更好的游戏内容和体验。总的来说，天缘传说无限狂刷版游戏的开发团队，通过他们的努力和热情，打造了一款富有东方神话色彩的武侠类手游，让玩家们能够沉浸在快意恩仇的武侠世界中，…

04-07

PSP游戏正版获取指南：合法玩乐，助力游戏创新

PSP原生支持UMD光盘，这是一种合法的游戏获取方式。你可以通过已破解（安装自定义固件）的PSP以及电脑端的UMD备份工具进行。 PSP支持通过模拟器运行经典主机（如GBA、NES）的游戏，但前提是你必须拥…

04-07

《星际公民》众筹金额再创新高，8亿美元筹集之路回顾

IT之家 4 月 7 日消息，“史上众筹金额最大的游戏”《星际公民》迎来筹款新突破，开发商 Cloud Imperium Games更新众筹追踪器页面，宣布已成功筹集到 8 亿美元，截至IT之家发文，筹集金…

04-07

索尼调研Switch2满意度：意在布局新掌机或PS6市场？

IT之家 4 月 7 日消息，爆料人 eXtas1s 在 X 平台发文，晒出一份调查问卷，内容包括玩家对 Switch 2规格的兴趣以及对任天堂预购策略的看法。 IT之家获悉，部分问题评估了玩家对任天堂即将…

04-07

东方玄幻之旅：《我是大将军神将集结》手游开发背后的故事

在一个充满玄幻与神秘的东方世界，有一款以神话故事为背景的手游正在悄然诞生，它就是《我是大将军神将集结》。在开发过程中，团队将中国神话人物进行了Q版设计，这一创意得到了广大玩家的喜爱。总的来说，《我是大将…

04-07

大冒险游戏新玩法大揭秘：如何让聚会气氛嗨翻天？

主题化：如“古风大冒险”，任务需结合文言文或古装剧台词，增加游戏的主题性和文化性。据一项针对大学生聚会游戏的研究显示，大冒险游戏在聚会中能够迅速破冰，增强朋友之间的互动和了解。大冒险游戏是一种简单而有趣…

04-07

2025年上海四批次集中供地来袭，哪些地块将成为房企新宠？

该组合用地中的hk196-08地块为纯住宅地块，hk196-06地块近期经历了用地性质调整，由原来的住宅+商业+文化用地调整为商业+文化用地，目的或是为了提升四川北路板块整体的商业品质，增强四川北路板块的中…

04-07

数独：解锁逻辑思维密码，探索经典游戏的不凡魅力！

棋盘结构：数独的棋盘是一个9×9的网格，由81个方格组成，分为9行、9列和9个3×3的小宫格（用粗线分隔）。游戏目标：玩家需要将数字1-9填入网格中，满足每行、每列以及每个3×3宫格都包含1-9的所有数字…

04-07

点击查看更多 +

全站最新

蔡浩宇AI游戏首秀：与iPhone上的AI小美共赴星际冒险，你能拯救她吗？

IG全神班不敌BLG，Meiko战绩1-36引热议：上辅还需多练？

“黎明之光”全面解析：数据案例支撑下的多元可能性探索

《Q宠大乐斗》停运怎么办？四大热门手游接力你的游戏时光！

《塞尔达传说》大师剑进化之路：从旷野之息到王国之泪的全面升级攻略

从游戏少年到顶刊作者，李展的逆袭之路有多燃？

热门内容

媒体信息

新传播周刊

新传播，传播新经济之声！

本栏最新

蔡浩宇AI游戏首秀：与iPhone上的AI小美共赴星际冒险，你能拯救她吗？

IG全神班不敌BLG，Meiko战绩1-36引热议：上辅还需多练？

“黎明之光”全面解析：数据案例支撑下的多元可能性探索

《Q宠大乐斗》停运怎么办？四大热门手游接力你的游戏时光！

《塞尔达传说》大师剑进化之路：从旷野之息到王国之泪的全面升级攻略

战神阿瑞斯终极挑战：分阶段策略与数据实战解析