DeepSeek V3惊艳亮相！671B大模型训练成本大降，开源细节引发热议-天脉网

近日，AI领域迎来了一项重大突破，DeepSeek团队正式发布了其最新版本的模型——DeepSeek V3，这一消息迅速在科技圈内引发了广泛关注和热烈讨论。

DeepSeek V3延续了其一贯的“高性价比”特点，并在发布之初就宣布完全开源，其训练细节被详尽地呈现在一份长达53页的论文中。这一举措无疑为AI爱好者及研究者提供了宝贵的参考和学习资料。

对于DeepSeek V3，QLoRA一作的评价简洁而有力：“优雅”。从具体参数来看，DeepSeek V3是一个参数量高达671B的MoE模型，其中激活参数为37B，它在14.8T的高质量token数据上进行了预训练。

在多项测评中，DeepSeek V3的表现尤为亮眼，不仅超越了开源模型Qwen2.5-72B和Llama-3.1-405B，还与顶尖闭源模型如GPT-4o和Claude-3.5-Sonnet等不相上下。更令人惊喜的是，其价格仅为Claude 3.5 Sonnet的9%，性价比极高。

除了强大的性能和极高的性价比，DeepSeek V3的训练成本也相对较低。据悉，整个训练过程仅用了不到280万个GPU小时，相比之下，Llama 3 405B的训练时长高达3080万GPU小时。从经济角度来看，训练671B的DeepSeek V3的成本约为557.6万美元（约合4070万人民币），而训练一个7B的Llama 2就要花费76万美元（约合555万人民币）。

DeepSeek V3的实际应用效果也备受关注。从官方发布的信息来看，新模型在多项基准测试中均达到了开源SOTA水平，同时在实际响应中，其生成速度提升了3倍，每秒可生成60个tokens。其API价格也相对较低，每百万输入tokens为0.5元（缓存命中）/2元（缓存未命中），每百万输出tokens为8元。

在实测中，DeepSeek V3也展现出了不俗的表现。例如，在首位全职提示词工程师Riley Goodside的测试中，DeepSeek V3完全答对了关于自身版本的问题，而ChatGPT和Grok等模型则出现了错误。还有网友表示，DeepSeek V3无需开发者详细解释，就能理解整个项目，这让人不禁感叹其强大的理解和推理能力。

DeepSeek V3的成功并非偶然，其背后是团队在算法、框架和硬件方面的协同优化。通过创新的负载均衡策略和训练目标、FP8混合精度训练框架以及高效的跨节点通信算法等，DeepSeek团队成功降低了训练成本，提高了训练效率。这些专业知识的积累和应用，无疑为DeepSeek V3的成功奠定了坚实的基础。

备受年轻人喜欢的IP齐聚亮相千灯节——泡泡玛特新年12款手办盲盒售发、王者荣耀文创、“潮有范儿” 朝阳特色伴手礼、天坛文创等，市民游客可体验投壶等传统游戏，购买各类非遗手工艺品，还可在“快乐办事处”许下心愿…

我们在玩游戏的时候一定要自己去感受，千万不要道听途说，有些时候别人说出来强大的武将，在自己的手里并不一定能够展现出这么强大的水平，只有自己亲自感受彻底的了解一个武将的技能和使用方法以后，才可以让我们在对战的过…

《M.E.A.T. II: Absolute Zero》是一款经典风格射击游戏，具有黑暗的氛围、引人入胜的故事情节和成群的敌人。这是一款日式解谜动作和元小说推理恐怖游戏，具有不同寻常的“库存谜题”和剑的“格挡…

你说巧不巧，这事儿还赶上微软新推了个营销口号，说只要设备能连网，就能变成Xbox。这个云游戏服务可是Game Pass Ultimate订阅用户的福利啊，能让大家在平板、手机、电视等各种设备上畅玩海量游戏…

【转载来源：千思装饰，侵删】…

在2005年的《魔兽世界》游戏中，发生了一场备受瞩目的"数字瘟疫"事件。有人在Reddit论坛上分享了关于这些玩家试图传播瘟疫的片段。 “堕落之血”瘟疫是大型多人在线角色扮演游戏历史上最著名之一，并且还引起…

本章考察了从第一款引入垂直方向卷轴（纵向卷轴）的街机游戏《极速前进》（Taito, AC,1974），到引入了“向前滚动”这一新颖技术的《古惑狼》（Sony Computer Entertainment,…

这些作品类型丰富视角独特，覆盖武侠、动作、悬疑、犯罪、喜剧、公路等多题材，汇聚了各位创作者的智慧与心血，也代表了网络电影的最新探索和实践方向。我是卧底》从卧底、缉毒、警匪题材类型解构，以失忆保安为视角展开卧…

想象一下，如果项羽是一名游戏玩家，他可能会选择一些策略类、角色扮演类的游戏。在一款像《三国志》这样的游戏中，项羽无疑会成为一个强大的领袖，带领他的军队征战四方。项羽作为一位历史上的英雄，虽然在战场上指挥得当…

2024-12-28 11:40:18 作者：狼叫兽《燕云十六声》公测昨日正式启动，游戏以其独特的设计和公平竞技的玩法吸引了大量玩家的关注。许多玩家在贴吧上分享了他们的游戏体验，并对这款游戏给出了高度评价…

三言科技12月28日消息，12月27日，紫龙游戏将裁员50%的消息引发关注。据悉，紫龙游戏年底的人力盘点会议开完后，预计裁员50%，年前裁一半，年后再裁一半，波及到所有项目。裁员赔偿n+3。另有网友透露，紫龙…

他表示，这主要是由于 Xbox 游戏在 PlayStation主机上的强劲销售。 Piscatella 表示，Xbox 未来的关键是拥抱其他平台，而不是与它们竞争，用游戏销量来弥补主机销量：“展望未来，…

游戏中的UI烦琐程度完全不像一款成熟的MMORPG，2024年了还要到特定NPC处去收取邮件，刚体验一小会游戏升到24级就被逼着氪月卡的经历等等，都让我们颇有微词。平心而论，虽然身为廉颇老师中之人之一的我…

说，当你的队友出了一张大牌，你可以选择不跟，等到对手出完后再趁机出手，这样可以有效地保护自己手中的强牌。说，有些地方会加入“加倍”规则，也就是说，如果某一方非常有信心可以获胜，可以选择加倍，这样一旦胜出，获得…

美东时间 12 月 26 日，微软确认其 Game Pass 云游戏服务遇到故障，未能正常运行。根据 Engadget的报道，从当地时间周四中午 12 时起，很多用户反映在使用 Xbox 云游戏服务时遇到…