DeepSeek V3惊艳亮相!671B大模型训练成本大降,开源细节引发热议

   时间:2024-12-27 14:07 来源:天脉网作者:钟景轩

近日,AI领域迎来了一项重大突破,DeepSeek团队正式发布了其最新版本的模型——DeepSeek V3,这一消息迅速在科技圈内引发了广泛关注和热烈讨论。

DeepSeek V3延续了其一贯的“高性价比”特点,并在发布之初就宣布完全开源,其训练细节被详尽地呈现在一份长达53页的论文中。这一举措无疑为AI爱好者及研究者提供了宝贵的参考和学习资料。

对于DeepSeek V3,QLoRA一作的评价简洁而有力:“优雅”。从具体参数来看,DeepSeek V3是一个参数量高达671B的MoE模型,其中激活参数为37B,它在14.8T的高质量token数据上进行了预训练。

在多项测评中,DeepSeek V3的表现尤为亮眼,不仅超越了开源模型Qwen2.5-72B和Llama-3.1-405B,还与顶尖闭源模型如GPT-4o和Claude-3.5-Sonnet等不相上下。更令人惊喜的是,其价格仅为Claude 3.5 Sonnet的9%,性价比极高。

除了强大的性能和极高的性价比,DeepSeek V3的训练成本也相对较低。据悉,整个训练过程仅用了不到280万个GPU小时,相比之下,Llama 3 405B的训练时长高达3080万GPU小时。从经济角度来看,训练671B的DeepSeek V3的成本约为557.6万美元(约合4070万人民币),而训练一个7B的Llama 2就要花费76万美元(约合555万人民币)。

DeepSeek V3的实际应用效果也备受关注。从官方发布的信息来看,新模型在多项基准测试中均达到了开源SOTA水平,同时在实际响应中,其生成速度提升了3倍,每秒可生成60个tokens。其API价格也相对较低,每百万输入tokens为0.5元(缓存命中)/2元(缓存未命中),每百万输出tokens为8元。

在实测中,DeepSeek V3也展现出了不俗的表现。例如,在首位全职提示词工程师Riley Goodside的测试中,DeepSeek V3完全答对了关于自身版本的问题,而ChatGPT和Grok等模型则出现了错误。还有网友表示,DeepSeek V3无需开发者详细解释,就能理解整个项目,这让人不禁感叹其强大的理解和推理能力。

DeepSeek V3的成功并非偶然,其背后是团队在算法、框架和硬件方面的协同优化。通过创新的负载均衡策略和训练目标、FP8混合精度训练框架以及高效的跨节点通信算法等,DeepSeek团队成功降低了训练成本,提高了训练效率。这些专业知识的积累和应用,无疑为DeepSeek V3的成功奠定了坚实的基础。

 
反对 0举报 0 收藏 0
 
更多>同类天脉资讯
全站最新
热门内容
媒体信息
新传播周刊
新传播,传播新经济之声!
网站首页  |  关于我们  |  联系方式  |  版权隐私  |  网站留言  |  RSS订阅  |  违规举报