近日,AI领域迎来了一项重大突破,DeepSeek团队正式发布了其最新版本的模型——DeepSeek V3,这一消息迅速在科技圈内引发了广泛关注和热烈讨论。
DeepSeek V3延续了其一贯的“高性价比”特点,并在发布之初就宣布完全开源,其训练细节被详尽地呈现在一份长达53页的论文中。这一举措无疑为AI爱好者及研究者提供了宝贵的参考和学习资料。
对于DeepSeek V3,QLoRA一作的评价简洁而有力:“优雅”。从具体参数来看,DeepSeek V3是一个参数量高达671B的MoE模型,其中激活参数为37B,它在14.8T的高质量token数据上进行了预训练。
在多项测评中,DeepSeek V3的表现尤为亮眼,不仅超越了开源模型Qwen2.5-72B和Llama-3.1-405B,还与顶尖闭源模型如GPT-4o和Claude-3.5-Sonnet等不相上下。更令人惊喜的是,其价格仅为Claude 3.5 Sonnet的9%,性价比极高。
除了强大的性能和极高的性价比,DeepSeek V3的训练成本也相对较低。据悉,整个训练过程仅用了不到280万个GPU小时,相比之下,Llama 3 405B的训练时长高达3080万GPU小时。从经济角度来看,训练671B的DeepSeek V3的成本约为557.6万美元(约合4070万人民币),而训练一个7B的Llama 2就要花费76万美元(约合555万人民币)。
DeepSeek V3的实际应用效果也备受关注。从官方发布的信息来看,新模型在多项基准测试中均达到了开源SOTA水平,同时在实际响应中,其生成速度提升了3倍,每秒可生成60个tokens。其API价格也相对较低,每百万输入tokens为0.5元(缓存命中)/2元(缓存未命中),每百万输出tokens为8元。
在实测中,DeepSeek V3也展现出了不俗的表现。例如,在首位全职提示词工程师Riley Goodside的测试中,DeepSeek V3完全答对了关于自身版本的问题,而ChatGPT和Grok等模型则出现了错误。还有网友表示,DeepSeek V3无需开发者详细解释,就能理解整个项目,这让人不禁感叹其强大的理解和推理能力。
DeepSeek V3的成功并非偶然,其背后是团队在算法、框架和硬件方面的协同优化。通过创新的负载均衡策略和训练目标、FP8混合精度训练框架以及高效的跨节点通信算法等,DeepSeek团队成功降低了训练成本,提高了训练效率。这些专业知识的积累和应用,无疑为DeepSeek V3的成功奠定了坚实的基础。