AI界新星闪耀!95后天才少女助力小米,DeepSeek-V3引发热议

   时间:2024-12-30 08:04 来源:天脉网作者:陆辰风

在AI领域,一个名为DeepSeek的新兴公司及其背后的年轻天才开发者罗福莉正迅速崛起。DeepSeek近期发布的DeepSeek-V3大语言模型,不仅在性能上与世界顶尖模型比肩,更在成本效益上创造了新的里程碑。

DeepSeek-V3的参数量高达671B,激活参数为37B,预训练token量更是达到了14.8万亿。据技术报告显示,它在多项评测中超越了阿里Qwen2.5-72B和meta的Llama-3.1-405B等开源模型,与闭源模型GPT-4和Claude-3.5-Sonnet的性能不相上下。这一成就让DeepSeek-V3一经发布便引起了国内外广泛关注。

meta的AI研究科学家田渊栋称赞DeepSeek-V3在预算有限的情况下实现了强劲表现,是一项了不起的工作。知名AI数据公司ScaleAI的创始人兼CEO Alexandr Wang也表示,DeepSeek-V3以更低的成本、更快的速度和更强的实力迎头赶上,训练所需计算量减少了10倍。

DeepSeek由国内量化资管巨头幻方量化于2023年创立,专注于开发先进的大语言模型和相关技术。早在半年前,DeepSeek发布的DeepSeek-V2就因性能接近GPT-4但成本极低而备受瞩目。DeepSeek-V2不仅开源且可免费商用,API价格仅为GPT-4-Turbo的百分之一。DeepSeek官方表示,这得益于创新的架构,如MLA(多头潜在注意力)和前馈网络方面的DeepSeekMoE架构等。

DeepSeek的创始人梁文锋是一位低调的技术专家,毕业于浙江大学电子工程系。他带领着一个200人左右的小团队,不依靠外部融资,成功研发出了被全球主流AI界人士认可的大模型。梁文锋表示,他们并非有意成为行业的搅局者,只是专注于技术和研究,不小心成了“鲶鱼”。

在DeepSeek-V3爆火之后,其背后的年轻开发者罗福莉也走进了公众视野。这位被称为AI“天才少女”的开发者,是DeepSeek-V2的关键开发者之一。据报道,小米创始人雷军以千万年薪招揽罗福莉,让她领导小米AI大模型团队。罗福莉本科就读于北京师范大学计算机专业,硕士毕业于北京大学计算语言学专业,曾在阿里达摩院从事预训练语言模型相关工作,负责AliceMind开源项目。

罗福莉的学术成就同样令人瞩目。她在读硕士期间就在人工智能领域顶级国际会议ACL上发表了8篇论文,其中2篇为一作。硕士毕业后,她先后加入阿里达摩院和幻方量化,最终跳槽到DeepSeek担任深度学习研究员。罗福莉在知乎上曾表示,DeepSeek-V2的中文水平处于国内外闭源模型的第一梯队,且性价比极高。

小米全面发力AI大模型业务,除了招募罗福莉这样的顶尖人才外,还在积极搭建自己的GPU万卡集群,提升算力储备。小米的元老级技术大牛张铎负责AI平台部,他本硕毕业于清华计算机系,被雷军誉为“小米的大神”。对于小米来说,如何在烧钱的大模型业务中平衡成本,无疑是雷军考虑的核心问题。而拥有DeepSeek-V2研发背景的罗福莉,或许正是解决这一问题的关键。

 
反对 0举报 0 收藏 0
 
更多>同类天脉资讯
全站最新
热门内容
媒体信息
新传播周刊
新传播,传播新经济之声!
网站首页  |  关于我们  |  联系方式  |  版权隐私  |  网站留言  |  RSS订阅  |  违规举报