在AI界掀起波澜的不仅是技术的革新,更有年轻才俊的闪耀登场。近期,95后“AI天才少女”罗福莉与DeepSeek携手,以其卓越贡献成为业界焦点。作为DeepSeek-V2模型的核心开发者,罗福莉的名字在AI领域迅速走红。更令人瞩目的是,就在DeepSeek-V3发布前夕,有消息称小米创始人雷军以千万年薪的优厚条件,成功将这位才女招致麾下,她将在小米AI实验室担任大模型团队的领导职务。
DeepSeek-V3的发布,无疑在海外科技界引发了一场地震。据最新技术报告显示,该模型拥有671B的参数量和37B的激活参数,使用的预训练token量高达14.8万亿。在多项评测中,DeepSeek-V3的表现超越了阿里的Qwen2.5-72B和meta的Llama-3.1-405B等开源模型,与顶尖的闭源模型GPT-4和Claude-3.5-Sonnet在性能上不分上下。这一成就,让DeepSeek-V3一经问世便受到了全球范围内的广泛关注。
从成本角度来看,假设H800的租金为每GPU小时2美元,DeepSeek-V3的总训练成本仅为600万美元左右,不到Llama-3 405B训练成本的十分之一。这种极高的性价比,让DeepSeek-V3在国内外都赢得了广泛的赞誉。meta的AI研究科学家田渊栋称赞道:“在非常有限的预算下实现强劲表现,这是一项了不起的工作。”知名AI数据公司ScaleAI的创始人兼CEO Alexandr Wang也表示:“DeepSeek-V3训练所需计算量减少了10倍,他们在美国休息的时候,我们却在努力工作,以更低的成本、更快的速度和更强的实力迎头赶上。”
DeepSeek,这个被誉为“AI界拼多多”的公司,凭借其前沿的大语言模型和技术实力,在国际舞台上大放异彩。公开资料显示,DeepSeek由国内知名量化资管巨头幻方量化于2023年创立,专注于开发先进的大语言模型和相关技术,并被誉为美国硅谷的“东方神秘力量”。事实上,DeepSeek并非首次引起业界关注。早在半年前,其发布的DeepSeek-V2就因性能达到GPT-4级别,且开源、可免费商用、API价格仅为GPT-4-Turbo的百分之一而备受瞩目。
DeepSeek之所以能实现如此高的性价比,得益于其创新的架构和高效的训练方式。DeepSeek-V2采用了MLA(多头潜在注意力)和前馈网络方面的DeepSeekMoE架构等创新技术,从而实现了更高的经济性和更高效的推理。这一优势使得DeepSeek成为国内最早开启大模型降价的厂商,也是大模型价格战的源头和推动者。在其发布DeepSeek-V2之后,字节、阿里、百度等厂商纷纷跟进降价。
作为DeepSeek-V3背后的关键人物之一,罗福莉的加入无疑为小米的AI大模型业务注入了新的活力。公开资料显示,罗福莉本科就读于北京师范大学计算机专业,硕士毕业于北京大学计算语言学专业。她在读硕士期间就已在人工智能领域顶级国际会议ACL上发表多篇论文,展现了卓越的学术能力。毕业后,她先后进入阿里达摩院和幻方量化从事人工智能和深度学习相关工作,积累了丰富的实战经验。
罗福莉的加入,是小米全面发力AI大模型业务的重要一环。近年来,小米在AI领域持续加大投入,组建了专业的AI实验室大模型团队,并不断提升算力储备。今年11月,小米还成立了专门的AI平台部,由元老级技术大牛张铎担任负责人。雷军在公开演讲中表示,小米做大模型的思路与众不同,选择主力突破的是轻量化和本地部署。对于小米这样注重“性价比”的公司而言,如何在烧钱的大模型业务中平衡成本,无疑是雷军考虑的核心问题。而罗福莉凭借其DeepSeek-V2的研发背景,无疑将成为小米在这一领域的重要助力。