在人工智能领域,一股来自中国的创新力量正悄然崛起。国内AI初创公司DeepSeek近日宣布,其最新一代大语言模型DeepSeek-V3已正式发布并开源。这款模型在多个基准测试中展现出卓越性能,不仅超越了主流开源模型,还与世界顶尖闭源模型比肩,尤其在编码和数学能力上表现突出。
DeepSeek-V3的成功秘诀在于其创新的技术架构。该模型采用了混合专家(MoE)架构和多头潜在注意力(MLA)技术,并率先实现了无辅助损失的负载均衡策略以及multi-token预测训练目标。这些技术使得DeepSeek-V3能够在14.8万亿个高质量token上进行高效预训练,并通过监督微调(SFT)和强化学习(RL)进一步提升性能。尤为尽管拥有671B的庞大参数规模,DeepSeek-V3在推理时仅激活对问题有意义的37B参数,从而显著提高了处理查询的速度和效率。
令人惊讶的是,DeepSeek-V3的研发并非出自互联网科技巨头之手,而是来自金融领域的头部量化公司——幻方量化。幻方量化曾是中国首家突破千亿私募的量化大厂,此次跨界涉足AI领域,并一举取得了显著成果,引发了广泛关注。不少网友对此表示惊讶,甚至感叹:“国内最牛的AI公司之一,竟然是炒股的?”这也引发了人们对人工智能在金融领域应用的深入思考和讨论。
DeepSeek的成就不仅标志着中国在全球AI竞赛中的角色正在发生转变,还展示了中国在AI技术创新方面的强大实力。DeepSeek创始人梁文锋在接受采访时表示,当中国公司能够以创新者的身份加入全球AI竞赛并表现出色时,硅谷感到非常震惊。这充分说明,更多的投入并不一定带来更多的创新,而研究和技术创新才是推动AI发展的关键。据业内专家测算,DeepSeek在V2、V3项目上并未亏损,这表明公司在控制成本的同时,依然能够保持高水平的技术输出。
与此同时,小米集团也在积极布局AI领域,以寻求新的增长点。据报道,小米创始人雷军亲自出面,以千万元级别的年薪招揽了DeepSeek-V2的关键开发者之一——95后AI“天才少女”罗福莉。罗福莉本科毕业于北京师范大学计算机专业,硕士毕业于北京大学计算语言学专业,在读期间即在顶级国际会议ACL上发表了多篇论文,并主导开发了多个重要的人工智能项目。她的加入将进一步加强小米在AI大模型方面的能力,特别是在轻量化和本地部署方面寻求突破。
小米还计划搭建GPU万卡集群,并预计未来几年内将投入超过1000亿元人民币用于AI、操作系统及芯片三大底层技术研发。随着小米在电动汽车领域的不断突破,资本市场对其前景看好,推动了股价上涨至新高点。雷军表示,小米在做大模型业务时注重平衡成本与效益,力求实现更高的性价比,这也是选择罗福莉这样具有深厚背景和技术实力的专业人才的原因之一。