在人工智能领域,一项关于混合专家(MoE)架构的重大技术革新正由字节跳动旗下的豆包大模型团队引领。该团队近日宣布,他们已经成功研发出一种能够显著提升大模型训练效率的关键技术,并将此优化方案向公众开源。据官方介绍,这项技术可将训练效率提高最高达1.7倍,同时降低40%的训练成本。
这项优化技术已经在字节跳动的万卡集群训练中得到了验证,成功节省了数百万GPU小时的训练算力资源。这一成果不仅彰显了字节跳动在大模型技术领域的深厚底蕴,也为其在全球技术竞争中增添了新的优势。
尤为该技术还获得了全球机器学习系统顶级会议MLSys 2025的高度认可,以高分入选并获得了评审专家的一致好评。MLSys 2025认为,该技术在解决大规模生产环境中的实际问题方面具有巨大的应用潜力。
MoE架构作为当前大模型的主流架构,虽然在性能上表现优异,但在分布式训练中面临着巨大的通信开销问题。以海外知名的Mixtral-8x7B模型为例,其训练过程中的通信时间占比高达40%,严重制约了训练效率和成本控制。针对这一难题,字节跳动内部研发了名为COMET的计算-通信重叠技术,通过一系列创新手段,有效降低了MoE专家通信的空转时间。
相较于近期DeepSeek开源的DualPipe等MoE优化方案,COMET表现出了更高的灵活性和兼容性。它像插件一样,可以无缝接入现有的MoE训练框架,无需对框架进行大规模的改动,从而支持了业界绝大部分主流大模型。COMET还支持多种MoE并行模式,部署方便,并提供了一套友好的Python API,极大地便利了开发者的使用。
在国内大模型研发技术快速发展的背景下,相关应用的下载量也呈现出了快速增长的趋势。据最新数据显示,DeepSeek在中国区苹果应用商店免费APP下载排行榜上位居首位,而豆包则紧随其后,位列第二,腾讯的元宝则排在第三位。这一排名不仅反映了各家大模型技术的实际应用能力,也预示着未来市场竞争的激烈程度。
近期,关于字节跳动的市场传言也引发了广泛关注。有消息称,字节跳动已向寒武纪下单4万颗580芯片,总价值高达10亿元。然而,字节跳动相关负责人迅速对此进行了辟谣,表示消息不实。还有消息称国内创业公司Monica开发的Manus大模型曾拒绝了字节跳动的投资。据报道,Monica在2024年初曾与字节跳动进行过一轮收购谈判,但因价格问题未能达成协议。接近Monica内部的从业者透露,字节跳动的收购计划主要是看重Monica的团队和技术,但Monica创始人肖弘担心被收购后会丧失产品上的独特优势,因此选择了拒绝。目前,Monica的估值已接近1亿美元。
另一方面,关于抖音将接入豆包大模型的消息也引起了广泛关注。据称,抖音App正在测试将豆包的AI能力直接嵌入其中,为用户带来更加丰富多元的智能体验。在测试版本中,抖音为豆包开放了两个重要入口,分别置于短视频界面和消息列表内,使用户无需跳转即可直接使用AI服务。这一举措不仅将强化抖音自身的AI能力,还能通过其庞大的用户基数为豆包导流,推动AI生态闭环的建设。