字节跳动豆包大模型：MoE架构优化，训练效率倍增，成本骤降40%-天脉网

在人工智能领域，一项关于混合专家（MoE）架构的重大技术革新正由字节跳动旗下的豆包大模型团队引领。该团队近日宣布，他们已经成功研发出一种能够显著提升大模型训练效率的关键技术，并将此优化方案向公众开源。据官方介绍，这项技术可将训练效率提高最高达1.7倍，同时降低40%的训练成本。

这项优化技术已经在字节跳动的万卡集群训练中得到了验证，成功节省了数百万GPU小时的训练算力资源。这一成果不仅彰显了字节跳动在大模型技术领域的深厚底蕴，也为其在全球技术竞争中增添了新的优势。

尤为该技术还获得了全球机器学习系统顶级会议MLSys 2025的高度认可，以高分入选并获得了评审专家的一致好评。MLSys 2025认为，该技术在解决大规模生产环境中的实际问题方面具有巨大的应用潜力。

MoE架构作为当前大模型的主流架构，虽然在性能上表现优异，但在分布式训练中面临着巨大的通信开销问题。以海外知名的Mixtral-8x7B模型为例，其训练过程中的通信时间占比高达40%，严重制约了训练效率和成本控制。针对这一难题，字节跳动内部研发了名为COMET的计算-通信重叠技术，通过一系列创新手段，有效降低了MoE专家通信的空转时间。

相较于近期DeepSeek开源的DualPipe等MoE优化方案，COMET表现出了更高的灵活性和兼容性。它像插件一样，可以无缝接入现有的MoE训练框架，无需对框架进行大规模的改动，从而支持了业界绝大部分主流大模型。COMET还支持多种MoE并行模式，部署方便，并提供了一套友好的Python API，极大地便利了开发者的使用。

在国内大模型研发技术快速发展的背景下，相关应用的下载量也呈现出了快速增长的趋势。据最新数据显示，DeepSeek在中国区苹果应用商店免费APP下载排行榜上位居首位，而豆包则紧随其后，位列第二，腾讯的元宝则排在第三位。这一排名不仅反映了各家大模型技术的实际应用能力，也预示着未来市场竞争的激烈程度。

近期，关于字节跳动的市场传言也引发了广泛关注。有消息称，字节跳动已向寒武纪下单4万颗580芯片，总价值高达10亿元。然而，字节跳动相关负责人迅速对此进行了辟谣，表示消息不实。还有消息称国内创业公司Monica开发的Manus大模型曾拒绝了字节跳动的投资。据报道，Monica在2024年初曾与字节跳动进行过一轮收购谈判，但因价格问题未能达成协议。接近Monica内部的从业者透露，字节跳动的收购计划主要是看重Monica的团队和技术，但Monica创始人肖弘担心被收购后会丧失产品上的独特优势，因此选择了拒绝。目前，Monica的估值已接近1亿美元。

另一方面，关于抖音将接入豆包大模型的消息也引起了广泛关注。据称，抖音App正在测试将豆包的AI能力直接嵌入其中，为用户带来更加丰富多元的智能体验。在测试版本中，抖音为豆包开放了两个重要入口，分别置于短视频界面和消息列表内，使用户无需跳转即可直接使用AI服务。这一举措不仅将强化抖音自身的AI能力，还能通过其庞大的用户基数为豆包导流，推动AI生态闭环的建设。

此外，万达酒管的酒店管理合约和专业团队也将为同程旅行带来显著的协同效应。随着同程旅行收购万达酒管的靴子落地，在资本市场眼中的“中国OTA大众旅游市场龙头”与中国本土高端豪华酒店品牌的强强联合，不仅做大了高端…

肯定是关注的，所以同样拼多多作为一个电商平台要尽量保证好质量大关，像什么假冒伪劣，以次充好“是99%的消费者都不允许发生的现象” 而拼多多在质量大关其实虽说不特别完美，但是相对把控还是性像什么商家商品的严格审…

这一套组合拳下来，过去一年，慧播星数字人主播数量累计超过10 万，其展现出来的高说服力也带来了显著的收益，大盘来看数字人直播转化率提升了31%，降低了80%的开播成本。据Tech星球不完全统计，今年百度优选…

在2025年4月9日之后，美国亚马逊网站上近1000种商品的价格出现了显著上涨，涵盖了从服装、家居用品到电子产品和玩具等多个类别，平均涨价幅度接近30%。另一个在北美崛起的中国平台，Temu作为拼多多旗下…

从消费者快速维权通道到商家权益的保障，全面取消“仅退款”不仅意味着电商生态的重塑，更引发了对行业健康发展、消费者权益与商家利益平衡、以及平台治理责任的深刻思考。全面取消“仅退款”政策有助于减少因规则滥用而引…

60分钟的演讲中，李彦宏发布了两大模型，多款热门AI应用，并宣布将帮助开发者全面拥抱MCP。面对AI应用的井喷，百度搜索开放平台发布了“AI开放计划”（sai.baidu.com），通过建立多样的内容和服务…

在李彦宏看来，当下的部分模型，仍然存在模态单一、幻觉高、速度慢和价格贵等问题，为解决这些问题，百度正式发布文心大模型4.5Turbo和文心大模型X1 Turbo，具备多模态、强推理、低成本三大特性。在去…

今天，我们在1小时内做了有关模型和应用的9大发布——发布了更强大、成本更低的文心大模型4.5 Turbo和X1 Turbo；发布了领先一代的高说服力数字人、功能强大的沧舟OS系统、代码智能体秒哒的新进展、多…

4月25日的百度开发者大会，百度后手出牌，回答了这些问题——百度目前在模型、应用、算力三个方向仍在有条不紊地推进。钉钉、飞书、WPS、美图秀秀、百度文库、百度网盘这些老应用近半年在加快叠加新的AI能力，M…

李彦宏认为，只有成本降低后，开发者和创业者们才可以放心大胆地做开发，企业才能低成本地部署大模型，最终推动各行各业应用的爆发。面对AI应用的井喷，百度搜索开放平台也发布了“AI开放计划”，为应用开发者提供流量…

北京商报消息，拼多多、淘宝、抖音、快手、京东等多个电商平台将全面取消“仅退款”，消费者收到货后的退款不退货申请，将由商家自主处理。多位商家反映，平台在售后环节似乎有意“引导”消费者选择“仅退款”，而商家想…

还比如外卖员们为了多送单不超时，电驴骑成战斗机，逆行闯灯满街飞，不是他们不要命，而是算法在极限压榨几乎每一个人的极限：最初1小时的配送时限，看大家55分钟能送到，立马砍到55分钟；等骑手卷到50分钟送达，…

从文心大模型4.5Turbo和X1 Turbo的成本突破，到内容操作系统沧舟OS，再到秒哒无代码开发工具向全社会开放，和多智能体协作应用"心响"，百度正用实际行动为开发者铺平创新之路。百度通过MCP协议和…

这是李彦宏今年的首次公开演讲，在60分钟的题为《模型的世界应用的天下》演讲中，李彦宏发布了两大模型，多款热门AI应用，并宣布将帮助开发者全面拥抱MCP（Model Context Protocol，模型上下…

随着大模型技术的不断发展，市场上各类AI应用层出不穷，但大多仅提供智能问答，素材生成的功能，要想实现更多需求，还是离不开提示词和代码，普通用户与AI之间依旧存在壁垒。秒哒与其他开发平台最核心的不同在于，用…