百度智能云昆仑芯三代万卡集群启用,引领AI算力与成本优化新篇章

   时间:2025-02-05 13:46 来源:天脉网作者:沈如风

百度万卡集群崛起,引领AI算力与成本优化新纪元

在AI技术日新月异的今天,百度凭借自主研发的万卡集群,不仅在算力领域取得了显著突破,更在降低大模型使用成本方面树立了行业标杆。这一壮举不仅解决了百度自身的算力需求,更为整个AI行业指明了前进的方向。

万卡集群的建成,标志着百度在超大规模并行计算能力上的飞跃。它能够大幅缩短千亿参数模型的训练周期,满足AI原生应用快速迭代的需求,同时支持更大规模、更复杂任务和多模态数据的处理,为Sora类应用的开发提供了坚实支撑。万卡集群还具备强大的多任务并发能力,通过动态资源切分和通信优化,实现了训练成本的显著降低,为AI应用的广泛普及奠定了坚实基础。

随着国产大模型的蓬勃发展,万卡集群逐渐实现了从“单任务算力消耗”到“集群效能最大化”的转变。通过模型优化、有效训练率提升和动态资源分配等手段,百度智能调度任务,将训练、微调、推理任务混合部署,从而提高了集群的综合利用率,进一步降低了单位算力成本。

在万卡集群的建设过程中,百度百舸AI异构计算平台4.0(简称“百舸平台”)发挥了至关重要的作用。该平台突破了硬件扩展性瓶颈,解决了卡间互联的拓扑限制和通信带宽问题。同时,针对万卡规模常规方案的高功耗问题,百舸平台采用了创新性散热方案,有效解决了能效与散热难题。百舸平台还完善了模型的分布式训练优化,提升了主流开源模型的集群MFU,并提供了容错与稳定性机制,保障了万卡集群的有效性。

百舸4.0在构建超大规模HPN高性能网络方面取得了显著成就。针对跨地域通信中的高延迟问题,百舸通过优化的拓扑结构、多路径负载均衡策略及通信策略,实现了跨地域通信的畅通无阻。同时,百舸还采用了先进的拥塞控制算法和集合通信算法策略,实现了完全无阻塞的通信效率,并通过超高精度网络监控保障了网络的稳定性。

在多芯混训方面,百舸展现了强大的资源整合能力。它能够统一管理不同地点、不同规模的异构算力,构建起多芯资源池。当业务提交工作负载时,百舸可自动进行芯片选型,选择性价比最高的芯片来运行任务,从而最大化地利用集群的剩余资源。这一能力不仅提高了万卡多芯混合训练的效能,还为AI应用的灵活部署提供了有力支持。

在集群稳定性方面,百舸同样表现出色。它提供了全面的故障诊断手段,能够快速自动侦测到导致训练任务异常的节点故障。同时,百度自研的BCCL(百度集合通信库)能够快速定位故障并提供自动化的容错能力,将故障恢复时间从小时级降低到分钟级,确保了集群的可靠性和可用性。

近期,花旗银行发布的研报指出,DeepSeek、百度等中国模型展现出高效和低成本优势,将有助于加速全球AI应用开发,并在全球范围内引发更多技术创新。中国工程院院士、清华大学计算机系教授郑纬民也表示,构建国产自主万卡系统虽然充满挑战,但“至关重要”。百度万卡集群的崛起,无疑为这一目标的实现注入了强大动力。

 
反对 0举报 0 收藏 0
 
更多>同类天脉资讯
全站最新
热门内容
媒体信息
新传播周刊
新传播,传播新经济之声!
网站首页  |  关于我们  |  联系方式  |  版权隐私  |  网站留言  |  RSS订阅  |  违规举报