百度智能云近期宣布了一项重大技术突破:成功激活昆仑芯三代万卡集群,这一壮举标志着中国自研万卡集群的正式亮相。据悉,百度智能云正紧锣密鼓地推进更大规模的部署,目标直指3万卡集群的点亮。此举不仅为百度在人工智能算力领域奠定了坚实基础,更为中国科技界、互联网行业以及AI产业开辟了新的发展蓝海。
万卡集群的部署,不仅大幅提升了百度的算力水平,更在模型成本优化方面展现出显著优势。面对行业普遍存在的算力紧张和高昂使用成本问题,百度通过自主研发芯片和构建大规模集群,不仅有效缓解了自身算力瓶颈,更为整个行业探索出了一条降本增效的新路径。
从算力层面来看,万卡集群的超大规模并行计算能力,使得千亿参数模型的训练周期得以大幅缩短,满足了AI原生应用快速迭代的需求。同时,该集群还能支持更大规模的模型和更复杂、多模态的任务,为Sora类应用的开发提供了有力支撑。通过多任务并发能力和动态资源切分技术,万卡集群实现了训练成本的显著下降,减少了算力浪费。
随着国产大模型的蓬勃发展,万卡集群正逐渐从“单任务算力消耗”模式向“集群效能最大化”模式转变。通过模型优化、有效训练率提升以及动态资源分配等手段,百度智能云实现了训练、微调、推理任务的混合部署,从而提升了集群的综合利用率,降低了单位算力成本。
在万卡集群的建设过程中,百度百舸AI异构计算平台4.0发挥了至关重要的作用。该平台在硬件扩展性、能效与散热、分布式训练优化以及稳定性提升等方面取得了显著突破。例如,通过创新性散热方案解决了万卡集群的能效问题;通过高效并行化任务切分策略提升了主流开源模型的训练效率;通过容错与稳定性机制保障了万卡集群的有效性;通过建设超大规模HPN高性能网络优化了通信瓶颈。
百舸4.0还构建了十万卡级别的超大规模HPN高性能网络,实现了跨地域通信的低延迟和高效率。在通信效率方面,通过先进的拥塞控制算法和集合通信算法策略,实现了完全无阻塞的通信;并通过超高精度网络监控保障了网络的稳定性。百舸还展现出了强大的多芯混训能力,能够将不同地点、不同规模的异构算力进行统一管理,构建起多芯资源池,从而最大化地利用集群资源。
在集群稳定性方面,百度自研的BCCL(百度集合通信库)发挥了关键作用。它能够快速定位故障并提供自动化的容错能力,将故障恢复时间从小时级降低到分钟级,极大地提高了集群的可靠性和可用性。这一技术突破为万卡集群的稳定运行提供了有力保障。
近期,花旗银行发布的研报指出,DeepSeek、百度等中国模型展现出高效和低成本优势,将有助于加速全球AI应用开发,并在全球范围内引发更多的技术创新。中国工程院院士、清华大学计算机系教授郑纬民也表示,构建国产自主万卡系统虽然充满挑战,但“至关重要”。这一观点进一步凸显了百度在人工智能算力领域取得突破的重要意义。