马斯克Colossus AI超算亮相:10万英伟达H100 GPU集成,算力如何?

   时间:2024-10-30 14:08 来源:天脉网作者:任飞扬

近日,YouTube知名科技博主ServeTheHome独家揭秘了埃隆·马斯克旗下人工智能企业xAI所拥有的Colossus AI超级计算机集群,这一壮举引发了全球科技界的广泛关注。据透露,Colossus AI超级计算机集群集成了惊人的10万个英伟达H100 GPU,被誉为当前全球最顶尖的AI超级计算机集群。

早在今年7月,马斯克就在其“X”平台上宣布已成功启动了“世界上最强大的AI集群”。令人惊叹的是,从项目启动到完成组装,Colossus AI超级计算机集群仅用了122天的时间,并已在上线后稳定运行约3个月。这一速度不仅彰显了马斯克及其团队在技术创新上的卓越能力,也预示着AI技术发展的新纪元。

ServeTheHome曝光的信息显示,Colossus AI超级计算机集群采用了超威电脑(Supermicro)的服务器,这些服务器基于NVIDIA HGX H100方案,每个服务器内嵌有8个H100 GPU。这些GPU被封装在Supermicro的4U通用GPU液冷系统内,实现了高效且便捷的热插拔液冷。服务器被整齐地装载在机架内,每个机架可容纳8台服务器,即64个GPU。每个机架的底部还配备了另一个Supermicro 4U单元,用于冗余泵系统和机架监控。

Colossus集群的机架设计颇具特色,每组机架包含8个服务器,每个阵列则拥有512个GPU。每台服务器均配备四个冗余电源,以确保在高负荷运行下的稳定性和可靠性。从后部来看,每台服务器有9根以太网电缆和4个电源接入,同时可见电源和液体冷却软管。整个集群由超过1500个GPU机架组成,相当于近200个机架阵列。据英伟达首席执行官黄仁勋透露,这200个阵列的GPU安装工作仅在三周内便全部完成。

为了满足AI超级集群对高带宽的严苛要求,xAI在网络互连性方面进行了全面优化。目前,每个显卡都配备了一个400GbE的专用网络接口控制器(NIC),而每台服务器则额外拥有一个400Gb NIC。这意味着每台HGX H100服务器的以太网速率高达每秒3.6TB。值得注意的是,整个集群都运行在以太网上,而非传统超级计算领域常用的InfiniBand或其他连接。

走进Colossus集群的机房,映入眼帘的是密密麻麻的黄色以太网电缆,它们将各个集群紧密地连接在一起。多层过宽的电缆线路嵌入天花板中,构成了一幅壮观的科技图景。除了GPU服务器外,Colossus集群还配备了CPU计算服务器和存储服务器,这些服务器同样大多采用Supermicro机箱,并具备后入式液体冷却功能。

为了确保在突发停电情况下能够迅速恢复供电,xAI还在超级计算机集群外部部署了大量特斯拉Megapack电池。这些电池每个最多可容纳3.9 MWh,能够在毫秒之间快速提供供电,相比柴油发电机具有更快的响应速度。这一设计不仅提升了集群的可靠性和稳定性,也为AI技术的持续创新提供了有力保障。

 
反对 0举报 0 收藏 0
 
更多>同类天脉资讯
全站最新
热门内容
媒体信息
新传播周刊
新传播,传播新经济之声!
网站首页  |  关于我们  |  联系方式  |  版权隐私  |  网站留言  |  RSS订阅  |  违规举报