智算中心高效可靠,正阳恒卓如何打造系统工程?

   时间:2025-01-06 17:00 来源:天脉网作者:苏婉清

在近日召开的第二届人工智能产业应用大会上,北京正阳恒卓科技有限公司(简称正阳恒卓)首席科学家高凯,分享了公司在智算中心建设领域的实践经验,并深入探讨了AI基础设施(AI Infra)建设运营中的两大核心挑战:高效性与可靠性。

高凯强调,尽管客户期望AI任务能够充分利用智算中心的硬件资源,实现性能的大幅提升,但现实却往往不尽如人意。大规模分布式AI任务对资源的需求极为庞大,容易导致碎片化资源的闲置,同时对调度系统的性能提出了更高要求。并行方法和通信顺序的差异也会影响任务的执行效率。因此,单纯增加机器数量和升级计算芯片,并不能实现性能的线性提升。

针对高效性挑战,高凯指出,大规模分布式AI基础设施必须拥有强大的系统容错能力和丰富的并行策略。他提到,目前国内外的一些领先企业已经开始支持三维并行策略,甚至正在探索五维并行策略,以应对这一挑战。

在可靠性方面,高凯同样提出了深刻的见解。他表示,客户期望AI大模型能够在智算中心中稳定运行,但AI系统中的各个组件都可能出现故障,导致任务中断或失败。这主要是由于AI任务对专用硬件的依赖,以及与传统计算集群在能源、产热、工作条件等方面的差异。主流AI并行框架采用同步方式运行,存在单点故障问题,传统云平台的容错能力并不适用。

高凯强调,大规模分布式AI系统的容错能力是AI系统稳定运行的基础,已经成为全球AI大厂竞相关注的焦点。结合正阳恒卓为国家超算、大模型公司等企业建设大规模智算中心的经验,他认为,建设高效可靠的AI Infra是一个系统工程,需要从硬件到软件进行全面系统性的开发。同时,可靠性和高效性的技术应该被封装,尽可能对用户保持透明。

高凯将AI Infra的构建分为四个层级:智算中心建设、Infra服务运营、AI开发部署框架以及AI应用开发。他指出,大型厂商能够实现从底层硬件到上层AI应用的全栈自主研发,但绝大部分小型企业并不具备这样的经济能力和人才储备。因此,为了助推人工智能产业应用的发展,提供高效可靠的AI Infra是智算中心未来必须具备的基本能力和发展趋势。

为了能够让AI Infra惠及更多的人工智能产业应用企业,正阳恒卓正致力于领导并构建一个开放的、面向高效可靠智算中心的AI Infra基础框架。这个开放基础框架中的功能模块基于开放的标准进行设计,旨在吸引更多相关行业的企业和开发者共同组建技术生态。这将使用户的模型开发、部署、应用能够在不同的算力环境中实现无缝迁移,而AI Infra企业则可以通过技术创新提供高效性和可靠性的增值服务。

据悉,正阳恒卓成立于2015年4月,已累计服务超过300家企业客户,是英伟达认证的精英级合作伙伴,并连续两年在NVIDIA Networking NPN业绩排名中位居榜首。

 
反对 0举报 0 收藏 0
 
更多>同类天脉资讯
全站最新
热门内容
媒体信息
新传播周刊
新传播,传播新经济之声!
网站首页  |  关于我们  |  联系方式  |  版权隐私  |  网站留言  |  RSS订阅  |  违规举报