智算中心高效可靠，正阳恒卓如何打造系统工程？-天脉网

在近日召开的第二届人工智能产业应用大会上，北京正阳恒卓科技有限公司（简称正阳恒卓）首席科学家高凯，分享了公司在智算中心建设领域的实践经验，并深入探讨了AI基础设施（AI Infra）建设运营中的两大核心挑战：高效性与可靠性。

高凯强调，尽管客户期望AI任务能够充分利用智算中心的硬件资源，实现性能的大幅提升，但现实却往往不尽如人意。大规模分布式AI任务对资源的需求极为庞大，容易导致碎片化资源的闲置，同时对调度系统的性能提出了更高要求。并行方法和通信顺序的差异也会影响任务的执行效率。因此，单纯增加机器数量和升级计算芯片，并不能实现性能的线性提升。

针对高效性挑战，高凯指出，大规模分布式AI基础设施必须拥有强大的系统容错能力和丰富的并行策略。他提到，目前国内外的一些领先企业已经开始支持三维并行策略，甚至正在探索五维并行策略，以应对这一挑战。

在可靠性方面，高凯同样提出了深刻的见解。他表示，客户期望AI大模型能够在智算中心中稳定运行，但AI系统中的各个组件都可能出现故障，导致任务中断或失败。这主要是由于AI任务对专用硬件的依赖，以及与传统计算集群在能源、产热、工作条件等方面的差异。主流AI并行框架采用同步方式运行，存在单点故障问题，传统云平台的容错能力并不适用。

高凯强调，大规模分布式AI系统的容错能力是AI系统稳定运行的基础，已经成为全球AI大厂竞相关注的焦点。结合正阳恒卓为国家超算、大模型公司等企业建设大规模智算中心的经验，他认为，建设高效可靠的AI Infra是一个系统工程，需要从硬件到软件进行全面系统性的开发。同时，可靠性和高效性的技术应该被封装，尽可能对用户保持透明。

高凯将AI Infra的构建分为四个层级：智算中心建设、Infra服务运营、AI开发部署框架以及AI应用开发。他指出，大型厂商能够实现从底层硬件到上层AI应用的全栈自主研发，但绝大部分小型企业并不具备这样的经济能力和人才储备。因此，为了助推人工智能产业应用的发展，提供高效可靠的AI Infra是智算中心未来必须具备的基本能力和发展趋势。

为了能够让AI Infra惠及更多的人工智能产业应用企业，正阳恒卓正致力于领导并构建一个开放的、面向高效可靠智算中心的AI Infra基础框架。这个开放基础框架中的功能模块基于开放的标准进行设计，旨在吸引更多相关行业的企业和开发者共同组建技术生态。这将使用户的模型开发、部署、应用能够在不同的算力环境中实现无缝迁移，而AI Infra企业则可以通过技术创新提供高效性和可靠性的增值服务。

据悉，正阳恒卓成立于2015年4月，已累计服务超过300家企业客户，是英伟达认证的精英级合作伙伴，并连续两年在NVIDIA Networking NPN业绩排名中位居榜首。

巧妙融入背景音乐、音效等元素，为你的视频增添更多层次与情感，让用户在视听上得到双重享受。这将有助于降低内容的重复度，提升视频的独特性和吸引力，让你的作品在众多视频中独树一帜。根据数据分析结果，及时调整内容策略…

2022年，他毅然决定离开华为，投身于创业浪潮，创立了智元机器人公司。早在2024年8月18日，智元机器人就以“智元远征商用启航”为主题，举办了一场盛大的年度新品发布会。2024年12月16日，智元机器人正…

根据2023年底修订发布的《证券公司投行业务质量评价办法》，评价体系包括三个部分，一是内控制度建设状况与执行水平，考察内控管理、质控内核、廉洁从业等；二是执业质量评价，关注项目撤否情况、负面行为记录等；三是…

用友网络与华为技术宣布完成用友商业创新平台YonBIP与华为鲲鹏原生开发技术的深度认证，为信创建设和数智化转型提供支持。用友BIP依托前沿技术推动企业升级转型，打造全栈数智化信创解决方案。双方团队优化平台性…

近日，抖音宣布将推动算法和平台治理透明化，抖音集团副总裁李亮在个人社交账号上发布了该消息，并邀请网友提意见。在这篇推文下，有网友反映，抖音经常出现将“钱”读成“米”等情况。该网友质疑：“抖音到底允不允许用…

在现实压力面前，人们也不得不开始重新接受一种几年前难以想象的新常态：房价原来是会下跌的，哪怕是京沪的房子。这在人类资产价格变迁史上也是极为罕见的时光：在过去30年里，一个人几乎不需要任何投资经验和知识，只要…

红星资本局1月3日消息，红星资本局发现，小红书APP正在内测搜索新功能——“问点点”，仅向iOS用户开放，前5000位报名的用户都可以优先体验。另外，根据小红书介绍页面，“点点-生活搜索”APP也在应用商店…

此外，抖音电商针对中小商家推出开放0元入驻、一证开多店、降低保证金、流量补贴等一系列措施，2024年投入50亿流量扶持中小商家，平均每个商家获得3.5万次曝光，帮助商家简化经营流程，降低经营成本，提升利润…

当下，很多人对种草的理解还停留在铺笔记的维度上，但她纠正了这一点：种草从一开始就不是服务于企业利益的营销手段，而是“真诚地帮助别人，为他们找到通往向往生活的解决方案”。现在用户增长的成本在快速增加，拉新非常…

在大胆放手电商业务的这一年里，程一笑可能忽略的一个现实是，整个电商行业的增量是结构性增量，这个结构性增量正是来源于内容。要知道，张小龙对于微信的商业化一直都是很克制的，视频号电商化的速度也比较平稳，即便如…

12月12日，比优特超市在长春的首家门店隆重开业，标志着其在东北地区的第81家分店正式运营。经过细致的市场调研，比优特发现顾客在超市购买生鲜时的一个细节：许多超市的生鲜称重需要在生鲜区排队，导致许多顾客因…

所以，贝壳近期动作频频的拍地、下场做开发，核心还是想给行业“打个样”——什么是“大数据盖房”；它真正想掌握的底层know-how还是：怎么才能更聪明、更贴近真实需求的盖房，并希望未来以产品解决方案的输出，帮…

在营销的前端环节，抖音生活服务可以借助大数据洞察，精准捕捉年轻人消费喜好和消费变化，赋能火锅商家捕捉最权威的消费趋势；在营销的中端环节，抖音生活服务发挥自身对于圈层文化符号的理解，提供新奇特的线上线下互动玩…

来源：新浪科技【#字节跳动将自建数据中心变电站#，消息称今年豪掷1600亿打造集群】字节跳动 1 月 3 日发布自建数据中心变电站设计框架采购寻源公告，计划采购自建变电站的主要设计原则及工程设想，完成变电站…

双方将继续依托各自的技术优势和市场资源，以及在各自领域内的领先地位和广泛影响力，共同研发新产品、新技术，打造更加全面、智能、安全的数智化解决方案，以满足企业日益增长的数智化转型需求，协同构建数智化新生态，助…