算力受限困局如何突破？华为云CloudMatrix让云化算力实现弯道超车！

新闻公告

< 返回新闻公共列表

算力受限困局如何突破？华为云CloudMatrix让云化算力实现弯道超车！

发布时间：2024-07-08 16:08:02

在大模型成为新质生产力代表的今天，传统算力架构局限性日益凸显，成为制约AI潜能释放的关键因素。再加上国外对中国算力供给侧的限制，如何实现我国算力使用的高效与灵活，成为亟待解答的时代命题。

有这么一家全球领先的云服务提供商，正以其创新的CloudMatrix架构，通过全新的设计理念，匹配大规模的算力需求，为这场算力革命绘制出崭新的蓝图。

想必大家好奇，我国的算力获取困境能否靠架构创新打破？CloudMatrix是哪家厂商提出的？能为行业带来哪些价值？该厂商的AI实力如何？今天我们一并揭晓。

破解算力获取之困，

算力云化大势所趋

随着大模型的兴起，我国人工智能发展进入加速期。根据《2023全球人工智能创新指数报告》指出，我国AI的综合水平保持在全球第二的水平，在人才培养和科研产出、产业发展等方面取得明显进展，高层次人才数量与美国的差距逐渐缩小，顶会顶刊论文、高影响力人工智能开源项目等数量明显上升，人工智能企业数量和风险投资额保持全球第二。

人工智能的发展离不开数据、算法和算力三驾马车，但获取算力却成了“拦路虎”。

其一，大模型推理和训练场景均需要大算力，例如大模型训练往往需要数千张GPU卡，基于TB级别的数据，耗时几个月进行训练；
其二，AI算力对数据中心要求极高，单机柜功耗提升了6-8倍，还需要专用液冷系统散热；
其三，自建数据中心周期长、要求严苛、能耗高，难以满足大模型时代快速训练和迭代的要求。

在此背景下，云化算力应运而生。云化算力具有即开即用、按需使用、灵活部署、集群算力、专业服务、运维安全等六大主要优势，成为大模型训练、推理部署的必要基础设施。根据相关数据显示，AI算力已重度依赖云化部署，2025年算力云化的比例将达到80%。

前段时间，笔者去参加了华为云芜湖数据中心开服仪式。华为轮值董事长徐直军在仪式上指出，智能时代获取算力的最好的方式是云服务，企业不必建设数据中心，可以聚焦自身业务发展。

当前，摆在业界面前的问题是，如何让云化算力获取效率更上一层楼？

在近日举办的2024世界人工智能大会上，华为常务董事、华为云CEO张平安指出，华为正在通过“云网端芯”架构上的协同创新，来构建可持续发展的AI算力基础，包括云基础设施系统架构创新、芯端算力上云、面向AI的网络架构升级三大方面。

以云基础设施为例，随着人工智能、大数据处理、高性能计算等多元化算力需求的急剧攀升，传统以CPU为中心的主从架构面对的挑战越来越大。

首先，传统架构难以高效支持异构算力调度，导致资源利用不充分；其次，传统架构扩展性和灵活性受限，难以快速响应动态变化的计算任务需求；最后，传统架构处理大规模并行计算和实时数据处理能力不足，影响AI模型训练与推理效率。

下一代云基础设施CloudMatrix，

开启智算新纪元

上述三大挑战如何破解？华为云推出了全新的CloudMatrix架构，以“一切可池化”“一切皆对等”“一切可组合”三大创新设计，从算力规模、扩展模式和使用模式上，匹配超大规模的算力诉求，通过技术创新来解决行业难题，让云化算力成为智能时代最好的选择。

笔者在华为云芜湖数据中心开服仪式中了解到，CloudMatrix架构已在该数据中心率先应用。你是否好奇，新架构CloudMatrix能为破解算力之困带来哪些突破？

突破一：分布式QingTian，从主从架构到对等架构，打造算力形态跃迁。

过去两年大模型发展得如火如荼，大模型参数量增长11.2倍，但现存容量仅增长2倍。为了破解内存瓶颈，业界使用大量算力换取显存容量，但NPU利用率仅有30%，十分低效。

华为云QingTian架构如何解决？QingTian架构把传统的主从式架构升级为对等架构，提出“一切皆池化”的理念。“一切皆池化”也就意味着计算资源、存储资源及网络资源被纳入统一的资源池中，实现灵活管理和动态分配，从而提升资源利用率。

QingTian架构带来的效果也很显著，它使得单节点算力提升50倍，资源碎片率降低至1%，NPU算力有效利用率提升到60%，大模型训练效率提升68%。

突破二：MatrixLink，从Scale Out到Scale UP+Scale Out。

近年来，大模型运算需求呈指数级爆炸，运算量在过去两年内剧增16.8倍，但GPU间的网络互联带宽增长仅提高了1.5倍，网络瓶颈凸显。在矩阵算力的新纪元里，传统基于以太网的VPC网络架构已显得力不从心，难以承载日益复杂的计算任务和数据流动需求。

MatrixLinx网络正是为了突破网络瓶颈而生。MatrixLinx网络实现了算力资源的全面池化与对等互联，还凭借自定义的矩阵拓扑结构和秒级的网络状态感知能力，做到清晰感知资源位置、状态以及网络抖动，将大模型训练集群的线性度提升至95%，网络故障分钟级恢复。

更为关键的是，MatrixLink技术的融入，使得网络扩展模式由单纯的Scale Out（横向扩展）进化到Scale Up+Scale Out相结合。这不仅能让大规模的模型训练运行效率更高，还能灵活适配中小型推理应用，真正做到了“大有可为，小亦精妙”。

突破三：瑶光智慧云脑，从固定算力到可组合算力，打造算力使用模式跃迁。

上述资源池化和高速网络互联两大技术突破，打通了资源的高速通道，同时也对大规模算力调度提出了严峻的挑战，传统服务器粒度的粗放调度已无法满足需求。

基于此，华为云推出了瑶光智慧云脑，它能实现资源的按需组合，通过匹配最优算力组合，实现百亿到万亿级模型训练所需要的资源。同时，通过智能调度，瑶光智慧云脑能充分发挥算力性价比与资产最大价值。

不仅如此，华为还在算法能力上持续创新，通过XPU池化的切分复用，即将CPU、GPU等异构的计算资源精细化分割，让同一XPU能服务于多个计算任务。这一创新将XPU的利用率从40%提升到80%，集群可用性提升至95%，这对于高算力需求场景尤为关键。

CloudMatrix作为智能时代算力领域的标志性实践，已经在三大领域展示出卓越贡献。

首先，在AI应用领域，CloudMatrix凭借灵活的Matrix档位配置，轻松驾驭各类复杂大模型的训练需求，相同硬件基础设施上，能够显著提升训练效率达68%，同时在AI模型推理（AII2AII）过程中，效率增长10倍，为深度学习和机器学习铺设了坚实的算力基石。

其次，在HPC（高性能计算）领域，针对包含400亿单元的仿真案例，CloudMatrix通过优化的CFD（计算流体力学）负载调度，将原本需耗时两个月的仿真时长压缩至仅仅30小时，实现了效率50倍的飞跃，为科学研究与工程模拟开辟了前所未有的高速通道。

最后，在通用计算场景中，CloudMatrix 方案在确保成本不变的前提下，将计算IO的极限性能提升8倍，彰显了其对资源的极致利用，重新定义了云计算的性价比与服务边界。

除了在云基础设施领域的创新CloudMatrix，笔者关注到华为云也在发力面向AI的网络架构升级以及芯端算力上云这两大领域。比如在芯端算力上云方面，张平安介绍，华为云创新的方向是将端侧的AI算力需求，通过光纤和无线网络释放到云上，通过端云协同获得无缝的AI算力，大大释放了对端侧算力和功耗的压力。

落地情况如何？目前，华为云已经在云办公、云设计、云拍照、云手机、云游戏等方面进行端云协同创新，将端侧的AI算力需求通过光纤和无线网络释放到云上，既保持了丰富的功能，又降低了功耗以及对芯片的依赖，充分释放AI价值。

华为云AI全栈布局，

做厚智能时代黑土地

管中窥豹，透过CloudMatrix架构创新，我们看到的是华为云全栈的AI能力，包含盘古大模型、昇腾AI云服务、分布式QingTian架构、AI-Native Storage和全球存算网等。

“依托华为云构筑的全栈AI能力，通过全球存算网、昇腾AI云服务、盘古大模型等创新技术，我们将为千行万业创新发展注入数智活力，推动中国智能产业蓬勃发展，加速培育具有创新性和竞争力的新质生产力。”张平安表示。

本文将为大家着重介绍，华为云在盘古大模型和昇腾AI云服务方面的能力建树。

其一，华为云盘古大模型，为行业“解难题，做难事”。

坚持只做事，不作诗的华为云，过去几年一直在聚焦行业，加速千行万业的智能升级。截至目前，华为云联合数百家伙伴与客户，共同构筑了30多个行业大模型，以及400多个AI应用场景，已在金融、政务、制造、矿山、汽车、医学、气象等10+行业领域落地。

以钢铁行业为例，目前盘古大模型已上线宝钢的热轧生产线，实现精轧宽展预测精度较传统模型提升了5%以上，每年有望多生产2万吨钢板，增收9000多万元。值得一提的是，基于盘古大模型的钢铁行业AI应用解决方案入围了WAIC 2024的卓越人工智能引领者奖，受到业界高度认可。

此外，近日华为云盘古大模型升级到5.0版本，在“全系列、多模态、强思维”三个方面迎来全新升级，加入了不同参数规格的模型、能够更好更精准地理解物理世界、复杂逻辑推理更强，不仅拓宽了AI技术的应用边界，还提升了跨领域协同作业的能力。

其二，昇腾AI云服务，提供即开即用的6A级澎湃算力。

为了更好使能“百模千态”应用快速落地，华为云在贵安、乌兰察布、芜湖、香港部署了四大AI云算力中心，基于华为AI软硬件技术全栈，打造一站式、全场景、全流程AI应用开发及运行管理平台，对外提供高性价比、即开即用的澎湃AI算力服务——昇腾云服务。

对于企业来说，以后无需自建或改造传统数据中心，无需投资通用的AI技术，也能轻松获取高效AI算力。同时，昇腾云还实现了千卡训练连续30天不中断，任务恢复时长小于30分钟，为大模型和AI应用的开发、运行、运维提供6A级云化算力底座。

目前，华为云已经携手奇瑞、科大讯飞、信义玻璃等企业，打造了领先的“AI+”应用标杆。合作伙伴对华为云如何评价？“中国的产业界非常自豪，华为能够在真正的硬科技算力层面上给世界第二种选择。现在业界能够量产做大模型训练，除了英伟达只有华为一家，在推理上已经做到完全对标英伟达。”科大讯飞董事长刘庆峰表示。

关于我们

新闻公告

算力受限困局如何突破？华为云CloudMatrix让云化算力实现弯道超车！

教慧云

行业解决方案

帮助与支持

合作与生态

管理控制中心