中国移动:大推理时代新型智算推理集群建设的思考与实践
近年来,全球人工智能高速发展,国内外高科技企业纷纷构建万卡甚至十万卡智算中心,发布千亿甚至万亿规模参数大模型,通过“大模型+大算力+大数据”的堆叠,不断探索模型能力上限,“百模大战”如火如荼,整个人工智能产业聚焦“大训练”,多模态、长上下文等各种模型能力的竞争进入白热化。
今年2月,我国自主研发的大模型DeepSeek火爆全球,多项指标性能追平甚至超越国外先进大模型,在美西方国家对我国人工智能产业链全方位制约的背景下,成功走出了一条低成本、高性能的“突围之路”,甚至被认为是人工智能领域的最大“黑马”和“国运级别的产品”。DeepSeek通过“算法模型创新+算网设施优化+开源开放战略”的组合拳,在提升底层算网资源的使用效率的同时,大幅降低了大模型对算网资源的需求,推动了AI平权,加速了智能体、智能机器人等AI应用的普惠化发展。未来三年,中国智能算力规模总量将增长2.5倍,年均复合增速近40%,而推理算力的年增速将是训练算力的近4倍,预计2028年推理类算力规模将首次反超训练算力,一个崭新的“大推理”时代已经到来。
大推理时代智能算力将呈现出新的发展趋势:一是算力性能走向极致,大模型的发展持续推高算力需求,催生超节点等超高密度、超高算效的新型算力架构;二是智算格局发生变化,智能算力加速从集中走向分布,高性能推理集群、一体机等多样化推理算力形态不断涌现;三是垂直优化成为关键,DeepSeek开创了软硬件联合优化的模型发展新途径,驱动算网基础设施、模型和算法的更深层次协同和联合优化。
大推理时代新型推理集群建设面临的问题和挑战
一是超节点类新型算力架构在技术和产业上尚不成熟。随着稀疏MoE架构大模型逐渐成为主流,GPU卡间存在大量TP、EP等高频次、大带宽、低延时通信需求,较大的scale-up域对于提升模型训推性能至关重要。当前传统单机8卡智算服务器Scale-up域局限在8张GPU卡之间,且单机显存容量带宽和容量存在天花板效应,不利于大模型的运行效率和集群算能算效的提升。因此,产业界正在积极开展超节点服务器的研究,通过建立高带宽低延迟的卡间互联网络,扩大高带宽域规模,降低通信时间占比,提高推理时延性能。NVIDIA推出NVL72等超节点,国内服务器厂商陆续发布了初代超节点产品。但是目前业内超节点产品都面临诸多问题,首先是技术成熟度和开放度不足,相比于已经迭代数年的传统单机8卡智算服务器,其复杂度大大增加,尤其是卡间互联多为单厂商封闭性技术,开放度不足,且相关产品可靠性未经过大规模商用验证;其次,业内厂商发布的超节点多为初代产品,其研发成本高、定制化程度强,造成目前超节点产品价格高昂;最后,超节点产品单机柜的最大功耗可达百千瓦级别,普遍采用冷板液冷设计,与数据机房的配套耦合性较高,传统数据机房往往难以满足其部署需求,改造成本较高。
二是端到端软硬协同优化能力存在短板。模型推理关注性能与成本两大关键指标,推理性能影响到服务响应速度和用户体验,推理成本则决定了推理应用的规模化落地速度。高性能、低成本的推理一方面依赖于具备超强算力的智算硬件,另一方面更依赖于智算基础软件极致压榨硬件潜能。当前,尽管国产硬件在算力密度、能效比等指标上已取得突破,但在端到端软硬协同优化能力上还存在网络通信存在瓶颈、推理引擎性能不高、编译器运行时优化能力不强、高性能计算库缺失等系列问题,导致硬件与软件之间无法实现高效协同,严重制约了硬件性能的释放,使得推理性能难以达到理想水平,成为阻碍人工智能应用大规模落地与高质量发展的关键瓶颈。
三是我国智算生态多而不优、互不兼容。当前我国智算厂商围绕各自硬件纷纷构建包含编译器、算子库、训推框架等在内的基础软件系统,各自为栈、互不兼容,形成一个个碎片化的生态竖井。一方面,国产智算厂商依赖功能类似的基础软件系统将模型和应用锁定至各自生态竖井之上,致使模型与应用难以跨架构迁移部署,形成一个个“算力孤岛”,谁都无法发展壮大。另一方面,众多国产基础软件与CUDA差距显著,存在算子覆盖不全、编程模型不完备等问题,开发者基于国产硬件构建模型及应用或将其由CUDA向国产化体系迁移需重构代码,开发工作量大、时间长、成本高,进一步降低模型及应用向国产化生态迁移意愿,导致国产智算易陷入“差而不用、不用更差”的怪圈,良性生态难以构建。
中国移动在推理集群建设方面的实践和进展
一是体系化推进推理资源布局建设。中国移动(600941)积极落实AI+发展战略,匹配市场发展节凑,统筹考虑资源覆盖和效益效率,提前开展推理资源规划布局。基于推理业务特征,推理资源部署采用“低成本区域+热点区域”相结合原则,按照“N+31+X”的目标架构布局:N节点为集中化全国节点,在西部低成本中心集中化部署,承载海量高并发推理业务;31节点为分布式省级节点,在省级节点属地部署,承载中型企业的中心推理需求;X节点为分布式边缘节点,承载中小企业本地推理需求。最终目标是建成“中心集约、边缘泛在、覆盖全网”的体系化推理资源,满足公司内外部推理资源需求。
二是构建新型智算推理软硬件全栈技术体系。中国移动构建了包括算网资源层、基础软件层、推理平台层、MaaS平台层和应用层五层架构在内的新型智算推理技术体系(如图1所示),提出了包括全向智感互联OISA、全调度以太网GSE、异构超融合迁移优化HAMO(算力原生)等系列原创技术并推动成熟。
图1中国移动新型智算推理技术体系
算网资源层,为推理服务提供计算、存储和网络等算力能力底座,采用云化架构,提供资源编排调度和运维管理功能,实现资源虚拟化和算力池化能力。在卡间互联方面,中国移动原创提出全向智感互联OISA协议体系,定义物理层、数据层、事务层标准,统一报文格式、多语义融合、多层次流控重传等关键技术,实现超节点内多GPU芯片的对等全互联,目前已联合新华三等50余家上下游合作伙伴成立协同创新平台,完成1.1版本协议制定。在高性能存储方面,制定高性能融合存储创新系统架构,支持多协议融合互通、TB/s级高吞吐性能和热冷素具自动分级能力,提升智算数据处理效率。在机间网络方面,原创提出全调度以太网GSE技术,通过创新报文容器级负载均衡提升网络吞吐,动态全局调度队列(DGSQ)授权机制避免多打一拥塞、微秒级故障无损收敛提升网络可靠性等机制提升网络性能,目前已与新华三、云豹等厂家完成首轮验证。
基础软件层,提供推理芯片配套的基础软件栈和高性能计算及通信算子库,实现对推理芯片算力的调用。提供RAG数据库和高性能数据库,解决大模型推理的时效性问题。中国移动原创提出异构超融合迁移优化HAMO(算力原生)技术,并打造了“芯合”基础软件栈,实现多样算力一体适配,应用一次开发,跨芯部署迁移,破解智算应用跨架构迁移优化难题。目前,“芯合”软件栈已支持泛AI应用在7家厂商芯片上随需开发和跨架构迁移,迁移时间小于20秒。
推理平台层,提供模型预处理和推理引擎等功能。模型预处理通过模型压缩、算子融合等优化技术将模型配置成满足业务部署要求的模型。推理引擎是推理性能优化的载体,其将训练好的模型引入实际应用阶段,实现推理任务调度和性能优化,增加推理集群的资源利用率,降低推理成本,提升大模型推理的用户体验。中国移动打造“芯合”跨架构推理引擎,通过统一的算子库、通信库和运行时抽象,实现推理引擎与多模型和多后端的适配和推理优化。
MaaS平台层和应用层,汇聚模型、能力、智能体等资源,一方面提供以AI为核心的研发、运营、测试等全环节工具链和开发环境,显著提升AI开发创新效率;另一方面提供AI一站式落地的模型服务和覆盖多样化场景的AI应用服务。
三是牵引推动我国多元化智算生态繁荣发展。中国移动充分发挥链长作用,积极推动国产推理芯片生态建设。为加快国产推理芯片落地应用,中国移动建立了国产推理芯片评估评测平台,对多家国产推理芯片开展了评估评测,推动了国产推理芯片技术成熟,同时引入了至少4家国产推理芯片。为加快推动异构芯片训推迁移适配和异构芯片混推,中国移动自研了芯合跨架构推理引擎,可预先适配异构硬件后端,向上保证模型一次适配、灵活异构部署,实现国产大模型在国产推理芯片上的应用。
总结与建议
为充分把握大推理时代的智能算力发展的新机遇,推动我国新型智算推理集群的高质量发展,提出以下三方面发展建议:
一是加快完善智能算力资源布局,构建“中心集约、边缘泛在、中训边推、训推一体”的智算供给体系。一是进一步提升智能算力规模,适度超前建设超大规模新型智算中心,推动我国人工智能科技创新发展。二是加快推理智能算力布局,建设“集中化+分布式”推理算力资源,加快超节点等新型算力形态部署应用,满足未来AI智能终端、智能网联汽车、智能机器人等信息消费新业态的需求,以及工业、交通、金融等垂直行业实时性、私有化的模型部署要求。三是进一步提升算网智一体化的跨域编排调度能力,通过应用、模型、数据、算力、网络资源的深度协同,支撑中训边推、多智能体交互、大小模型协同等业务场景。
二是持续加大核心技术攻关,打造自主可控的新型智算技术“中国方案”。一是完善面向推理的新型智算技术体系,面向DeepSeek后续带来的云边端协同、分布式推理等需求,打造技术领先、自主可控的智算推理技术体系。二是强化智算领域基础技术攻关,加大AI芯片、高端存储等硬件重点卡脖子领域的研发投入,加快对GPU卡间互联、机间网络、跨架构基础软件栈等新型智算关键技术攻关和产品研发,加快原创性、基础性技术突破。三是软硬件深度协同优化,通过“模型算法+算网设施”深层次联合优化创新,强化高性能训推框架、算子库等基础软件能力,用软件重新定义硬件潜能,实现大模型低成本高效率的训练和推理。
三是凝聚产业共识,深化产业合作,开拓我国智算生态健康发展的新格局。一是充分发挥央企科技创新和产业链龙头企业的“链长”作用,牵头成立新型智算产业生态联盟等国产智算产业合作平台,聚合硬件设备、软件工具链、训推框架、算法应用等产业链上中下游企业,形成我国智算产业协同合作的“统一战线”和“研发-应用-反馈”的良性循环,推动我国智算产业生态不断发展壮大。二是共同培育普惠智算应用,加快探索新业态、新场景、新模式,聚焦智能驾驶、生物医药、新材料、能源电力、具身智能等重点领域,推进AI应用落地和规模化发展,同时引导智算模型和应用加速向国产化算力迁移,推动国产算力生态成熟发展。
0人