NICC新型智算技术体系助力哈尔滨万卡集群建成投产

2024-09-18 23:07:06 来源: C114通信网

  8月30日,中国移动600941)智算中心(哈尔滨)建成投产,全球运营商最大单集群智算中心就此诞生,标志着中国移动在智算领域技术创新的重要突破。中国移动在此次项目中展现出强大的技术实力和创新能力,通过总体方案设计和一系列战略性的创新技术,不仅为“AI+”行动提供了技术支持,更为国内智算产业的健康发展奠定了坚实的基础。

  在智算技术体系的不断演进中,大模型的发展正成为推动人工智能前沿的关键力量。遵循Scaling Law的趋势,大算力仍然是大模型创新落地的关键。大模型的参数量已经达到了万亿,甚至十万亿的量级,标志着大模型处理复杂任务的能力迈入了一个新的阶段。为了将这一发展趋势融入哈尔滨万卡集群智算中心,中国移动研究院智算团队在总体方案设计和技术创新方面提供了有力保障。

  系统性总体设计,为智算中心保驾护航

  在中国移动集团各部门的指导下,研究院智算团队打造了标准统一、技术领先、软硬协同、兼容开放的NICC新型智算技术体系,旨在为哈尔滨万卡集群硬件资源的高效利用和软件算法的优化配置奠定技术基础,支撑上层高质量的智算服务。

  万卡集群的构建,并非简单的数量堆砌,从千卡到万卡的跨越,是一个技术复杂度呈指数级上升的过程。在总体设计中,研究院智算团队围绕“新互联、新算效、新存储、新平台、新节能”五大创新技术领域,打造了《中国移动NICC新型智算中心技术体系》,对智算技术进行了系统性重构和前瞻布局。

  五大技术能力,助力哈尔滨万卡集群创新突破

  新互联:整合GSE全调度以太网和OISA卡间互联技术,构建高性能、低延迟的内外部互联网络,为大模型的升级迭代提供强有力的支持。在NICC新型智算技术体系中,新互联技术是提升集群整体性能的关键,包括GSE全调度以太网和OISA卡间互联两大技术。

  在智算服务器间的网络构建方面,中国移动原创提出了全调度以太网技术(GSE),这一技术通过全调度转发机制和集中管理,实现了大规模、高带宽、低时延的网络性能,为智算中心的高效运作提供了坚实的网络基础。GSE1.0在哈尔滨万卡集群的规模商用,充分证明了这一架构在实际应用中的成熟与可靠性。

  在智算服务器内部,GPU卡间的互联技术是提升单台服务器计算效率的核心因素。为应对传统PCIe总线带宽限制和私有协议性能瓶颈的双重挑战,中国移动积极推动全向智感开放互联(OISA)技术的创新,通过制定高速互联协议等工作与GPU芯片、交换芯片、服务器制造商等合作伙伴建立紧密的合作关系,未来有望突破卡间互联的技术瓶颈,共同推动国内AI芯片的升级迭代。

  新算效:通过引入GPU扣卡模组和DPU,在提升计算密度的同时,确保了系统的可靠性和稳定性,为数据处理提供极致效率。GPU扣卡模组方案有助于在有限的空间内容纳更多的计算资源,提升计算密度。这种高密度部署对于提升万卡集群整体的能效比和空间利用率至关重要。由于扣卡模组采用一体化的设计,减少了因插卡接触不良或机械磨损导致的故障风险,从而提高了智算中心整体的稳定性和维护的便捷性。

  此外,数据处理单元DPU作为哈尔滨万卡集群的关键芯片之一,专门设计用于提供网络、存储、安全和管理等基础设施的虚拟化能力,它以极低的损耗、强大的数据处理能力、高度的灵活性和安全性,为哈尔滨万卡集群的智算服务提供强有力的支持。面对DPU软硬件标准化和高性能网络的双重挑战,研究院深度参与制定了DPU应用方案,满足智算业务对“零丢包”、低时延、高吞吐网络的要求,并通过DPU与RDMA(远程直接内存访问)技术的协同,进一步提升万卡集群算效。

  新存储:多协议融合存储技术的引入使得智算中心高效地处理海量非结构化数据,为人工智能应用提供了坚实的数据基石。在NICC新型智算技术体系中,引入多协议融合存储技术,有效满足了智算中心对海量非结构化数据存储和多协议访问的需求。面对当前融合存储技术在语义转换和安全策略上的挑战,研究院智算团队与产业合作伙伴联手,制定统一的存储框架,重新设计了存储底层数据结构,实现了多协议的原生融合,从而提高了数据访问的灵活性和高效性。哈尔滨万卡集群也成为业内首个大规模应用融合存储的智算中心。

  新平台:算力池化加异构混训技术,使能多厂商异构智算资源动态分配和灵活整合,显著提升资源利用率。在NICC新型智算技术体系中,通过软件定义的方式,实现了资源从集中调度到按需分配、动态伸缩和碎片聚合的多维度敏捷化管理。不仅能够对异构智算资源进行有效的池化整合,根据实际业务需求进行精细化的资源分配,还能智能地感知业务负载的变化,实现资源在不同智算任务间的动态迁移,以及小颗粒度碎片的聚合管理,从而提升智算资源的利用率。

  未来,大规模的智算集群可能部署来自不同厂家的异构算力资源。研究院将从计算策略拆解、性能预测分析、任务分发协同等技术方向入手,把训练任务分解并在异构GPU上并行执行,着力构建异构混训能力,进而提升万卡集群的服务能力。

  新节能:液冷技术解决了高性能智算服务器的散热问题,兑现了中国移动对绿色高效算力的承诺,为万卡集群的可持续发展提供有力支持。在NICC新型智算技术体系中,新节能技术的应用对实现绿色高效算力至关重要。随着AI芯片性能提升,功耗也随之增加,对散热系统提出了更高要求。传统的风冷散热已无法满足高性能智算服务器的散热需求,因此,液冷成为解决散热问题和提高能效的首选技术,有效应对智算中心面临的散热压力。在综合考虑成本、可维护性、能源效率和产业成熟度后,冷板式和单相浸没式液冷因其在多个方面的显著优势成为当前主流解决方案。未来,中国移动将继续推进优化液冷环境下的运维和管理,推动产业生态成熟,从而提升智算中心的能效利用水平,确保超万卡集群的可持续发展。

  继往开来,持续推进全栈技术的创新应用

  NICC新型智算技术体系,以其“新互联、新算效、新存储、新平台、新节能”五大领域的系统性重构,为哈尔滨万卡集群注入了强大的技术动力,在我国万卡集群的发展上起到关键作用。

  当前,超万卡集群、甚至超十万卡集群正逐渐成为行业发展的新趋势,中国移动率先发布《面向超万卡集群的新型智算技术白皮书》,系统性阐述了超万卡集群核心设计原则和关键技术。面向未来更大规模智算中心技术体系的构建,将不仅仅是技术层面的突破,更是对未来智算发展的深远布局,中国移动将持续推动全调度以太网GSE 2.0、全向智感互联OISA、芯合算力原生CAMA等关键技术的成熟落地,为大规模智算集群的落地实施做好技术准备。同时,我们也将与合作伙伴携手并进,共克难关,推动国产智算设施实现新的突破,为智算产业的发展贡献智慧和力量。

关注同花顺财经(ths518),获取更多机会

0

+1
小牛诊股诊断日期:2024-09-20
中国移动
击败了73%的股票
短期趋势弱势下跌过程中,可逢高卖出,暂不考虑买进。
中期趋势
长期趋势已有1226家主力机构披露2024-06-30报告期持股数据,持仓量总计3.52亿股,占流通A股46.46%
综合诊断:近期的平均成本为99.97元。该股资金方面呈流出状态,投资者请谨慎投资。该公司运营状况良好,多数机构认为该股长期投资价值较高。