华为星河AI数据中心网络亮相JDD大会,助力京东建设高性能智算网络
硬件是基础,软件是灵魂。在9月25日召开的2025京东全球科技探索者大会(JDD)上,京东集团再次升级了自身AI战略,明确诠释了“以零售为基础的技术与服务企业”的集团战略定位。为支撑新战略落地,京东集团不仅将自研的“言犀”大模型扩充为“JoyAI”大模型家族,更宣布了JoyAgent3.0、JoyCode2.0等一系列智能体新品。同时,京东集团也表示,将未来三年持续投入,带动形成万亿规模的人工智能生态。
显然,AI战略和大量AI业务的落地需要强大基础设施作为支撑。在本次大会的展区中,华为首次对外展示了全新研发的高密128*400GE盒式以太交换机、400G/800G高速星联光模块等多款AI基础设施新品;这彰显了华为在AI基础设施层面的领先实力,也展现了京东集团与华为有着广阔的合作及联创前景。
华为展台
AI是算力挑战
更是网络挑战
伴随京东集团AI战略升级和AI业务需求量的快速增长,智算集群建设也进入扩张期。在从千卡到万卡甚至十万卡的规模跃迁过程中,网络的组网规模、负载均衡、运维管理已成为影响京东智算集群效率的关键因素。
组网规模:在交换机端口数量不变的情况下,集群规模增长就意味着网络设备数量的增加,而这就会产生越来越多的机架空间占用和TCO的增加,且会提高网络复杂度。与此同时,节点对网络带宽的需求也在快速提升。
负载均衡:在智算集群中,一旦出现网络拥塞,集群性能可能会大幅下降,因此,如何通过负载均衡来降低网络拥塞,就成为了大规模集群组网需要首先考虑的问题。并且,在MoE等新一代模型技术广泛应用之后,实现整网负载均衡的难度也越来越大。
运维管理:集群规模的增长和网络复杂度的提升会带来更大的网络运维工作量,并导致成本提升。在AI已经成为互联网企业关键业务的当下,如何提高运维质量和响应效率也成为用户关心的问题。
华为数据中心网络128*400GE交换机
面对AI所带来的多重网络挑战,包括京东集团在内的互联网用户迫切需要更先进的网络产品和解决方案来应对。华为星河AI高算效数据中心网络正是在这一背景下应运而生,以网强算,加速客户智算集群算力释放。
用高密400GE网络
构建超大规模智算集群
随着京东AI业务增长,需要更大规模智算集群支撑,而在智算集群组网中扮演关键角色的正是华为高密128*400GE盒式交换机和高密576*400GE框式交换机,两层组网集群规模最大可达3.6万卡。对比三层组网架构,华为两层框盒组网方案所需的400GE光模块数量减少了40%,光互联成本也随之降低40%。
128*400GE盒式交换机
576*400GE框式交换机
400G星联光模块
用全局负载均衡
提高智算集群性能
网络负载均衡是保障智算集群性能的前提,而华为星河AI高算效数据中心网络全新升级的NSLB-DP动态负载均衡方案,通过动态调度算法实现本地和全局的链路负载均衡,解决了以往静态算法缺乏全局调度能力的问题。并在京东网络中开展了性能测试。
NSLB-DP测试结果如下:在集合通信测试场景,NSLB-DP算法相较此前的NSLB-S(静态算法)在常用算子Allreduce、ReduceScatter、Allgather的算法带宽均有提升,最高可达24.62%;模型测试场景,NSLB-DP算法相较NSLB-S在训练性能上(每秒训练样本数)也均有提升,最高可达7.32%。
用智能运维
让智算集群提质增效
传统运维系统所使用的Telemetry技术在高负载、大规模集群中的指标上报能力有限,往往会导致网络运维团队花费数小时来分析和定位网络故障。难以满足京东智算集群运维要求。
为解决这一痛点,华为星河AI高算效数据中心网络在运维系统中增加了iFIT(随流检测),和Packet-Event(丢包及超时延可视)方案。其中,iFIT能够将智算集群业务流拓扑可视化,丢包与转发时延支持实时逐跳监测,让运维团队能够快速将网络故障定位到具体设备;Packet-Event则能深入芯片层面,直接向运维系统上报丢包根因与超时延流信息。两种技术叠加,运维团队便可在故障发生时实现典型问题的分钟级的定位定因,继而提高运维响应速度,减少故障时间。
联接算力
更联接未来
华为在以网络为代表的根技术领域坚持长期高强度投入,星河AI高算效数据中心网络则是这些投入的最新成果。通过新一代先进网络,华为不仅能将庞大算力联接在一起,更能在AI与业务、用户与未来之间建立稳固联接。而这也正是京东集团与华为长期共创共赢的基础。
星河AI高算效数据中心网络只是华为与京东集团广泛合作的其中一面,但其所代表的则是华为与中国互联网产业的全面联接,携手共赴AI时代的奔腾盛景。
0人