详解:本土 AI 超节点元脑 SD200 如何率先实现 token 生成速度 8.9ms
近日,在 2025 人工智能计算大会上,浪潮信息(000977)公布,基于元脑 SD200 超节点 AI 服务器,DeepSeek R1 大模型 token 生成速度仅需 8.9 毫秒,创造国内大模型最快 token 生成速度。
元脑 SD200 创新设计满足低延迟推理需求
智能体时代的标志性特征是多模型协同与实时决策,每个智能体具备感知-决策-执行的闭环能力,涉及复杂的、多步骤的工作流,需要任务分解、自主决策以及持续的规划和执行。在智能体推理的过程中,即使是单个推理步骤中的延迟也会在多步骤任务中被指数级放大,导致用户体验迟滞。因此,token 生成速度正成为影响用户评价的一个关键指标。
元脑 SD200 超节点 AI 服务器基于高带宽、低延时、原生内存语义的开放总线协议,通过构建高性能交换单元打造 3D Mesh 高性能互连超扩展系统,支持 64 张本土 AI 芯片高密度算力扩展,能够很好地满足 DeepSeek 等大模型的低延迟推理需求,加快 token 生成速度。
■精简互连协议:采用事务层-数据链路层-物理层三层精简互连协议,事务层天然支持 Load / Store 内存语义;数据链路层支持基于信用的流控机制和链路级错误重传保障;物理层建立 10-12 低误码率的高可靠物理通道,报文有效数据利用率达成 96% 以上。
■全局统一编址:为解决跨主机域通信难题,设计独立于主机域的交换域全局地址空间,将多个独立主机域下的 GPU 在交换域进行统一的显存编址,为 GPU 互访提供基础保障。
■全局地址映射与数据路由:创新研发影子设备技术,通过影子设备将远端 GPU 映射到本地主机域,实现所有独立主机对全局 GPU 的显存访问,通过端口高效转发技术实现跨主机 P2P 访问。
定制通信算法深度适配元脑 SD200
除了硬件方面的创新,浪潮信息 AI 团队也针对 DeepSeek、Kimi 等模型的计算特征和元脑 SD200 的硬件架构特征,完成了通信库、计算框架层面等多方面的优化,充分发挥了元脑 SD200 的计算性能,最终实现了低延迟推理。同时,也支持预填充-解码 (Prefill-Decode) 分离推理,在满足客户业务场景 SLO 需求的基础上提供更高性能。
通信库层面,针对 Allreduce、Allgather、Alltoall 等典型通信算子,浪潮信息制定了与元脑 SD200 深度适配的通信算法。例如,对于 Allreduce,为了充分发挥元脑 SD200 的低延迟优势,专为 Allreduce 设计了分层算法策略:针对小数据量,采用全量收集,本地规约的低延迟定制 One-Shot 算法,旨在最小化 GPU 间的同步与通信开销;针对大数据量,采用高吞吐的定制化环形算法,以彻底解决带宽瓶颈并实现最优带宽利用率。而对于模型应用中最常见的中等数据量,则采用兼顾延迟与带宽的定制 Two-Shot 算法。浪潮信息更结合芯片缓存特性对此核心场景进行了深度优化:对中小数据量启用无缓存方案以追求极致延迟;对中大数据量则启用缓存方案,从而最大化吞吐效率。
实测数据表明,在 64 GPU 集群上进行 DeepSeek R1 671B 模型的 BF16 推理时,针对 Batch Size 为 1 的 decode 阶段(其 Allreduce 数据量约为 14 KB),优化后的算法将通信时延降低了 5.8 倍。此外,在 16 KB 至 16 MB 这一核心数据量区间内,定制优化算法的通信时延相较于未优化前的实现降低了 1.6 至 5.8 倍;与传统 scale-out 系统相比,时延降低幅度则进一步扩大至 4.5 至 12.7 倍。
全方位框架优化保障计算低延迟
框架层面,浪潮信息 AI 团队完成了并行方式、算子融合、多流水线等多方面优化,来保证计算的低延迟。
首先,在并行方式上,选择了整网的张量并行。在此并行模式下,通过模型均匀切分实现了设备间计算负载的完全均衡、各个计算板卡之间计算的完全并行和同步,消除了流水线气泡与负载不均衡问题。同时,元脑 SD200 的高带宽、低延迟确保了 AllReduce、AllGather 等通信算子性能的大幅提升,使得通信时间大幅下降,从而实现了超低延迟的推理性能。
其次,在算子上,实现了极致的算子融合等优化。GPU 的计算速度远远超过了内存带宽的访问速度,从内存中读写数据的时间成本,大部分时候比实际进行计算的时间成本还要高。算子融合可以通过减少不必要的内存读写和计算开销,来显著提升推理速度、降低延迟并减少内存占用,所以基于 SGlang 框架的已有实现,进行了多个算子的融合。
■对 MLA 模块中 attn_mla 计算前的算子进行融合,该融合算子以 Query 和 Key 向量进行 RMSnorm 计算后的输出为输入,以 attn_mla 计算的输入 q_input、k_input、v_input 等为输出,包含 bmm 计算、rotary_emb 计算以及向量拆分转置等计算;
■RMSNorm 和 add 计算融合;
■实现 int8 精度的量化和 RMSNorm、silu 等激活函数的融合;
■将路由专家分组选择中多个算子的融合为一个算子。
最后,也进行了多 stream 的优化。多个算子计算时,默认在单 stream 模式下,所有操作都排成一条队,一个接一个地执行。当算子本身的计算量不是很大时,会导致 GPU 的部分硬件单元在计算时处于空闲状态,也就浪费了计算资源。多 stream 优化就是为了让这些硬件单元“同时忙起来”,对于相互之间没有依赖关系的操作,可以放到不同的 stream 中并行执行,提高硬件的利用效率,同时减小整体的计算时间。在多 stream 并行优化方面,浪潮信息实现了 MLA 层的多个 layernorm 计算的并行,并实现了 MoE 阶段和共享专家计算和路由专家分组选择的并行等,实现了约 10% 的性能提升。
预填充-解码分离软件提高整体计算性能
此外,浪潮信息开发了预填充-解码 (Prefill-Decode) 分离软件,针对预填充与解码不同的计算特性,使用不同的并行计算策略、硬件配置等,提高系统整体的计算性能。同时在业务部署中,支持节点服务的动态扩展;支持利用负载均衡和键值缓存 (KV cache) 命中率进行任务分配,把任务下发到键值缓存匹配度相对较高、任务负载相对较小的节点,减少重复计算,同时最大化计算资源利用率。另外,PD 分离软件还实现了键值缓存 offload 技术,可把键值缓存到 CPU 端内存与分布式存储系统上,增大缓存空间。
元脑 SD200 超节点 AI 服务器通过高带宽和超低延迟通信、超大显存池、智能路由优化、PD 分离推理等创新技术,大幅提升了 DeepSeek、Kimi 等大模型的推理输出速度。元脑 SD200 搭载 64 张本土 AI 芯片运行 DeepSeek R1 大模型,当输入长度为 4096、输出长度为 1024 时,单用户 token 生成达到 112 tokens / s,每 token 生成时间仅为 8.9ms,率先实现国内 AI 服务器 token 生成速度低于 10ms,将推动万亿参数大模型在金融、科研、智能制造等领域快速落地。
0人