千问正式开源FlashQLA 可减少训推过程注意力层的计算开销

4月29日，千问大模型宣布，正式开源FlashQLA，一个基于TileLang实现的高性能线性注意力算子库。FlashQLA将GDN Chunked Prefill的前向和反向进行了合理的算子融合与性能优化，在NVIDIA Hopper上实现多场景相较于FLA triton Kernel2-3×前向加速和2×反向加速。对于预训练场景和端侧agentic推理效率提升明显。

千问团队表示，自Qwen3-Next发布以来，Gated Delta Network(GDN)已成为Qwen全系列的主力注意力层，从Qwen3-Next-80B-A3B一路延伸到后续推出的Qwen3.5/Qwen3.6系列。随着模型规模扩展到397A17B、122A10B、35B、27B，GDN在端到端训练与推理中的开销也变得不可忽视。

据介绍，本次发布的核心亮点在于：Gate驱动的自动化卡内序列并行。利用GDN gate的指数衰减性质，FlashQLA在TP、长序列、小头数等场景下自动开启卡内序列并行，提高GPU SM利用率；硬件友好的代数改写。对GDN Chunked Prefill的前向和反向流程进行一定程度的改写，在不影响数值精度的前提下有效降低了Tencosr Core、CUDA Core及SFU开销。

问财摘要