同花顺 Logo
AIME助手
问财助手
千问正式开源FlashQLA 可减少训推过程注意力层的计算开销
2026-04-29 19:40:16
来源:智通财经
分享
AIME

问财摘要

1、千问大模型宣布开源高性能线性注意力算子库FlashQLA,实现多场景下相较于FLA triton Kernel的加速。 2、Gated Delta Network(GDN)已成为Qwen全系列的主力注意力层,随着模型规模扩展到397A17B、122A10B、35B、27B,GDN在端到端训练与推理中的开销也变得不可忽视。 3、本次发布的核心亮点在于Gate驱动的自动化卡内序列并行和硬件友好的代数改写。
免责声明 内容由AI生成

4月29日,千问大模型宣布,正式开源FlashQLA,一个基于TileLang实现的高性能线性注意力算子库。FlashQLA将GDN Chunked Prefill的前向和反向进行了合理的算子融合与性能优化,在NVIDIA Hopper上实现多场景相较于FLA triton Kernel2-3×前向加速和2×反向加速。对于预训练场景和端侧agentic推理效率提升明显。

千问团队表示,自Qwen3-Next发布以来,Gated Delta Network(GDN)已成为Qwen全系列的主力注意力层,从Qwen3-Next-80B-A3B一路延伸到后续推出的Qwen3.5/Qwen3.6系列。随着模型规模扩展到397A17B、122A10B、35B、27B,GDN在端到端训练与推理中的开销也变得不可忽视。

据介绍,本次发布的核心亮点在于:Gate驱动的自动化卡内序列并行。利用GDN gate的指数衰减性质,FlashQLA在TP、长序列、小头数等场景下自动开启卡内序列并行,提高GPU SM利用率;硬件友好的代数改写。对GDN Chunked Prefill的前向和反向流程进行一定程度的改写,在不影响数值精度的前提下有效降低了Tencosr Core、CUDA Core及SFU开销。

免责声明:风险提示:本文内容仅供参考,不代表同花顺观点。同花顺各类信息服务基于人工智能算法,如有出入请以证监会指定上市公司信息披露平台为准。如有投资者据此操作,风险自担,同花顺对此不承担任何责任。
homeBack返回首页
不良信息举报与个人信息保护咨询专线:10100571违法和不良信息涉企侵权举报涉算法推荐举报专区涉青少年不良信息举报专区

浙江同花顺互联信息技术有限公司版权所有

网站备案号:浙ICP备18032105号-4
证券投资咨询服务提供:浙江同花顺云软件有限公司 (中国证监会核发证书编号:ZX0050)
AIME
举报举报
反馈反馈