同花顺 Logo
AIME助手
问财助手
券商观点|计算机行业快报:UltraMem架构为推理降本,AI应用全面落地可期
2025-02-17 19:51:34
来源:同花顺iNews
分享
文章提及标的
山西证券--
金山办公--
用友网络--
万兴科技--
科大讯飞--
卫宁健康--

    2025年2月17日,山西证券(002500)发布了一篇计算机行业的研究报告,报告指出,UltraMem架构为推理降本,AI应用全面落地可期。

报告具体内容如下:

事件描述: 2月12日,字节豆包大模型团队发布全新的稀疏模型架构UltraMem,有效解决了当前主流的MoE架构在推理时产生的高额访存问题,推理速度较MoE架构提升2-6倍,同时推理成本最高可降低83%。 事件点评: UltraMem在PKM架构的基础上对模型结构、value检索方式、稀疏参数进行优化,在保证模型性能的同时大幅提升推理效率。UltraMem架构参考PKM(ProductKeyMemory)的设计,即Transformer层中嵌入大内存层以及推理时以行列路由的方式激活参数,访存效果较MoE架构明显改善。
同时,UltraMem对PKM架构进行针对性优化以提升模型性能:1)优化模型结构:将PKM的单个内存层拆分成多个内存层均匀嵌入Transformer层中,使模型能够并行执行访存和Transformer层计算操作;2)优化value检索方式:在推理时以TDQKR的乘法方法替代简单的行列加权方法选出得分最高的多个value,使模型能够精准检索到与输入相关的value;3)隐式扩展稀疏参数:引入数倍于physicalmemory的virtualmemory,在不提高模型部署复杂度的情况下提升模型性能。根据实验结果,训练规模达2000万value的UltraMem模型,在同等计算资源下可同时实现业界领先的推理速度和模型性能。
推理成本持续下降加速应用生态繁荣。根据Semianalysis数据,随着算法持续进步,截至2024年底,以GPT-3质量的输出为标准,模型推理价格下降了1200倍。进入2025年,在推理技术优化下,DeepSeek模型的使用成本不到o1模型的1/25,而字节最新发布的UltraMem架构将使主流稀疏模型的推理成本大幅下降。我们认为,模型调用价格是用户选择模型运行应用的重要考量因素,各大模型厂商及科技大厂将持续竞相推动推理成本下降,从而带动上层AI应用的加速落地,并有望促进应用从云端场景向端侧场景拓展。
投资建议:UltraMem架构的模型推理成本大幅下降,将加速AI应用落地,并推动应用向端侧渗透,进而刺激推理算力需求,重点关注1)AI应用相关标的,包括企业服务领域的金蝶国际(HK0268)泛微网络(603039)致远互联(688369)用友网络(600588)等,办公领域的金山办公(688111)福昕软件(688095)等,多模态领域的万兴科技(300624)美图公司(HK1357)等,金融领域的新致软件(688590)同花顺(300033)等,教育领域的科大讯飞(002230)佳发教育(300559)等,医疗领域的润达医疗(603108)卫宁健康(300253)等,以及其他领域的彩讯股份(300634)金桥信息(603918)焦点科技(002315)等;2)国产算力芯片厂商,包括海光信息(688041)寒武纪(688256)等;3)AI服务器厂商,包括四川长虹(600839)神州数码(000034)拓维信息(002261)浪潮信息(000977)中科曙光(603019)华勤技术(603296)等;4)算力云厂商,包括青云科技(688316)优刻得(688158)、并行科技等;5)端侧硬件厂商,包括美格智能(002881)移远通信(603236)广和通(300638)乐鑫科技(688018)中科蓝讯(688332)恒玄科技(688608)等。
风险提示:AI产品落地不及预期,行业竞争加剧风险,技术研发进展不及预期。

声明:本文引用第三方机构发布报告信息源,并不保证数据的实时性、准确性和完整性,数据仅供参考,据此交易,风险自担。

免责声明:风险提示:本文内容仅供参考,不代表同花顺观点。同花顺各类信息服务基于人工智能算法,如有出入请以证监会指定上市公司信息披露平台为准。如有投资者据此操作,风险自担,同花顺对此不承担任何责任。
homeBack返回首页
不良信息举报与个人信息保护咨询专线:10100571违法和不良信息涉企侵权举报涉算法推荐举报专区涉青少年不良信息举报专区

浙江同花顺互联信息技术有限公司版权所有

网站备案号:浙ICP备18032105号-4
证券投资咨询服务提供:浙江同花顺云软件有限公司 (中国证监会核发证书编号:ZX0050)
AIME
举报举报
反馈反馈