日前,数据库领域国际学术顶会SIGMOD2026公布录用结果,阿里云瑶池数据库团队共有10篇论文被主会收录,研究方向涵盖数据库与AI协同、云原生存储架构、数据库智能化工(850102)具等。
SIGMOD由ACM主办,是数据库领域历史最久、影响力最大的国际学术会议之一,论文录用率长期保持在20%左右。本次入选的10篇论文覆盖了从底层硬件架构到上层智能应用的完整技术栈。以下围绕三个方向,精选3篇论文做重点介绍。
数据库与AI的双向协作
当大模型成为新的应用范式,数据库与AI的关系也从单向调用走向双向协作。一方面,数据库需要为大模型推理、向量检索、训练数据治理提供基础设施支撑;另一方面,大模型也在改变人与数据交互的方式。
Beluga:基于CXL交换机的大模型KV Cache内存架构
大模型推理需要管理海量的KV Cache,而GPU高带宽内存容量有限,主机DRAM也受限于CPU内存通道数。当前业界主要依靠RDMA远程内存池扩展容量,但RDMA协议栈本身带来了较高的访问延迟和编程复杂度。
该论文提出了业界首个将GPU集群与CXL2.0交换机集成的共享内存架构。GPU和CPU通过CXL fabric以原生load/store语义直接访问大规模内存池,无需RDMA协议栈介入。
在此基础上实现的Beluga-KVCache集成至vLLM后,相比基于RDMA的KVCache内存池化方案,写延迟降低7.0倍、读延迟降低6.3倍,端到端推理吞吐提升4.79倍。据悉,这是CXL Switch在GPU推理集群中的首个工程验证。
云原生存储异构架构中成本与性能的再平衡
云数据库的存储底座,正从单一介质演进为DRAM、本地NVMe、远程块存储与对象存储并存的多层异构架构。如何在这样的体系下同时兼顾成本、性能与稳定性,是云原生数据库绕不开的课题。
Tair Serverless KV:基于LSM树,稳定与高资源利用率兼得的KV服务
基于LSM-tree的多租户云数据库中,Compaction的异步特性可导致低流量时段某租户磁盘带宽周期(883436)性突增,引发租户SLA保障与带宽复用之间的矛盾。传统方案通常以牺牲资源复用为代价换取SLA稳定。
Tair Serverless KV通过两级I/O准入控制和两阶段Compaction延迟机制解决这一难题。前者使后台可用磁盘带宽随实时前台负载动态调整,支撑更高的带宽复用能力。后者利用Compaction的异步性动态调度前后台资源。该方案首次在LSM-Tree结构下实现了兼顾租户SLA与资源高度复用。
用AI重塑数据库研发与运维
数据库的研发与运维长期依赖工程师的经验积累与反复试错。随着系统规模和业务复杂度持续提升,传统人工方式正接近效率与可靠性的极限。阿里云在这一方向上尝试将静态程序分析与大模型推理相结合,探索SQL治理与缺陷复现的自动化工(850102)程能力。
DBugScribe:从社区报告自动复现数据库Bug MySQL、MariaDB等主流数据库每天涌入大量自然语言Bug报告。复现一个Bug需要同时重建配置、Schema、数据等多维状态,开发者往往耗费数小时试错,近半数报告难以稳定复现,严重拖慢缺陷修复节奏。
该论文将“数据库Bug场景”建模为具有形式化语义的一等对象,提出一套可组合的领域特定语言(DSL),通过LLM语义抽取、Text-to-SQL增强和规则校验自我精化,将自然语言报告自动编译为可执行的复现脚本。
在218个真实Bug报告上,DBugScribe取得72.9%的自动复现成功率,平均每个报告仅需数分钟。沉淀下来的DSL脚本已额外发现37个新Bug,其中包含一个MySQL崩溃缺陷已被官方确认。
研究成果的产品落地
上述研究成果已应用于阿里云瑶池数据库的产品体系。Beluga的CXL内存池技术已进入工程验证阶段,论文中的多项数据库能力已作为阿里云数据库的核心组件在生产环境大规模部署,相关技术已应用于数据库的智能化数据开发体验。
未来,阿里云将持续在云数据库前沿技术方向上探索,将生产实践中的技术难题与学术研究相结合,推动研究成果向产品转化。
