软件所DBCopilot框架实现海量数据库智能查询

文章来源:  |  发布时间:2025-04-11  |  【打印】 【关闭

  

近日,数据库领域重要国际学术会议The 28th International Conference on Extending Database Technology(EDBT 2025)公布论文评选结果。中国科学院软件研究所中文信息处理实验室论文DBCopilot:Natural Language Querying over Massive Databases via Schema Routing荣获最佳研究论文奖亚军(Runner-Up for Best Research Paper Award)。论文针对海量数据库查询的扩展问题,提出了一种大小模型协作的框架——DBCopilot,通过基于关系感知的端到端模式路由,实现海量数据源的高效准确自然语言查询。第一作者为博士生王天舒,通讯作者为林鸿宇副研究员和韩先培研究员。

EDBT 2025论文评选结果公布

随着大语言模型的快速发展,基于自然语言的数据库查询技术取得了显著进步。但在应对数据湖、数据仓库和开放数据门户等海量数据库系统的复杂查询需求时,用户常面临显著的效率制约,自然语言数据库接口规模化应用仍是行业难题。因而开发一种新型交互机制,允许用户通过自然语言实现海量数据库的智能查询至关重要。

针对上述挑战,研究团队提出了一种基于大小模型协同合作的DBCopilot框架,其核心在于建立自然语言与海量数据库模型元素的精准映射关系。该框架将海量数据库中的自然语言查询问题解耦合为模式路由(Schema Routing)和SQL生成(SQL Generation)两个阶段。在模式路由阶段,DBCopilot使用轻量级的可微搜索索引(Differential Search Index),构建跨库表的全域语义映射,并通过库表间关联关系的表征学习,实现基于关系感知的联合检索,从而将自然语言问题路由到目标库表;在SQL生成阶段,DBCopilot利用大模型通用且强大的生成能力,将路由到的模式与问题联合转换为SQL查询语句。此外,针对训练数据稀缺的问题,研究团队引入了基于反向模式生成的数据合成方法,无需人工标注即可自动适配到海量数据库。

DBCopilot框架

研究团队通过广泛实验验证了所提模式路由方法的有效性,以及大小模型协作框架的可扩展性。实验结果表明,在海量数据库环境下,DBCopilot的模式路由性能显著优于基于检索的基线方法,尤其在处理复杂查询时,召回率最高提升了19.88%;同时,对海量数据库查询的执行准确率也大幅提高,最高增幅达11.22%。


论文链接:https://openproceedings.org/2025/conf/edbt/paper-209.pdf