清华大学深圳国际研究生院金欣获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉清华大学深圳国际研究生院申请的专利一种基于大语言模型的文本到结构化查询语言转换方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119415546B 。
龙图腾网通过国家知识产权局官网在2025-09-19发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411510082.4,技术领域涉及:G06F16/2452;该发明授权一种基于大语言模型的文本到结构化查询语言转换方法是由金欣;黄海天设计研发完成,并于2024-10-28向国家知识产权局提交的专利申请。
本一种基于大语言模型的文本到结构化查询语言转换方法在说明书摘要公布了:一种基于大语言模型的文本到结构化查询语言转换方法,包括:裁剪数据库纲要信息,通过相关性评分和斯坦纳树问题求解,消除非目标结构化查询语言SQL查询所需的表和列;筛选上下文样例,利用交叉编码器语言模型预测文本到结构化查询语言Text‑to‑SQL相似性得分,选出与查询问题最相关的样例;将裁剪后的数据库表和列信息及筛选出的上下文样例注入提示词模板,使用大语言模型生成SQL查询语句。本发明可用于优化自然语言到SQL的自动转换过程,提高其转换准确率,用于为非SQL使用者提供快捷方便的数据库检索机制,及为大语言模型检索增强生成RAG等机制提供更广泛形式的数据接入方式等应用。
本发明授权一种基于大语言模型的文本到结构化查询语言转换方法在权利要求书中公布了:1.一种基于大语言模型的文本到结构化查询语言转换方法,其特征在于,包括以下步骤: Z1:裁剪数据库纲要信息,通过相关性评分和斯坦纳树问题求解,消除非目标结构化查询语言SQL查询所需的表和列; 步骤Z1中,表列裁剪阶段具体包括: 将数据库模式转化为图表示,其中节点集合代表数据库中的表,边集合代表表之间的关系,每条边代表外键与主键的连接,并且每条边赋予相同的权重; 将表列裁剪任务建模为斯坦纳树问题,目标是提取包含所有待保留表的最小连通子图; 采用突发搜索算法求解斯坦纳树问题,以识别出既相关又互联的表和列的子集; 对于相关性评分低于设定阈值的表,检查其是否与已识别的连通子图中的节点存在外键-主键连接;如果是,则将这些表包含在最终保留的表集合中,以提升召回率并避免误差传播问题; 对于每个被保留的表,保留其评分超过阈值的列及其主键,确保每个表保留了足够的列信息以维持其语义完整性; 在裁剪过程中,移除与保留的表和列无关的主键和外键信息; Z2:筛选上下文样例,利用交叉编码器语言模型预测文本到结构化查询语言Text-to-SQL相似性得分,选出与查询问题最相关的样例; 步骤Z2中,上下文样例筛选方法具体包括: 接收Text-to-SQL样例集,该样例集包含多个问题-结果SQL的样例对; 给定当前自然语言查询问题和数据库纲要,在样例集中找到与当前问题最相关的若干个样例子集; 训练交叉编码器语言模型,该模型用于预测问题对之间的Text-to-SQL相似性得分; 在训练阶段,模型的输入包括数据库纲要和一对问题,输出为该问题对的Text-to-SQL相似性得分,标签值为两个问题的余弦相似度与对应SQL表达式结构相似度的组合; 损失函数采用基于模型输出与标签值差异的函数,以优化模型对样例相似度的预测能力; 在预测阶段,使用训练好的模型和当前自然语言查询问题,对样例集中的每个样例进行相似度评分; 根据得出的相似度评分,选择评分最高的k个样例,所述样例与当前自然语言查询问题最相关; Z3:将裁剪后的数据库表和列信息及筛选出的上下文样例注入提示词模板,使用大语言模型生成SQL查询语句。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人清华大学深圳国际研究生院,其通讯地址为:518071 广东省深圳市南山区桃源街道丽水路2279号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励