中国建设银行股份有限公司张旻政获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中国建设银行股份有限公司申请的专利一种用于RAG的多知识粒度的文本检索方法及装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119415623B 。
龙图腾网通过国家知识产权局官网在2025-12-05发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411466514.6,技术领域涉及:G06F16/33;该发明授权一种用于RAG的多知识粒度的文本检索方法及装置是由张旻政;鲁昊纯;耿浩杰设计研发完成,并于2024-10-21向国家知识产权局提交的专利申请。
本一种用于RAG的多知识粒度的文本检索方法及装置在说明书摘要公布了:本发明提供一种用于RAG的多知识粒度的文本检索方法及装置,将原始文本整理为JSON文件,并进行递归字符和语义切块处理,生成目标JSON文件存储至BM25数据库和向量数据库。当用户查询时,预处理生成关键词列表和查询嵌入向量;查找BM25数据库中的目标文本,计算与关键词的相关性得分以确定第一待选文本;根据查询嵌入向量确定第二待选文本;对所有第一待选文本和第二待选文本进行去重处理,利用排序模型确定最终推荐文本并输出。通过考虑不同搜索粒度的问题,采用BM25算法解决关键词粒度。结合句粒度和段粒度的语义检索策略,有效应对文本信息长度不一及不同检索目的的挑战,从而充分利用传统检索与语义检索的优势。
本发明授权一种用于RAG的多知识粒度的文本检索方法及装置在权利要求书中公布了:1.一种用于RAG的多知识粒度的文本检索方法,其特征在于,所述方法包括: 获取原始文本,并进行结构化整理,得到JSON文件; 对所述JSON文件中的JSON数据进行递归字符切块处理和语义切块处理,得到多个包含子索引的文本块,并基于文本块生成目标JSON文件; 将所有目标JSON文件存储至BM25数据库,和将进行递归字符切块处理后的所述JSON文件存储至向量数据库; 当接收到用户输入的查询语句时,对所述查询语句进行预处理,得到所述查询语句相应的关键词列表和查询嵌入向量; 针对所述关键词列表中的每个关键词,查找所述BM25数据库中所有包含所述关键词的目标文本,并计算每个所述目标文本与所述关键词的相关性得分; 将所有相关性得分从大到小进行排序,将前n个所述相关性得分对应的目标文本确定为第一待选文本; 将所述查询嵌入向量分别与所述向量数据库中的句子层级嵌入向量和段落层级嵌入向量计算余弦相似度; 根据所有余弦相似度确定第二待选文本; 对所有第一待选文本和所有第二待选文本进行去重处理,并利用排序模型确定最终推荐文本,输出所述最终推荐文本。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国建设银行股份有限公司,其通讯地址为:100033 北京市西城区金融大街25号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励