哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)张梅山获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)申请的专利基于修辞结构解析和大语言模型树结构化检索方法及装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120353803B 。
龙图腾网通过国家知识产权局官网在2025-09-09发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510855165.5,技术领域涉及:G06F16/22;该发明授权基于修辞结构解析和大语言模型树结构化检索方法及装置是由张梅山;杨溢;邓明森;张民设计研发完成,并于2025-06-25向国家知识产权局提交的专利申请。
本基于修辞结构解析和大语言模型树结构化检索方法及装置在说明书摘要公布了:本发明提供一种基于修辞结构解析和大语言模型树结构化检索方法及装置,涉及自然语言处理技术领域。该方法包括:采用修辞结构解析模型对原始长文档进行结构解析,构建语法二分树;采用大语言模型对语法二分树的节点的文本进行语义归纳,通过迭代循环机制,获得语法二分树的总结文本;构造对比学习训练样本,采用对比学习框架对预训练的BERT嵌入模型进行优化,获得优化后的BERT嵌入模型;采用基于FAISS向量检索技术,构建检索索引结构;将用户的查询输入优化后的BERT嵌入模型中进行编码,获得查询向量表示;根据查询向量表示和检索索引结构计算余弦相似度,根据相似度得分,获得检索结果。采用本发明可提高树结构检索的效果。
本发明授权基于修辞结构解析和大语言模型树结构化检索方法及装置在权利要求书中公布了:1.一种基于修辞结构解析和大语言模型树结构化检索方法,其特征在于,所述方法包括: S1、获取原始长文档;采用修辞结构解析模型对原始长文档的段落进行结构解析,得到各段落级语法二分树子树;采用预训练的大语言模型对各段落级子树进行逐层向上语义归纳,获得各子树中间节点和根节点的总结文本;采用各段落级子树的根节点文本拼接作为上层的抽象子文档结构,对子文档进行修辞结构解析,得到段落间的语法二分树,采用预训练的大语言模型,对各段落间的语法二分树逐层向上语义归纳;通过迭代循环机制,不断迭代逐步直至获得原始文档级的语法二分树结构;将各级语法二分树合并,得到原始长文档的完整语法二分树; S2、根据语法二分树的树结构以及预先标注的证据信息,定位与预先标注的查询相关的正样例节点;从语法树中的其余节点中采样负样例,通过计算负样例与正样例节点的采样概率,获得负样例节点;采用预训练的BERT嵌入模型,对负样例节点对应的文本和正样例节点对应的文本进行语义向量映射,获得负样例节点对应的语义向量表示和正样例节点对应的语义向量表示;根据正样例节点、正样例节点对应的语义向量表示、负样例节点和负样例节点对应的语义向量表示,构建对比学习训练样本; S3、根据对比学习训练样本,采用对比学习框架,通过构建的对比学习损失函数,对预训练的BERT嵌入模型进行优化,获得优化后的BERT嵌入模型; S4、将语法二分树中所有节点对应的文本,输入优化后的BERT嵌入模型中进行语义编码,获得所有节点对应的文本向量表示;根据所述文本向量表示,采用基于FAISS向量检索技术构建检索索引结构;将获取的用户查询输入优化后的BERT嵌入模型中进行语义编码,获得查询向量表示;将查询向量表示与检索索引结构中的节点表示进行余弦相似度计算,获得相似度得分;对相似度得分从高到低进行排序,选择分数最高的k个向量对应的树节点文本,作为检索结果。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院),其通讯地址为:518000 广东省深圳市南山区桃源街道深圳大学城哈尔滨工业大学校区;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。