湖北省自然资源厅信息中心;中国地质大学(武汉)李江获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉湖北省自然资源厅信息中心;中国地质大学(武汉)申请的专利自然资源大模型问答的语义增强自适应分块方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120822526B 。
龙图腾网通过国家知识产权局官网在2025-12-05发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511322392.8,技术领域涉及:G06F40/35;该发明授权自然资源大模型问答的语义增强自适应分块方法及系统是由李江;张冬梅;慎昀;肖江辉;徐满;李源;徐新鹏设计研发完成,并于2025-09-16向国家知识产权局提交的专利申请。
本自然资源大模型问答的语义增强自适应分块方法及系统在说明书摘要公布了:本发明提供了一种自然资源大模型问答的语义增强自适应分块方法及系统,旨在解决术语边界识别困难、语义完整性破坏等问题。该方法融合三项核心技术:主题感知粗粒度段落划分、自适应滑动窗口主题层级划分、嵌入感知的上下文自适应文本分割。系统先解析自然资源长文本结构,识别标题与主题层级并对齐关联内容;依据主题感知策略提取段落,按语法规则细分为句子集合;采用改进的滑动窗口机制将句子划分为窗口句块组。核心在于引入动态聚合阈值机制,通过嵌入感知的上下文语义分割技术,计算相邻句块之间的语义关联度,并结合相似度分布变化趋势,动态调整阈值判断是否合并句块,实现语义边界的自适应划定,以生成结构清晰、语义连贯的文本分块。
本发明授权自然资源大模型问答的语义增强自适应分块方法及系统在权利要求书中公布了:1.一种自然资源大模型问答的语义增强自适应分块方法,其特征在于,包括: 步骤1,对输入的自然资源领域的长文本进行异构内容解析,对所述长文本中的标题层级进行识别,维护主题树状结构,且将标题层级与关联文本进行对齐; 步骤2,通过基于主题感知粗粒度段落划分策略,获取每一个标题层级下的段落块; 步骤3,对于每一个段落块,根据中文语法规则与句法结构,自动识别句子边界,将每一个段落块拆分为多个细粒度句子,得到每一个段落块的分句集合; 步骤4,基于改进的自适应滑动窗口分块机制,将所述分句集合中的所有细粒度句子划分为多个窗口句块分组; 步骤5,通过嵌入感知的上下文自适应文本分割技术,计算相邻窗口句块分组的语义关联度,结合上下文感知能力与相似度分布的变化趋势动态调整聚合阈值,以决定是否对多个窗口句块分组进行合并,自适应地划定语义边界,得到长文本划分后的语义连贯的多个语义分块; 所述步骤2,通过基于主题感知粗粒度段落划分策略,获取每一个标题层级下的段落块,包括: 采用堆栈结构管理标题路径,当遇到新标题时,根据新标题的层级和栈顶标题的层级更新当前标题路径栈,并获取每一个标题层级下的段落块; 所述步骤4,基于改进的自适应滑动窗口分块机制,将所述分句集合中的所有细粒度句子划分为多个窗口句块分组,包括: 步骤41,设定滑动窗口大小表示窗口内包含的句子数量和初始化窗口滑动步长; 步骤42,对于每次滑动后的窗口,按照顺序计算窗口内的相邻两个句子之间的相似度; 步骤43,确定相邻两个句子之间的相似度与预设相似度阈值之间的大小关系,根据所述大小关系确定是否将所述相邻两个句子划分到同一个窗口分组中,以及根据所述大小关系动态调整下一次窗口滑动步长,并根据所述下一次窗口滑动步长,对窗口进行滑动; 步骤44,重复执行步骤42~步骤43,直到所述分句集合中的所有细粒度句子被划分完毕,得到多个窗口句块分组; 所述步骤5中的相邻窗口句块分组的聚合阈值的计算,包括: 根据当前窗口句块分组的句子长度的归一化值和反应窗口内语义向量标准差的上下文波动系数,计算相邻窗口句块分组的聚合阈值。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人湖北省自然资源厅信息中心;中国地质大学(武汉),其通讯地址为:430000 湖北省武汉市武昌区公正路27号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励