Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 湖北邮电规划设计有限公司邓晓宇获国家专利权

湖北邮电规划设计有限公司邓晓宇获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉湖北邮电规划设计有限公司申请的专利基于知识图谱的增强文档生成和检索方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119646178B

龙图腾网通过国家知识产权局官网在2025-08-05发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411702394.5,技术领域涉及:G06F16/334;该发明授权基于知识图谱的增强文档生成和检索方法是由邓晓宇;彭诗杰;龙威;姚梦辉;孙健;刘驰设计研发完成,并于2024-11-26向国家知识产权局提交的专利申请。

基于知识图谱的增强文档生成和检索方法在说明书摘要公布了:本发明提出基于知识图谱的增强文档生成和检索方法,涉及知识图谱技术领域,包括:接收异构文档输入,并对异构文档进行动态分段;构建Graph‑RAG模型,包括知识图谱‑文档索引提取模块和设计文档生成模块;通过知识图谱‑文档索引提取模块基于文档分段构建和更新知识图谱;利用特征提取模型提取文档分段的特征向量,通过匹配策略建立文档分段与知识图谱中实体之间的映射关系,并构建检索索引;接收用户的查询序列,通过检索索引检索相关的实体和文档分段,并结合预设模板生成目标设计文档。本发明实现基于语义理解的精确检索和高质量文档生成,能解决传统文档处理方法中存在的语义理解不足、知识关联度低、生成质量欠佳等技术问题。

本发明授权基于知识图谱的增强文档生成和检索方法在权利要求书中公布了:1.基于知识图谱的增强文档生成和检索方法,其特征在于,包括: S1、接收异构文档输入,并对异构文档进行动态分段,得到具有语义完整性的文档分段; 步骤S1包括: S11、接收异构文档并预处理,得到预处理后的标准文档; S12、采用双向长短时记忆网络LSTM提取文本特征,基于预处理后的标准文档,设置滑动窗口大小n和步长k,得到一系列重叠的文本片段;对于每个文本片段,通过LSTM网络编码,得到维度为d的特征向量序列;基于特征向量序列,计算相邻窗口间的余弦相似度,得到文本片段间的语义相关性得分; S13、利用文本片段间的语义相关性得分,基于第一阈值θ1标记潜在分段点,得到初步的分段边界集合;结合标准文档的结构化特征和第二阈值θ2,验证并确认分段点,得到结构感知的分段边界;计算当前窗口文本的信息熵Hw,当超过第三阈值θ3时调整窗口大小,得到自适应的分段粒度; S14、基于自适应的分段粒度,根据相似度和分段长度进行优化,合并语义高度相关的相邻分段,拆分语义跨度过大的分段,得到优化后的最终文档分段; 步骤S14包括: S141、对自适应的分段粒度,提取每个分段的主题向量Ti,得到分段的语义表示; S142、计算所有分段的长度分布特征,包括平均长度μ和标准差σ;识别长度超过μ+1.5σ的分段,将其标记为待拆分集合P;识别长度小于最小阈值Lmin的分段,将其标记为待合并集合Q; S143、对待拆分集合P中的分段,递归执行以下操作: 对每个分段执行S12-S13步骤进行再分段,对新生成的分段重新执行S142进行长度分析,更新待拆分集合P和待合并集合Q,当待拆分集合P为空集时,递归结束,输出递归后的待合并集合Q; S144、对递归后的待合并集合Q中的分段,定义每个分段的相邻分段为其前后各一个分段: 计算每个分段与其相邻分段的主题向量的余弦相似度SIMTi,Ti+1,基于第四阈值θ4判断是否满足合并条件,若只有一个相邻分段满足条件,则将该分段对加入待合并集合M;若两个相邻分段均满足条件,则选择余弦相似度最高的分段对加入待合并集合M;输出最终的待合并分段对集合M; S145、对最终的待合并分段对集合M中的待合并分段对执行分段合并操作,得到优化后的最终文档分段; S2、构建Graph-RAG模型,包括知识图谱-文档索引提取模块和设计文档生成模块; S3、通过知识图谱-文档索引提取模块基于文档分段构建和更新知识图谱,将实体和关系组织为三元组形式; S4、利用特征提取模型提取文档分段的特征向量,通过匹配策略建立文档分段与知识图谱中实体之间的映射关系,并基于文档分段与知识图谱中实体之间的映射关系构建检索索引; S5、接收用户的查询序列,在设计文档生成模块中,通过检索索引检索相关的实体和文档分段,并结合预设模板生成目标设计文档; 设计文档生成模块包括一个检索器和一个生成器,其中: 检索器包括查询编码单元、索引检索单元和排序输出单元,其检索过程表示为: qh,z|x=Ph,z|x=TopK[simqx,IA] 式中,qh,z|x表示检索器,Ph,z|x表示根据输入查询x返回检索到的实体h和文档分段z的条件概率分布,x表示查询序列,qx为查询向量,A表示实体与文档分段索引之间的映射关系集合,IA表示基于实体与文档分段索引之间的映射关系构建的检索索引,sim表示相似度计算函数,TopK表示返回相似度最高的前K个结果的函数; 生成器包括上下文编码单元、自回归解码单元和文档组织单元,其生成过程表示为: pyi|h,z,t,y{i-1}=Pyi|x,h,z,t,y{i-1};φ=Decoderch,z,t,y{i-1} 式中,pyi|h,z,t,y{i-1}表示生成器,Pyi|x,h,z,t,y{i-1};φ表示在给定条件下生成下一个标记yi的概率,φ为生成器的参数,h为检索得到的实体,z为与实体h相关的文档分段,t为预设的文档生成模板,yi为当前时间步需要生成的目标标记,y{i-1}为已生成的目标序列{y1,y2,...,yi-1},表示在当前时间步i之前已经生成的所有目标标记,ch,z,t表示将实体h、文档分段z和预设的文档生成模板t编码后得到的上下文向量,Decoder表示解码器函数,用于将上下文向量和已生成序列转换为下一个标记的概率分布; 步骤S5包括: S51、接收用户输入的查询序列x,通过Transformer模型将查询序列编码为查询向量,对查询向量进行归一化处理; S52、利用检索器在预先构建的检索索引IA中进行检索,计算查询向量与索引中实体-分段对的相似度,返回Top-K个最相关的实体-分段对h,z作为检索结果; S53、将检索到的实体h、文档分段z与预设的文档生成模板t组合为上下文信息;初始化生成目标序列y为空序列;通过自回归方式逐标记生成目标序列: 在每个时间步i,基于当前上下文和已生成序列y{i-1}预测下一个标记yi;将预测的标记添加到生成目标序列中;重复该过程直至生成完整文档或达到终止条件; S54、根据预设的文档生成模板t的结构约束组织生成的内容,形成符合规范的最终的目标设计文档。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人湖北邮电规划设计有限公司,其通讯地址为:430000 湖北省武汉市江汉区江旺路9号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。