中国舰船研究设计中心汪瞳获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中国舰船研究设计中心申请的专利一种基于倒排表的领域知识抽取方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN117235274B 。
龙图腾网通过国家知识产权局官网在2026-04-21发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310975138.2,技术领域涉及:G06F16/36;该发明授权一种基于倒排表的领域知识抽取方法是由汪瞳;范慧丽;应杰;董晓明;张舒设计研发完成,并于2023-08-03向国家知识产权局提交的专利申请。
本一种基于倒排表的领域知识抽取方法在说明书摘要公布了:本发明公开了一种基于倒排表的领域知识抽取方法,包括以下步骤:1对船舶知识库中的非结构化、半结构化和结构化数据建立倒排索引表;倒排索引表存储单词在文档中的位置映射;2基于轮询的负载均衡算法,从倒排索引表集群中检索出请求问题的候选知识;3对检索出的候选知识,进行对候选知识的排序;4对排序后的TopN候选知识进行三元组抽取;5对抽取的三元组中的冲突三元组进行纠错与知识融合;6根据处理后的三元组获得知识抽取后的知识图谱。本发明通过缩小候选知识范围,快速从知识库中抽取知识,提高系统响应速度。
本发明授权一种基于倒排表的领域知识抽取方法在权利要求书中公布了:1.一种基于倒排表的领域知识抽取方法,其特征在于,包括以下步骤: 1对船舶知识库中的非结构化、半结构化和结构化数据建立倒排索引表;倒排索引表存储单词在文档中的位置映射; 2基于轮询的负载均衡算法,从倒排索引表集群中检索出请求问题的候选知识; 3对检索出的候选知识,进行对候选知识的排序; 对检索出的候选知识,计算问题与切割后的候选知识答案之间的相似得分FuzzScore分数和单词比率WordRatio分数; 按照WordRatio分数由大到小对检索出的候选知识进行排序,若WordRatio值相同则按照其对应的FuzzScore分数大小进行排序,取排序靠前的TopN候选知识,剔除排序靠后的候选知识; 其中,假设问题Q的长度为L1,Q分词后的分词数量为S,候选答案A的长度为L2,候选答案A切割后的字符串数量为N,WordRatio分数的计算分为分词处理、字符串切割、最长连续子串统计、存在词统计、最终值计算五个步骤,步骤如下: 31对输入的问题Q进行分词处理,得到分词集合W={w1,w2,…,wm},其中m为分词总数,即前文定义的S; 32对候选答案A进行文本切割,以标点符号为分割依据,得到字符串集合C={c1,c2,…,cn},其中n为切割后的字符串数量,即前文定义的N,实现答案文本的分段处理; 33获取在候选答案A分割语句上的最长连续子串长度; 初始化最大最长连续子串长度ML为0,遍历字符串集合C中的每一个字符串: 3.31计算问题Q在当前字符串ci上的最长连续子串长度L; 3.32若当前计算得到的L大于当前ML值,则更新ML为L; 3.33遍历完成后,ML将保留问题Q在候选答案A各分段中所能匹配到的最长连续子串长度; 34获取候选答案A中包含分词的个数 初始化存在词数量EW为0,遍历问题Q的分词集合W中的每一个分词: 3.41统计候选答案A中包含当前分词wi的个数COUNT; 3.42若COUNT不为0,则将EW数值加1; 3.43遍历完成后,EW将记录问题Q中能在候选答案A中找到匹配的分词总数; 3.5基于上述步骤得到的ML和EW数值,计算得出WordRatio分数; 4对排序后的TopN候选知识进行三元组抽取; 5对抽取的三元组中的冲突三元组进行纠错与知识融合; 6根据处理后的三元组获得知识抽取后的知识图谱。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国舰船研究设计中心,其通讯地址为:430064 湖北省武汉市武昌区张之洞路268号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励