Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 成都瀚蓝科技有限公司王兰春获国家专利权

成都瀚蓝科技有限公司王兰春获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉成都瀚蓝科技有限公司申请的专利不依赖缩进探测的多模态嵌套文字列表抽取方法与装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120124627B

龙图腾网通过国家知识产权局官网在2025-11-21发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510180503.X,技术领域涉及:G06F40/279;该发明授权不依赖缩进探测的多模态嵌套文字列表抽取方法与装置是由王兰春;符淼;李建文设计研发完成,并于2025-02-19向国家知识产权局提交的专利申请。

不依赖缩进探测的多模态嵌套文字列表抽取方法与装置在说明书摘要公布了:本发明涉及文本处理技术领域,尤其涉及不依赖缩进探测的多模态嵌套文字列表抽取方法与装置,抽取方法包:对含列表的待抽取文本进行列表缺项探测;对含列表的待抽取文本进行列表结构完整性探;根据列表缺项探测结果和列表结构完整性探测结果,选择第一抽取方式或者第二抽取方式对待抽取文本执行列表抽取;第一抽取方式和第二抽取方式中均含有完全独立列表抽取和保留嵌套列表结构的复合抽取,完全独立列表抽取用于从文本段落中抽取出单个的同类标号的完整独立列表,保留嵌套列表结构的复合抽取用于从文本段落中同时抽取出嵌套和独立列表。本发明解决了现有技术存在的列表抽取的精度不够,容错空间小,抽取出的结构化数据的正确性无法保证的问题。

本发明授权不依赖缩进探测的多模态嵌套文字列表抽取方法与装置在权利要求书中公布了:1.不依赖缩进探测的多模态嵌套文字列表抽取方法,其特征在于,包括以下步骤: 对含列表的待抽取文本进行列表缺项探测,所述列表缺项探测包括首项缺失探测和中间项缺失探测; 对含列表的待抽取文本进行列表结构完整性探测,并配置所述结构完整性探测中的缺项容忍第一阈值; 根据列表缺项探测结果和列表结构完整性探测结果,选择第一抽取方式或者第二抽取方式对待抽取文本执行列表抽取;所述第一抽取方式和第二抽取方式中均含有完全独立列表抽取和保留嵌套列表结构的复合抽取,所述完全独立列表抽取用于从文本段落中抽取出单个的同类标号的完整独立列表,所述完全独立列表抽取中配置缺项容忍第二阈值,所述保留嵌套列表结构的复合抽取用于从文本段落中同时抽取出嵌套列表和独立列表; 基于列表无缺项且列表结构完整的探测结果,选择第一抽取方式对待抽取文本执行列表抽取,所述第一抽取方式包括: 对待抽取文本执行保留嵌套列表结构的复合抽取,获得嵌套列表和独立列表,完成列表的抽取; 基于列表有缺项或者列表结构不完整的探测结果,选择第二抽取方式对待抽取文本执行列表抽取,所述第二抽取方式包括: 对待抽取文本执行完全独立列表抽取,抽取出独立列表,然后将抽取出的列表项从原待抽取文本中排除,合并剩余行;对合并后的剩余行执行保留嵌套列表结构的复合抽取; 所述首项缺失探测包括: 从上至下正向扫描待抽取文本;判断扫描到的当前列表行是否是有序列表的第二项;基于当前列表行是有序列表的第二项的结果,设定初始balance值为1,同时获得当前行的列表标号类型,然后开始逐行向上逆向扫描;逆向扫描遇到同标号类型的第二项,balance值加1,如果遇到同标号的首项则减1;逆向扫描全部行之后,确认balance值是否为0,如果balance值为0,则不存在列表首项缺失,如果balance值不为0,则存在列表首项缺失; 所述中间项缺失探测基于无首项缺失的情况下进行,所述中间项缺失探测包括: 对待抽取文本执行完全独立列表抽取获得列表集合A,此步骤中第二阈值为0;对完全独立列表抽取后剩余的待抽取文本段落执行保留嵌套列表结构的复合抽取,获得列表集合B;分别计算列表集合A和列表集合B中的列表项的数量,对应获得CA和CB;比较确认CA和CB的值是否相等,若相等,则不存在缺项,若不相等,则存在缺项; 所述对含列表的待抽取文本进行列表结构完整性探测,并配置所述结构完整性探测中的缺项容忍第一阈值,包括: 对待抽取文本执行完全独立列表抽取,获得待抽取文本中所有的独立列表,分别计算每个独立列表的列表项并进行加和,获得列表项总和E;对待抽取文本执行保留嵌套列表结构的复合抽取,获得嵌套列表和独立列表一;对获取的每个嵌套列表均执行完全独立列表抽取,获得独立列表二;分别计算独立列表一和独立列表二中的列表项并进行加和,获得列表项总和F;判断E和F是否相等,若相等,则列表中不存在对结构完整性可能造成破坏的插入行,若不相等,则存在对结构完整性可能造成破坏的插入行。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人成都瀚蓝科技有限公司,其通讯地址为:610000 四川省成都市武侯区一环路南二段17号1幢8楼1-1号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。