中国科学院软件研究所索玉文获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中国科学院软件研究所申请的专利基于富文本的预标注前端可视化实现方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116244476B 。
龙图腾网通过国家知识产权局官网在2025-08-22发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310269508.0,技术领域涉及:G06F16/901;该发明授权基于富文本的预标注前端可视化实现方法及系统是由索玉文;李守斌;王青设计研发完成,并于2023-03-20向国家知识产权局提交的专利申请。
本基于富文本的预标注前端可视化实现方法及系统在说明书摘要公布了:本发明公开了一种基于富文本的预标注前端可视化实现方法及系统,属于知识图谱技术领域。对输入的富文本内容进行知识自动抽取,根据知识抽取结果对照已有的富文本,构造新的虚拟节点语法树,进而对超文本标记语言字符串进行分片处理,并根据不同的分片类型构造不同的标签,最终针对富文本进行文本结构替换和重绘,实现富文本内容的预标注。本发明一方面能够解决特定领域模型算法预标注成本高、标注结果不准确的问题;另一方面能够解决预标注无法保留文本样式,特别是图片和表格的样式的问题,有助于提高标注后文本的可读性,降低人工对预标注结果进行二次编辑的标难度。
本发明授权基于富文本的预标注前端可视化实现方法及系统在权利要求书中公布了:1.一种基于富文本的预标注前端可视化实现方法,其特征在于,包括以下步骤: 1将待标注的目标文档转换成超文本标记语言字符串,在前端以富文本形式展示; 2对所述超文本标记语言字符串进行解析处理,得到纯文本字符串,然后输入到对应领域的训练好的知识抽取算法模型中进行知识抽取,输出抽取结果,该抽取结果包括实体结果列表和关联关系列表; 3将所述实体结果列表中的实体类型与本地存储的实体类型进行比对,将所述关联关系列表中的关联关系类型与本地存储的关联关系类型进行比对,将不存在于本地存储的实体类型和关联关系类型进行存储和展示; 4对于所述超文本标记语言字符串的Dom节点树,为每个节点设定索引范围;然后判断所述实体结果列表中的实体项的索引范围是否在当前节点的索引范围内,如果在,则将该实体项加入当前节点的实体结果列表entityRangeList中;如果当前节点是叶子节点,则将entityRangeList作为当前节点的标注结果挂载到叶子节点上,并对当前节点的文本进行以下分片处理; 5根据entityRangeList的实体项的索引范围是否含有交叉或包含关系划分为不同的索引区间,并将entityRangeList构建给成由普通标注和嵌套标注两种标注类型构成的多维数组annotationList,挂载到当前节点上; 6对annotationList的每一项的索引范围与当前节点的索引范围进行比较,根据比较结果将当前节点的文本划分成普通文本、普通标注和嵌套标注三种分片类型,并构建数组segmentList挂载到当前节点上; 7根据划分的三种分片类型,对segmentList的每项片段的Dom结构进行重构,用超文本标记语言字符串进行结构替换,同时用标注块对Dom结构进行标注,将替换的超文本标记语言字符串按照顺序进行拼接,得到拼接后的Dom结构,用该结构替换当前节点并进行可视化展示。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国科学院软件研究所,其通讯地址为:100190 北京市海淀区中关村南四街4号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。