中图科信数智技术(北京)有限公司宗天睿获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中图科信数智技术(北京)有限公司申请的专利文档段落位置提取方法、电子设备及存储介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114495141B 。
龙图腾网通过国家知识产权局官网在2025-08-19发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202111526160.6,技术领域涉及:G06V30/414;该发明授权文档段落位置提取方法、电子设备及存储介质是由宗天睿;张鹤;李沄沨;许若华;杨林;吴冠昊;蔡欣达设计研发完成,并于2021-12-14向国家知识产权局提交的专利申请。
本文档段落位置提取方法、电子设备及存储介质在说明书摘要公布了:本发明提供了一种文档段落位置提取方法、电子设备及存储介质,所述方法包括:对待处理文档的页面进行图像化处理,得到第一图像;根据所述第一图像中包括的非空白区域,确定所述第一图像中的文字轮廓;根据所述第一图像以及所述第一图像中包括的文字轮廓,确定所述第一图像中是否包括分栏信息;根据所述第一图像中是否包括分栏信息,确定所述待处理文档的页面的文档段落位置。本发明从图像处理角度出发,通过融合轮廓信息,对待处理文档进行清理、分栏并分割段落,提高了文档段落位置定位的普适性、准确性和可靠性。
本发明授权文档段落位置提取方法、电子设备及存储介质在权利要求书中公布了:1.一种文档段落位置提取方法,其特征在于,包括: 对待处理文档的页面进行图像化处理,得到第一图像; 根据所述第一图像中包括的非空白区域,确定所述第一图像中的文字轮廓; 根据所述第一图像以及所述第一图像中包括的文字轮廓,确定所述第一图像中是否包括分栏信息; 根据所述第一图像中是否包括分栏信息,确定所述待处理文档的页面的文档段落位置; 所述根据所述第一图像中包括的非空白区域,确定所述第一图像中的文字轮廓,包括: 根据所述第一图像中包括的非空白区域,确定所述第一图像中包括的第一轮廓信息库; 对所述第一轮廓信息库进行整理并采用标准化形式记录,通过预设阈值对轮廓的尺寸、面积进行筛选,将不满足条件的轮廓定义为非文字轮廓; 若存在非文字轮廓,将所述非文字轮廓从所述第一轮廓信息库中剔除,并将剩余轮廓定义为文字轮廓; 综合所有文字轮廓,计算包含所有文字轮廓的最小有效信息图像页面尺寸,并根据有效信息图像的边界坐标,更新第一轮廓信息库中的轮廓坐标信息。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中图科信数智技术(北京)有限公司,其通讯地址为:100000 北京市海淀区温泉镇创客小镇社区配套商业楼17#楼二层228室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。