合肥大智慧财汇数据科技有限公司冯卫强获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉合肥大智慧财汇数据科技有限公司申请的专利一种网页信息提取方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119669545B 。
龙图腾网通过国家知识产权局官网在2025-09-23发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411719659.2,技术领域涉及:G06F16/951;该发明授权一种网页信息提取方法及系统是由冯卫强;宋超平;孙菲菲;吴秋平设计研发完成,并于2024-09-26向国家知识产权局提交的专利申请。
本一种网页信息提取方法及系统在说明书摘要公布了:本发明涉及计算机数据处理技术领域,公开了一种网页信息提取方法及系统。该方法先获取待提取网页信息的HTML文本,分别从位置信息、结构信息和内容信息三个维度对HTML文本的每个节点进行特征分析并编码,从而构建HTML文本的节点编码向量集合。再根据所述节点编码向量集合,采用的互信息相似度计算方式,通过结构信息编码计算节点相似程度,判断HTML文本的网页类型,在网页类型为列表网页时提取HTML文本中的第一关键信息,在网页类型为正文网页时提取HTML文本中的第二关键信息。本发明能够提高网页信息提取的准确性和鲁棒性。
本发明授权一种网页信息提取方法及系统在权利要求书中公布了:1.一种网页信息提取方法,其特征在于,包括: 获取待提取网页信息的HTML文本,分别从位置信息、结构信息和内容信息三个维度对HTML文本的每个节点进行特征分析并编码,从而构建HTML文本的节点编码向量集合; 根据所述节点编码向量集合判断HTML文本的网页类型,在网页类型为列表网页时提取HTML文本中的第一关键信息,在网页类型为正文网页时提取HTML文本中的第二关键信息; 其中,HTML文本的节点特征向量集合表示为XNode,XNode={X1,X2,…,Xi,…,XN};式中,Xi表示第i个节点的特征向量,i∈[1,N],N为HTML文本中的节点总数; 表示第i个节点的位置信息编码;表示第i个节点的结构信息编码;表示第i个节点的内容信息编码; 节点的位置信息编码的构建方法如下: 获取当前节点的Xpath路径,对于Xpath路径中的标签部分使用枚举映射方式进行编码,对于Xpath路径中的索引部分直接使用索引序号进行编码,从而获取当前节点基于Xpath路径的位置信息编码; 节点的结构信息编码的构建方法如下: 获取当前节点的所有子节点,依次将各个子节点基于Xpath路径的位置信息编码减去当前节点基于Xpath路径的位置信息编码,将各减法结果汇总以形成当前节点的结构信息编码; 节点的内容信息编码构建方法如下: 统计当前节点的字符总数qA和子节点总数qB,分析当前节点中的超链接数量q1、中文字符数量q2以及标点符号数量q3,并计算当前节点的超链接密度ρ1、中文字符密度ρ2和标点符号密度ρ3,由qA、qB、q1、q2、q3、ρ1、ρ2、ρ3构建当前节点的内容信息编码;其中,ρ1=q1qB;ρ2=q2qA;ρ3=q3qA; 所述根据所述节点编码向量集合判断HTML文本的网页类型包括: 通过互信息计算节点之间的相似度,从而计算出HTML文本的总体节点相似度MI,计算公式为: 式中,Zi'和Zj'分别表示HTML根节点结构信息编码中的两个向量;I·表示两个向量之间的相似度计算函数;z1表示向量Zi'中的一个元素,z2表示向量Zj'中的一个元素;pz1表示z1的边缘概率分布函数;pz2表示z2的边缘概率分布函数;pz1,z2表示z1和z2的联合概率分布函数; 当所述总体节点相似度MI高于预设的相似度阈值时,判断网页类型为列表网页,反之则为正文网页。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人合肥大智慧财汇数据科技有限公司,其通讯地址为:230000 安徽省合肥市蜀山区望江西路99号安高城市广场办2402室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励