Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 山东亿云信息技术有限公司王瑞霜获国家专利权

山东亿云信息技术有限公司王瑞霜获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉山东亿云信息技术有限公司申请的专利一种面向互联网采集的栏目页智能获取方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115858963B

龙图腾网通过国家知识产权局官网在2025-12-09发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211705685.0,技术领域涉及:G06F16/955;该发明授权一种面向互联网采集的栏目页智能获取方法及系统是由王瑞霜;陈通;曹建;郭磊;杨春;孙露;周长鲁;徐瑶设计研发完成,并于2022-12-29向国家知识产权局提交的专利申请。

一种面向互联网采集的栏目页智能获取方法及系统在说明书摘要公布了:本发明属于数据采集技术领域,提供了一种面向互联网采集的栏目页智能获取方法及系统。该方法包括,根据当前站点url获取网页HTML源代码;根据网页HTML源代码获取当前网页中的所有标签节点;对标签进行过滤,获取有效标签和有效标签信息列表;遍历有效标签信息列表,记当前标签信息为item_a,判断item_a是否满足加入栏目页列表的条件,若是,则加入栏目页列表,否则,不加入栏目页列表;判断站点的深度是否小于设置的采集深度阈值,如果不小于采集深度阈值,结束循环;如果小于采集深度阈值,遍历有效标签信息列表,记当前有效标签的url为当前站点url且站点深度值自增1,迭代循环,直至站点的深度不小于采集深度阈值;返回栏目页列表结果。

本发明授权一种面向互联网采集的栏目页智能获取方法及系统在权利要求书中公布了:1.一种面向互联网采集的栏目页智能获取方法,其特征在于,包括: 步骤1:根据当前站点url获取网页HTML源代码; 步骤2:根据网页HTML源代码获取当前网页中的所有a标签节点; 步骤3:对a标签进行过滤,获取有效a标签和有效a标签信息列表;其中,所述有效a标签为超链接是网页的a标签,所述有效a标签信息列表包括有效a标签的href属性值及标题信息; 步骤4:遍历有效a标签信息列表,记当前a标签信息为item_a,判断item_a是否满足加入栏目页列表的条件,若是,则加入栏目页列表,否则,不加入栏目页列表; 步骤5:判断站点的深度是否小于设置的采集深度阈值,如果不小于采集深度阈值,结束循环,执行步骤7;如果小于采集深度阈值,则执行步骤6; 步骤6:遍历有效a标签信息列表,记当前有效a标签的url为当前站点url且站点深度值自增1,继续执行步骤1至步骤5; 步骤7:返回栏目页列表结果; 所述步骤4还包括: 获取item_a页面的列表项信息,记为list_items; 获取item_a页面中的“上一页”a标签信息,记为previous_url; 获取item_a页面中的“下一页”a标签信息,记为next_url; 判断item_a页面类型,记flag_is_index、flag_process_item、flag_add_index_list分别为是否栏目页、是否处理加入栏目列表、是否加入已采集栏目页名单标志位,且flag_is_index初始化为False; 判断item_a是否加入栏目页列表; 所述判断item_a页面类型,记flag_is_index、flag_process_item、flag_add_index_list分别为是否栏目页、是否处理加入栏目列表、是否加入已采集栏目页名单标志位,且flag_is_index初始化为False的过程包括: 如果next_url不为空或previous_url不为空,且list_items的长度大于等于1,则flag_is_index为True;否则,如果list_items的长度大于等于设定的栏目页数据项最小阈值,则flag_is_index为True; 如果flag_is_index为False;则flag_is_index、flag_process_item、flag_add_index_list标志位的值均为False; 如果flag_is_index为True,则进一步判断; 如果next_url为空并且previous_url为空,则flag_is_index、flag_process_item、flag_add_index_list标志位值分别为True, True, False; 如果next_url不为空并且previous_url为空,则flag_is_index、flag_process_item、flag_add_index_list标志位值分别为True,True,True; 如果next_url为空并且previous_url不为空,则flag_is_index、flag_process_item、flag_add_index_list标志位值分别为True,False,True; 如果next_url不为空并且previous_url不为空,则flag_is_index、flag_process_item、flag_add_index_list标志位值分别为True,True,True; 所述判断item_a是否加入栏目页列表的过程包括: 如果flag_is_index为False,表示item_a页面不是栏目页,不加入栏目页列表; 如果flag_is_index为True,表示item_a页面是栏目页,但不能直接加入栏目页列表; 如果flag_add_index_list为True,则将item_a标签url加入已采集栏目页名单index_white_list中; 如果item_a标签的父页面url即parent_url在已采集栏目页名单index_white_list中并且parent_url最后一个“”前的子串在item_a标签的url字符串中,当前页面不加入栏目页列表; 否则,如果item_a标签的url在设定的黑名单中,则不加入栏目页列表; 如果item_a标签的url不在设定的黑名单中,且flag_process_item为True,则提取item_a标签的标题及url信息加入栏目页列表中。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人山东亿云信息技术有限公司,其通讯地址为:250014 山东省济南市高新区新泺大街2008号银荷大厦B座4层;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。