中储粮成都储藏研究院有限公司李月获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中储粮成都储藏研究院有限公司申请的专利分布式爬虫方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116701742B 。
龙图腾网通过国家知识产权局官网在2026-04-28发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310749566.3,技术领域涉及:G06F16/951;该发明授权分布式爬虫方法及系统是由李月;范运乾;刘靖椿;毛利飞;李艺博;田丹;刘丹;田淼;吴少智设计研发完成,并于2023-06-25向国家知识产权局提交的专利申请。
本分布式爬虫方法及系统在说明书摘要公布了:本发明涉及爬虫领域,具体涉及一种分布式爬虫方法及系统,提高了数据爬取的效率、数据爬取的调度能力以及灵活性。方案包括采集URL数据,并将爬取过的URL数据保存到URL数据集合中,对采集的URL进行哈希计算,若计算结果不属于所述URL数据集合,则将该URL加入任务节点,否则抛弃该URL;采用神经网络对URL进行蒸馏,对超出预设长度的URL进行截取,将蒸馏后的结果作为特定特征;建立DQN模型,将所述特定特征输入至DQN模型中,根据子节点吞吐量动态分配爬取任务,进行数据抓取;通过知识图谱在数据抓取过程中对偏好数据进行挖掘。本发明适用于数据爬取。
本发明授权分布式爬虫方法及系统在权利要求书中公布了:1.分布式爬虫方法,其特征在于,包括: 步骤1、采集URL数据,并将爬取过的URL数据保存到URL数据集合中,对采集的URL进行哈希计算,若计算结果不属于所述URL数据集合,则将该URL加入任务节点,否则抛弃该URL; 步骤2、采用神经网络对URL进行蒸馏,对超出预设长度的URL进行截取,将蒸馏后的结果作为特定特征;具体的,采用RNN模型对URL进行蒸馏,具体包括:在基本的RNN结构下,加入一层隐藏层,对URL特征进行蒸馏,隐藏层作为全连接层,输出维度为1的向量,用于提取URL特征; 步骤3、建立DQN模型,将所述特定特征输入至DQN模型中,根据子节点吞吐量动态分配爬取任务,进行数据抓取;根据子节点吞吐量动态分配爬取任务具体包括: 首先给出DQN模型输入的系统载荷以及任务参数,所述任务参数包括CPU利用率、内存使用率、队列任务长度、任务处理时延以及URL蒸馏结果; 然后采用DQN模型对目标数据进行无监督学习,使用经验池对多条经验进行保存,所述DQN模型中包括当前值网络与目标值网络,当前值网络用于预测估计的Q值,目标值网络用于预测现实的Q值,目标值网络的计算方式为:,表示学习率; 当前值网络的计算为:,s为当前状态,a为动作,为下一状态,为选择的动作,R为以往的网络参数;计算损失采用如下公式:; 通过神经网络的梯度反向传播来更新当前值网络的所有参数,具体包括:初始化DQN模型,输入当前目标子节点状态,并通过DQN获得所有动作Q值,选择一个动作输入到环境中,获得新状态和奖励,然后计算目标值网络,计算损失,并更新网络,最后将该动作状态加入到记忆单元中,r表示奖励; 步骤4、通过知识图谱在数据抓取过程中对偏好数据进行挖掘,包括识别抓取文本中的实体,将识别到的实体与知识库中的实体进行链接,为实体标注上统一的ID,在实体链接的基础上,从抓取文本中提取实体之间的关系,同时在抓取时构建URL与实体间联系,选择偏好实体,对需抓取URL进行排序,使得抓取目标实体关联URL的优先级更高。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中储粮成都储藏研究院有限公司,其通讯地址为:610073 四川省成都市青羊区广富路239号32幢;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励