百度在线网络技术(北京)有限公司董奕获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉百度在线网络技术(北京)有限公司申请的专利网络爬虫黑名单的生成方法、识别方法及装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114418028B 。
龙图腾网通过国家知识产权局官网在2025-08-19发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210095778.X,技术领域涉及:G06F18/241;该发明授权网络爬虫黑名单的生成方法、识别方法及装置是由董奕设计研发完成,并于2022-01-26向国家知识产权局提交的专利申请。
本网络爬虫黑名单的生成方法、识别方法及装置在说明书摘要公布了:本公开提供了一种网络爬虫黑名单的生成方法、识别方法及装置,涉及人工智能技术领域中的大数据和机器学习,方案包括:获取第一时间段的网络访问流量,根据第二时间段的网络访问流量对第一时间段的网络访问流量进行分类处理,得到第一时间段的网络访问流量的分类结果,第一时间段的网络访问流量的分类结果表征第一时间段的网络访问流量是否为网络爬虫流量,第二时间段为第一时间段之前的时间段,根据第一时间段的网络访问流量的分类结果、以及第二时间段的网络访问流量的分类结果,生成网络爬虫黑名单,避免了采用人工方式生成网络爬虫黑名单造成的准确性偏低的弊端,提高了生成的网络爬虫黑名单的准确性和可靠性。
本发明授权网络爬虫黑名单的生成方法、识别方法及装置在权利要求书中公布了:1.一种网络爬虫黑名单的生成方法,包括: 获取第一时间段的网络访问流量; 提取所述第一时间段的网络访问流量的访问特征数据,其中,所述访问特征数据用于区分不同的访问用户;所述访问特征数据中,至少有一个访问特征数据被标注有样本标记,被标注有样本标记的访问特征数据对应的网络访问流量为网络爬虫流量; 根据所述访问特征数据对基分类器进行训练,得到训练后的基分类器,所述训练后的基分类器为多个;所述基分类器为根据第二时间段的网络访问流量训练得到的; 对被标注有样本标记的访问特征数据的样本标记进行清除处理; 基于训练后的基分类器对清除处理后的访问特征数据进行分类处理,得到各训练后的基分类器各自对应的分类结果,根据各训练后的基分类器各自对应的分类结果生成所述第一时间段的网络访问流量的分类结果,其中,所述第一时间段的网络访问流量的分类结果表征所述第一时间段的网络访问流量是否为网络爬虫流量,所述第二时间段为所述第一时间段之前的时间段; 根据所述第一时间段的网络访问流量的分类结果、以及所述第二时间段的网络访问流量的分类结果,生成网络爬虫黑名单; 所述方法还包括: 根据所述第一时间段的网络访问流量生成新的基分类器; 根据各训练后的基分类器各自对应的分类结果,确定各训练后的基分类器中最小分类准确率的基分类器,并将新的基分类器替换最小分类准确率的基分类器; 其中,新的基分类器、以及各训练后的基分类器中的其他基分类器用于对第三时间段的网络访问流量进行分类处理,所述第三时间段为所述第一时间段的下一时间段。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人百度在线网络技术(北京)有限公司,其通讯地址为:100085 北京市海淀区上地十街10号百度大厦三层;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。