国家计算机网络与信息安全管理中心周炎龙获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉国家计算机网络与信息安全管理中心申请的专利基于数据不兼容和包外估计的反爬虫数据估值方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120123814B 。
龙图腾网通过国家知识产权局官网在2025-09-09发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510176928.3,技术领域涉及:G06F18/24;该发明授权基于数据不兼容和包外估计的反爬虫数据估值方法及系统是由周炎龙;焦煜祺;朱天;黄恬;戴光耀;张阳;于天鹤;郝劭辰;龙欣健;薛俊泽;吴潇婷;杨亮;刘鑫设计研发完成,并于2025-02-18向国家知识产权局提交的专利申请。
本基于数据不兼容和包外估计的反爬虫数据估值方法及系统在说明书摘要公布了:本发明提出了一种基于数据不兼容性和包外估计的反爬虫数据估值方法及系统,涉及网络安全技术领域。本发明的技术要点包括:利用噪声数据和干净数据之间存在的数据不兼容性,通过计算服务器访问行为数据集的自扩展误差将数据集划分为有限且不相交的不兼容数据子集;利用不相交数据子集的兼容属性,通过多轮投票从不兼容数据子集中识别干净数据子集;基于干净数据子集对训练数据进行包外估计,进而进行反爬虫数据估值。本发明能够动态识别并移除训练数据集中存在的噪声数据,避免了噪声数据对包外估计的不良影响,从而有效提升基于包外估计的反爬虫数据估值方法对噪声的鲁棒性。本发明相比于传统方法在处理反爬虫数据估值时,表现出显著的优越性。
本发明授权基于数据不兼容和包外估计的反爬虫数据估值方法及系统在权利要求书中公布了:1.基于数据不兼容和包外估计的反爬虫数据估值方法,其特征在于,包括: 获取服务器访问行为数据集,所述服务器访问行为数据集包括爬虫行为数据和正常访问行为数据; 基于自扩展误差将服务器访问行为数据集划分为互不相交的不兼容数据子集,包括:对服务器访问行为数据集进行多轮循环采样,在每一轮循环中缩小采样大小,即下一轮采样数据集Dm+1为本轮初始采样数据集Dm减去本轮采样获得的不兼容数据子集D'm;直至采样大小为0,服务器访问行为数据集基于自扩展误差被划分为多个不兼容数据子集D1',...,DM';其中,对于每一轮循环采样,采样规则是: 式中,S表示本轮候选不兼容数据子集;Dm表示本轮初始数据集;St-1表示本轮第t-1次循环中采样得到的数据子集;|St-1|表示数据子集St-1的数据量,β∈0,1表示一个固定大小的阈值,β|St-1|表示采样大小;xj表示第j个行为数据,yj表示第j个行为数据的标签;et-1xj,yj表示本轮第t-1次循环的自扩展误差; 利用本轮第t次循环采样得到的数据子集St训练分类器ft,并利用分类器ft的损失函数更新自扩展误差etxj,yj;所述自扩展误差etxj,yj的更新公式为: etxj,yj=η·et-1xj,yj+1-η·lyj,ftxj 其中,ftxj表示分类器ft对第j个行为数据xj的预测标签,η∈0,1表示软更新的权重系数;l·,·表示分类器ft的损失函数;e0xj,yj=0; 每一轮循环采样达到终止条件时停止本轮循环,得到本轮不兼容数据子集D'm; 基于不相交数据子集的兼容性定理,从不兼容数据子集中识别干净数据子集; 基于干净数据子集的包外估计对服务器访问行为数据集中的访问行为数据进行估值。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人国家计算机网络与信息安全管理中心,其通讯地址为:100029 北京市朝阳区裕民路甲3号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。