厦门市美亚柏科信息股份有限公司王斯福获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉厦门市美亚柏科信息股份有限公司申请的专利一种爬取贴文过程中的数据排重方法及终端获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114238732B 。
龙图腾网通过国家知识产权局官网在2025-11-07发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202111312377.7,技术领域涉及:G06F16/951;该发明授权一种爬取贴文过程中的数据排重方法及终端是由王斯福;许剑峰;朱振水;李国庆设计研发完成,并于2021-11-08向国家知识产权局提交的专利申请。
本一种爬取贴文过程中的数据排重方法及终端在说明书摘要公布了:本发明公开一种爬取贴文过程中的数据排重方法,通过当前链接接收页面数据的同时获取数据中的多组关键字段,并将多组关键字段组合并生成与页面数据对应的第一关键值,当内网中存在与当前数据的第一关键值相同的另一第一关键值时,表示当前数据为重复数据,将其排除,实现第一次排重;然后再获取当前链接信息,当前链接信息与预设的关键字段组合并生成与页面数据对应的第二关键值,当内网中不存在与当前第二关键值相同的另一第二关键值时,则判断为新数据,否则判断为重复数据,实现第二次排重;通过比较第一关键值和第二关键值对接收数据进行两次排重,极大降低了从外网爬取到相同数据的可能性,降低爬取数据过程中数据的重复率。
本发明授权一种爬取贴文过程中的数据排重方法及终端在权利要求书中公布了:1.一种爬取贴文过程中的数据排重方法,其特征在于,包括步骤: 根据当前链接接收页面数据,具体包括:通过kafka获取页面内的实时数据,作为所述页面数据; 获取所述页面数据中的多组关键字段,将多组所述关键字段组合并生成与所述页面数据对应的第一关键值; 判断所述第一关键值是否已存在,若否,则根据所述当前链接获取当前链接信息,所述判断所述第一关键值是否已存在具体包括:通过redis以所述第一关键值为key缓存所述第一关键值对应的所述页面数据;判断所述页面数据是否缓存成功,若否,则所述第一关键值已存在;当redis数据库以所述第一关键值为key对数据进行缓存操作时,若数据缓存成功则表示所述第一关键值对应的数据为新数据,若缓存失败则为重复数据;所述根据所述当前链接获取当前链接信息包括:设置预切割位置,根据所述预切割位置对所述当前链接进行切割;保留所述预切割位置之前的数据,得到所述当前链接信息;所述预切割位置设置为URL链接中问号之后的数据位,保留URL链接中问号之前的参数,舍弃URL链接中问号之后的参数; 将所述当前链接信息与预设的所述关键字段组合并生成与所述页面数据对应的第二关键值,通过哈希算法在生成第一关键值和第二关键值的过程中进行SM3加密计算生成对应的哈希值,将不同长度关键字段组合生成固定长度数据值; 判断所述第二关键值是否已存在,若否,则将所述页面数据标记为新数据;若是,将所述页面数据标记为重复数据;所述判断所述第二关键值是否已存在,若是,将所述页面数据标记为重复数据包括:判断所述第二关键值是否已存在,若是,则根据所述第二关键值将所述页面数据覆盖所述数据库内的与所述第二关键值对应的数据。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人厦门市美亚柏科信息股份有限公司,其通讯地址为:361000 福建省厦门市软件园二期观日路12号美亚柏科大厦;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励