中山大学苏俊获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中山大学申请的专利一种重复数据删除方法和过滤器获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN118535539B 。
龙图腾网通过国家知识产权局官网在2025-10-03发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202410674399.5,技术领域涉及:G06F16/174;该发明授权一种重复数据删除方法和过滤器是由苏俊;付印金;卢宇彤设计研发完成,并于2024-05-28向国家知识产权局提交的专利申请。
本一种重复数据删除方法和过滤器在说明书摘要公布了:本申请提供一种重复数据删除方法和过滤器,该方法包括步骤:对数据块进行哈希计算,获取指纹信息;计算向量和候选桶;查询向量是否存在于结构数据库中;若未存在,则将向量插入到候选桶中;若存在,则查询指纹信息是否存在于磁盘数据库中;若存在,则将向量的副本删除;若未存在,则将向量插入到候选桶中。本申请通过第一空槽索引为空插槽指示位置,在插入向量时能快速分辨插槽是否为空,提高了插入效率;本申请的候选桶与插槽数组、BitSet组和CountingSet组关联,当处理数据量逐渐增大时,在BitSet组或CountingSet组中进行查询,提供了稳定的高查询效率,显著降低了内存开销;且本申请通过判断空间利用率,适时的对插槽数组进行扩容,避免了重定位操作,提高了插入性能。
本发明授权一种重复数据删除方法和过滤器在权利要求书中公布了:1.一种重复数据删除方法,其特征在于,包括步骤: 将待处理的文件对象切割为多个数据块,对每个所述数据块进行哈希计算,获取所述数据块对应的指纹信息; 计算获得待查询的所述指纹信息的向量和其对应的候选桶; 查询所述向量是否存在于与所述候选桶相关联的结构数据库中,包括步骤: 根据存储桶及其内部存储的所述向量的数量,计算获得所述存储桶的空间利用率;其中,所述存储桶包括多个所述候选桶; 若所述空间利用率不大于第一设定阈值或第二设定阈值,则查询所述向量是否存在于与所述候选桶相关联的插槽数组中; 若所述空间利用率大于所述第二设定阈值且不大于第三设定阈值,则根据所述插槽数组,构建与所述候选桶相关联的BitSet组,并查询所述向量是否存在于对应的所述BitSet组中; 若所述空间利用率大于所述第三设定阈值,则根据所述插槽数组和BitSet组,构建与所述候选桶相关联的CountingSet组,并查询所述向量是否存在于对应的所述CountingSet组中; 若所述向量未存在于所述结构数据库中,则将所述向量插入到对应的所述候选桶中,包括步骤: 所述候选桶的数量为两个,选择其中一个所述候选桶作为目标插入桶; 若与所述目标插入桶相关联的所述BitSet组和CountingSet组均未构建,则将所述向量插入到与所述目标插入桶相关联的所述插槽数组的第一空槽索引所指示的插槽位置处,并重新计算所述第一空槽索引; 若与所述目标插入桶相关联的所述BitSet组已构建,且所述BitSet组的对应位置的数值为1,则将所述向量插入到所述第一空槽索引所指示的插槽位置处,并重新计算所述第一空槽索引;若所述BitSet组的对应位置的数值为0,则将所述BitSet组的对应位置的数值设置为1; 若与所述目标插入桶相关联的所述CountingSet组已构建,则将所述CountingSet组中的对应计数器的数值加一; 若所述向量存在于所述结构数据库中,则查询所述向量对应的所述指纹信息是否存在于磁盘数据库中; 若所述指纹信息存在于所述磁盘数据库中,则将所述指纹信息的向量的副本删除;若所述指纹信息未存在于所述磁盘数据库中,则将所述指纹信息的向量插入到对应的所述候选桶中; 其中,所述结构数据库包括插槽数组、BitSet组和CountingSet组。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中山大学,其通讯地址为:510000 广东省广州市新港西路135号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励