Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 天津大学石高涛获国家专利权

天津大学石高涛获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉天津大学申请的专利一种用于分布式数据库的统计信息基数估计方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119377290B

龙图腾网通过国家知识产权局官网在2025-11-28发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411437009.9,技术领域涉及:G06F16/2458;该发明授权一种用于分布式数据库的统计信息基数估计方法是由石高涛;张仔涵设计研发完成,并于2024-10-15向国家知识产权局提交的专利申请。

一种用于分布式数据库的统计信息基数估计方法在说明书摘要公布了:本发明公开了一种用于分布式数据库的统计信息基数估计方法,优化了分布式蓄水池采样算法和基数估计算法。在分布式蓄水池采样过程中,各节点独立采样后,然后将样本发送到作为数据流处理核心的网关节点。网关节点进行样本的汇总处理,并执行进一步的再抽样,提高了数据流处理效率和采样精度。基数估计采用优化的4比特基数估计QuadBitHLL+算法,通过稀疏与密集模式的智能切换与可变长度编码和差分编码技术,根据数据特性动态优化内存使用。通过调整寄存器的大小,采用基础寄存器和偏移寄存器相结合的方法,降低内存使用。此外,该算法的哈希函数采用xxhash,增强了基数估计的效率和准确性。

本发明授权一种用于分布式数据库的统计信息基数估计方法在权利要求书中公布了:1.一种用于分布式数据库的统计信息基数估计方法,其特征在于,包括以下步骤: S1、分布式蓄水池采样,包括: 1-1初始化:在分布式数据库系统的统计信息收集模块中,为每个节点i分配一个大小为K的蓄水池Ri,其中,K仅表示每个节点i本地存储的数据样本数量; 1-2局部采样:通过统计信息收集模块中的存储接口获取数据项x,每个节点i独立地对读取的数据进行采样,并判断蓄水池Ri的当前大小,对于每个数据项x进行如下操作: 1-2-1如果蓄水池Ri的当前大小<K,则直接将数据项x添加到蓄水池Ri中; 1-2-2如果蓄水池Ri的当前大小=K,则生成一个从1到当前处理的数据项总数的随机整数j,如果j≤K,则将蓄水池Ri中的第j个元素替换为当前数据项x; 1-3全局采样:所有节点的蓄水池R1,R2,...,Rn将被合并成一个全局蓄水池Rg下,如果全局蓄水池Rg的大小>K,则重复执行步骤1-2-2至全局蓄水池Rg的大小=K为止,该全局蓄水池Rg包含了来自整个分布式数据库系统的样本集; S2、4比特基数统计算法,包括: 2-1模式定义与算法初始化,包括: 在4比特基数统计算法中,包括密集模式和稀疏模式,其中: 所述密集模式算法用于处理数据集基数估计所需内存达到最大内存阈值的情况,此时,算法会分配和维护一个完整的寄存器数组; 所述稀疏模式用于处理数据集基数估计所需内存低于所述密集模式使用的最大内存阈值的情况,此时,算法仅记录实际触及的寄存器索引和相应的计数值; 在4比特基数统计算法中,选择xxhash作为算法的哈希函数; 在4比特基数统计算法中,算法参数设置如下: sparse:是否要用稀疏表示; p:密集模式下的精度; p′:稀疏模式下的精度,p′>p; m:桶的数目; αm:用于偏差较正; tmpSet:临时集合; sparseList:可以存储在稀疏表示中的数组,记为稀疏列表; M:寄存器; b:基础寄存器; capacity:偏移寄存器最大容量; 2-2稀疏模式和密集模式的智能切换和对于密集模式下寄存器M大小的调整, 对基于步骤S1中获取的样本集中的每个元素ν,进行如下操作: 2-2-1读取样本集中的一个元素; 2-2-2利用哈希函数xxhash计算当前元素的哈希值hν; 如果sparse==false,采用密集模式,执行步骤2-2-3; 如果sparse==true,采用稀疏模式,执行步骤2-2-4 2-2-3进行寄存器M大小的调整,从而在寄存器M中更新对应的最大前导零zeros,过程如下: 首先,初始化基础寄存器b和所有寄存器Mn为0,其中n的取值范围为[0,m; 从哈希值hν中,提取密集模式下的精度p位,计算出寄存器的索引n,更新与该索引n对应的寄存器;提取除精度p位之外剩余位,计算最大前导零zeros; 如果最大前导零zeros减去基础寄存器b大于或等于偏移寄存器最大容量capacity,则检测到偏移量溢出;以所有寄存器M中的最小值替换基础寄存器b的容量,并根据基础寄存器b的当前容量更新所有寄存器M的容量;执行步骤2-3; 如果最大前导零zeros减去基础寄存器b小于偏移寄存器最大容量capacity,将最大前导零zeros与寄存器Mn作比较,取两者之间大值更新Mn; 读取样本集中的下一个元素;返回步骤2-2-2; 2-2-4将触及的寄存器索引和相应的计数值通过可变长度编码和差分编码进行压缩并添加到临时集合tmpSet; 如果临时集合tmpSet的大小超过阈值4m100,则执行合并操作,排序并合并到稀疏列表sparseList; 判断稀疏列表sparseList的大小是否超过内存使用阈值4mbits,满足条件,则由稀疏模式切换至密集模式,将稀疏列表sparseList转换为正常的寄存器数组M;否则,读取样本集中的下一个元素,返回步骤2-2-2; 重复上述步骤2-2-2~步骤2-2-4,直至完成样本集中所有元素的操作; 2-3根据当前的模式计算和返回最终的基数估计值,有下述情形之一: 一是,当前的模式为稀疏模式,使用线性计数法计算基数估计值 其中,m是寄存器的总数,V是寄存器M在计数过程中没有记录任何元素的寄存器的数量; 二是,当前的模式为密集模式,使用下式计算基数估计值 其中,m是寄存器的总数,αm是依赖于m的修正系数用以修正偏差,m的取值范围是24~218;m=24时,αm=0.673;m=25时,αm=0.679;m=26时,αm=0.709;m=27~218,αm=0.72131+1.079m。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人天津大学,其通讯地址为:300072 天津市南开区卫津路92号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。