湖南兴盛优选网络科技有限公司陈奉刚获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉湖南兴盛优选网络科技有限公司申请的专利一种数据湖长尾数据的优化方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115168807B 。
龙图腾网通过国家知识产权局官网在2025-12-09发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210780866.3,技术领域涉及:G06F17/18;该发明授权一种数据湖长尾数据的优化方法是由陈奉刚设计研发完成,并于2022-07-04向国家知识产权局提交的专利申请。
本一种数据湖长尾数据的优化方法在说明书摘要公布了:本发明公开了一种数据湖长尾数据的优化方法,采集一定周期内的数据[1,T];拟合求出这段时间内的幂律;求出分割点:当[1,X]的数据量与总量[1,T]的比值为&时,则X为数据中的分割点;对于分割点前的数据,将新数据分为update数据和insert数据,分别写入log文件和base文件;对于分割点后的数据,不管是否存在于base文件中,都将该数据强制写入该base文件对应log文件中。本发明在MOR的长尾任务中,加速写入性能,可减少60%以上的index资源,对于数据湖查询,将小文件合并成大文件,减少数据扫描量,同时数据管理更合理,大大优化条件查询的速度。
本发明授权一种数据湖长尾数据的优化方法在权利要求书中公布了:1.一种数据湖长尾数据的优化方法,其特征在于,包括以下步骤: 采集一定周期内的数据[1,T],T为数据周期长度; 拟合求出这段时间内的幂律分布式,所述幂律分布式: ; 两边求10为底的对数得到: lgY=lga‑blgX令y=lgY,x=lgX,c=lga得到: y=c‑bx其中c和b先按天统计一段时间内每天的数据增量,然后采用最小二乘法求出,再通过求出a,最后得到幂律分布方程式,其中T为数据周期长度,b为指数系数; 求出分割点:当[1,X]的数据量与总量[1,T]的比值为时,则X为数据中的分割点,为置信空间; 对于分割点前的数据,将新数据分为update 数据和 insert 数据,分别写入 log文件和base文件; 对于分割点后的数据,不管是否存在于已有的base文件中,都将该数据强制写入log文件中,将每条数据重新分组,使得每条数据确定唯一的所属base文件; 分组后,分区内不再产生新的base文件,所有的数据都写入对应的log文件,读取数据时采用left join方式;系统定时将分组后的base文件和log文件合并,当单个base文件达到一定量时,再次分区。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人湖南兴盛优选网络科技有限公司,其通讯地址为:410205 湖南省长沙市高新开发区青山路662号芯城科技园二期1号栋802房;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励