人工智能与数字经济广东省实验室(深圳)何玉林获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉人工智能与数字经济广东省实验室(深圳)申请的专利一种基于遗传算法的Spark多目标数据分区优化方法、系统、终端及存储介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN121681597B 。
龙图腾网通过国家知识产权局官网在2026-05-05发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202610181744.0,技术领域涉及:G06F16/2453;该发明授权一种基于遗传算法的Spark多目标数据分区优化方法、系统、终端及存储介质是由何玉林;贺家豪;李旭;叶璇设计研发完成,并于2026-02-09向国家知识产权局提交的专利申请。
本一种基于遗传算法的Spark多目标数据分区优化方法、系统、终端及存储介质在说明书摘要公布了:本发明涉及数据处理领域,公开了一种基于遗传算法的Spark多目标数据分区优化方法、系统、终端及存储介质,所述方法包括:将数据分区建模为负载均衡、Shuffle成本与数据局部性的多目标优化问题;基于多目标优化问题构建综合适应度函数,采用遗传算法随机生成分区方案作为初始种群,通过选择、交叉、变异与精英保留操作迭代搜索,得到最优分区方案;进而基于该方案为高频键建立优化分区映射,为低频键配置哈希回退函数;最终在Spark任务执行中依据数据键类型查询映射或计算回退函数,完成数据分区。本发明显著改善各节点间负载均衡,同时降低Shuffle阶段的网络传输开销,在高度倾斜数据集上实现综合性能提升。
本发明授权一种基于遗传算法的Spark多目标数据分区优化方法、系统、终端及存储介质在权利要求书中公布了:1.一种基于遗传算法的Spark多目标数据分区优化方法,其特征在于,所述的基于遗传算法的Spark多目标数据分区优化方法包括: 对待处理的Spark数据集进行分布式采样,得到数据的键频率分布,根据所述键频率分布,将数据分区问题形式化为多目标优化问题,所述多目标优化问题包括负载均衡目标、Shuffle成本目标和数据局部性目标; 基于所述负载均衡目标、所述Shuffle成本目标和所述数据局部性目标构建综合适应度函数; 随机生成多个分区方案,将每个分区方案作为遗传算法中的一个个体,根据所有个体构成初始种群,并基于所述综合适应度函数,计算所述初始种群中每个个体的适应度值; 以所述初始种群和所述初始种群中每个个体的适应度值为起点进行多次迭代,并在每次迭代得到的新种群中,对所述新种群的个体进行适应度评估,将迭代过程中适应度最高的个体所代表的分区方案作为最优分区方案; 根据所述最优分区方案构建用于高频键的优化分区映射,并为低频键配置哈希回退机制; 获取Spark任务执行过程中输入的数据键,若所述数据键为高频键,则通过查询所述优化分区映射确定所述高频键的目标分区,若所述数据键为低频键,则执行所述哈希回退机制,确定所述低频键的目标分区; 所述对待处理的Spark数据集进行分布式采样,得到数据的键频率分布,根据所述键频率分布,将数据分区问题形式化为多目标优化问题,具体包括: 以预先配置的采样率对待处理的Spark数据集进行随机采样,并通过分布式聚合操作统计各键的出现频率,得到键频率分布; 若所述键频率分布中唯一键的数量超过预设阈值,则选择频率最高的前预设数量个键作为待优化的高频键子集; 基于所述键频率分布及所述高频键子集,将所述负载均衡目标、所述Shuffle成本目标与所述数据局部性目标分别量化为数学表达式,以构成所述多目标优化问题; 所述获取Spark任务执行过程中输入的数据键,若所述数据键为高频键,则通过查询所述优化分区映射确定所述高频键的目标分区,若所述数据键为低频键,则执行所述哈希回退机制,确定所述低频键的目标分区,具体包括: 在Spark任务的每个执行器上,接收待处理的数据记录,并从所述数据记录中提取数据键; 判断所述数据键是否存在于所述优化分区映射的键集合中,若存在,则所述数据键为高频键,从所述优化分区映射中查找出与所述高频键对应的分区索引,并将所述分区索引作为所述高频键的目标分区; 若不存在,则所述数据键为低频键,将所述低频键输入预设的哈希函数进行计算得到哈希值,并将所述哈希值与总分区的数量进行取模运算,将运算结果作为所述低频键的目标分区。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人人工智能与数字经济广东省实验室(深圳),其通讯地址为:518107 广东省深圳市光明区玉塘街道科润大厦;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励