西安烽火软件科技有限公司赵智峰获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉西安烽火软件科技有限公司申请的专利一种基于Spark SQL的SortMergeJoin连接计算优化方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN117370380B 。
龙图腾网通过国家知识产权局官网在2026-04-07发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202311192742.4,技术领域涉及:G06F16/2453;该发明授权一种基于Spark SQL的SortMergeJoin连接计算优化方法是由赵智峰;李岩;刘奕洋;郑伟;卢兴杨设计研发完成,并于2023-09-15向国家知识产权局提交的专利申请。
本一种基于Spark SQL的SortMergeJoin连接计算优化方法在说明书摘要公布了:本发明公开了一种基于SparkSQL的SortMergeJoin连接计算优化方法,涉及大数据、数据库领域;本发明通过对原生SparkSQL逻辑执行计划的匹配,重新实现自定义执行计划编排;通过减少作业本身的Shuffle操作,在提升了作业本身的执行效率,同时也提升了SparkSQL集群总体的IO效率;本发明通过对SparkSQL物理执行计划的重新编排,避免了数据的非必要Shuffle操作,加快了SQL作业的执行效率,另外由于减少了数据Shuffle的次数,非必要的IO资源被释放出来,因此也提升了SparkSQL集群总体的IO效率。
本发明授权一种基于Spark SQL的SortMergeJoin连接计算优化方法在权利要求书中公布了:1.一种基于SparkSQL的SortMergeJoin连接计算优化方法,其特征在于:通过对原生SparkSQL逻辑执行计划的匹配,重新实现自定义执行计划编排; 其中,SortMergeJoin是SparkSQL进行关联计算的一种Join策略,其对应的SparkSQL物理执行计划为SortMergeJoinExec;SortMergeJoinExec执行计划是一种二元执行计划,其包括左表执行计划与右表执行计划;SparkSQL是ApacheSpark软件的一个SQL模块,用于处理结构化数据,Join是一种常用的SQL连接计算操作; 具体包含如下步骤: 步骤1,进行SQL规则匹配,如果当前执行计划为SortMergeJoin类型的执行计划,并且JOIN类型为LeftJoin类型,则继续判断其左表执行计划是否存在聚合分组计算; 其中,SortMergeJoin是一种基于排序的关联计算操作; 步骤2,判断左表执行计划分组聚合列信息是否包含JOIN列集合信息,如果满足条件则执行后续优化逻辑,反之则结束优化流程; 步骤3,提取JOIN左表执行计划,此时左表执行计划为Hash分组聚合计算类型的执行计划,Hash分组聚合执行计划分两阶段执行,第一阶段为Partial阶段,进行聚合计算并进行数据Shuffle,第二阶段为Final阶段,读取前阶段Shuffle数据完成最终聚合计算; 其中,Hash分组是指对表数据按照指定的列,通过哈希算法计算出一个新的值作为当前数据的标识; Partial阶段为为数据局部计算阶段; Shuffle操作是指在分布式计算中重新分配和重新组织数据的过程; Final阶段为数据全局计算阶段; 步骤4,提取JOIN左表执行计划的数据排序操作,将步骤3生成的Shuffle执行计划作为Sort执行计划的子执行计划,同时修改Sort执行计划的排序的规则,以FinaHash聚合的分组列顺序条件进行排序构建; 步骤5,提取JOIN左表Final阶段Hash聚合执行计划,将步骤4生成的Sort执行计划作为其子执行计划,并使用当前执行计划作为JOIN的左侧完整计算逻辑。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人西安烽火软件科技有限公司,其通讯地址为:710077 陕西省西安市长安区坤元路678号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励