北京亿安天下科技股份有限公司王雪芳获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京亿安天下科技股份有限公司申请的专利面向大语言模型的跨GPU并行推理方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN121433908B 。
龙图腾网通过国家知识产权局官网在2026-03-24发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511999182.2,技术领域涉及:G06F9/50;该发明授权面向大语言模型的跨GPU并行推理方法及系统是由王雪芳;杨珍豪设计研发完成,并于2025-12-29向国家知识产权局提交的专利申请。
本面向大语言模型的跨GPU并行推理方法及系统在说明书摘要公布了:本发明涉及数据处理技术领域,具体涉及面向大语言模型的跨GPU并行推理方法及系统。该方法对于已经执行过的历史微批次进行信息统计以及特征提取,确定每个批次在执行过程中产生的预期处理时间与计算执行时间之间的性能偏离量。结合连续多个历史微批次构建多阶段偏移量矩阵,确定历史微批次下的波动模式以及波动强度。采用预测风险的方法确定每个历史微批次下推理系统的状态相对于未来微批次的风险。根据最近的历史微批次的各项基础信息以及风险信息进行时间模拟,实现准确的流水线排空预测。本发明通过对历史微批次的数据提取以及特征分析,确定GPU的协同波动模式之后进行有效的风险预测,实现了对预填充微批次的有效执行时间预测。
本发明授权面向大语言模型的跨GPU并行推理方法及系统在权利要求书中公布了:1.一种面向大语言模型的跨GPU并行推理方法,其特征在于,所述方法包括: 对于历史微批次下的每个阶段,获得每个阶段的队列等待时间和计算执行时间; 基于每个阶段的基础负载处理时间与历史微批次的负载获得预期处理时间,所述基础负载处理时间根据历史微批次的负载大小以及计算执行时间进行更新;获得预期处理时间与计算执行时间之间的性能偏离量; 统计多个连续历史微批次下的所有阶段的所述性能偏离量,获得多阶段性能偏离量矩阵,根据多阶段性能偏离量矩阵获得历史微批次的波动模式以及波动强度; 根据所波动模式和波动强度预测历史微批次的未来微批次的预测强度;根据所述预测强度、下游阶段的队列等待时间、下游阶段的计算执行时间以及每个阶段的性能偏离量,获得每个历史微批次下每个阶段的风险指数; 对于预填充微批次的待分配时刻,以最近的历史微批次中每个阶段的基础负载处理时间进行处理时间模拟,结合每个阶段的风险指数进行时间修正,确定预填充微批次的同步目标时刻;基于所述同步目标时刻在预填充微批次实时处理阶段进行控制命令的反馈;所述基础负载处理时间的更新方法包括: 对于每个阶段,将计算执行时间与微批次的负载的比值作为单位负载处理时间,将所述单位负载处理时间和前一历史微批次下相同阶段的基础负载处理时间按照预设权重进行加权求和,获得所述基础负载处理时间; 所述性能偏离量为所述计算执行时间与所述预期处理时间的差值; 所述获得历史微批次的波动模式以及波动强度,包括: 对所述多阶段性能偏离量矩阵进行奇异值分解,获得左奇异向量矩阵的列向量以及对角矩阵的奇异值;将所述列向量与所有已知波动模式的模板向量进行匹配,将最匹配的已知波动模式作为历史微批次的波动模式,所述奇异值为所述波动强度; 所述确定预填充微批次的同步目标时刻,包括: 将最近历史微批次中每个阶段的基础负载处理时间与预填充微批次的负载进行相乘,获得每个阶段的基线执行时间;将最近历史微批次中每个阶段的风险指数进行归一化处理,将归一化后的风险指数与所述基线执行时间进行相乘,获得时间修正量; 若最近历史微批次的波动模式属于预设的高危模式,则将所述时间修正量和所述基线执行时间的和值作为每个批次的目标执行时间;否则直接将基线执行时间作为目标执行时间; 将预填充微批次的所有批次的目标执行时间累加获得整体目标执行时间,根据所述整体目标执行时间确定所述同步目标时刻。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京亿安天下科技股份有限公司,其通讯地址为:102299 北京市昌平区超前路17号1幢1至11层101-901;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励