Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
专利交易 商标交易 积分商城 国际服务 IP管家助手 科技果 科技人才 会员权益 需求市场 关于龙图腾 更多
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 福建省速点信息科技有限公司杨珺凯获国家专利权

福建省速点信息科技有限公司杨珺凯获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉福建省速点信息科技有限公司申请的专利一种基于动态推理图优化的大语言模型低延迟推理方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN121072787B

龙图腾网通过国家知识产权局官网在2026-04-07发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511621667.8,技术领域涉及:G06N5/04;该发明授权一种基于动态推理图优化的大语言模型低延迟推理方法是由杨珺凯设计研发完成,并于2025-11-07向国家知识产权局提交的专利申请。

一种基于动态推理图优化的大语言模型低延迟推理方法在说明书摘要公布了:本发明公开一种基于动态推理图优化的大语言模型低延迟推理方法,提出一种基于动态推理图优化的低延迟推理方法;构建可重写并回放的模板推理图,按输入形状向量建立模板库;推理时以距离阈值匹配模板,超阈值仅对注意力前馈子图进行局部再捕获;执行前向执行图注入键值缓存页指针、数值精度与适配器标识并回放;划分预填充与解码子图实施图级调度;对关键算子在标准快速内核及不同精度间运行时切换;通过影子页表与引用计数实现推测分支的页级回退,并基于在线指标自适应调整批量与模板选择;与现有方案相比,本发明降低再捕获与启动开销,抑制尾延迟与抖动,提高硬件利用率与服务稳定性。

本发明授权一种基于动态推理图优化的大语言模型低延迟推理方法在权利要求书中公布了:1.一种基于动态推理图优化的大语言模型低延迟推理方法,其特征在于,包括以下步骤: 模板图构建步骤:构建支持重写与回放的模板推理图,所述模板推理图的节点表示算子实例,边表示数据依赖和调度依赖; 模板库建立步骤:将所述模板推理图按输入形状向量v=b,t,d分类存储于模板图库对应的形状桶中,每个模板推理图保留用于注入运行参数的占位符; 模板匹配与生成步骤:在模型推理时,根据当前推理请求的输入形状向量在所述模板图库中计算距离度量并获取距离最小的模板推理图; 如果计算得到的最小距离小于预设阈值δ,则选取该模板推理图并据此生成针对当前输入的执行图;否则,在保持模板推理图拓扑结构不变的情况下,对其进行局部图捕获更新以生成与当前输入匹配的执行图; 参数注入步骤:在执行所述执行图之前,向所述执行图注入相应的运行参数,包括KV内存页的起始地址、数值计算精度标志以及适配器模型句柄,其中所述适配器模型句柄用于加载预配置的低秩适应模型参数; 图执行步骤:执行注入运行参数后的所述执行图以完成模型推理,建立执行图中算子节点与所述KV内存页之间的绑定关系;在执行图推理完成后,根据执行图的拓扑结构和所述KV内存页的引用计数,释放各算子节点所绑定的KV内存页; 所述输入形状向量v=b,t,d中的b表示批处理大小,t表示序列长度或时间步数,d表示特征向量维度; 在未匹配到满足所述阈值δ的模板推理图时,对模板推理图执行的所述局部图捕获更新包括仅更新注意力机制子图和多层感知机子图,并保持模板推理图其余拓扑结构不变。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人福建省速点信息科技有限公司,其通讯地址为:362300 福建省泉州市南安市溪美镇山工业区;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。