当前位置 : 首页 > 专利喜报 > 之江实验室高丰获国家专利权

之江实验室高丰获国家专利权

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

龙图腾网获悉之江实验室申请的专利基于强化学习的推理请求调度方法、装置、设备及介质获国家发明授权专利权，本发明授权专利权由国家知识产权局授予，授权公告号为：CN120950225B 。

龙图腾网通过国家知识产权局官网在2026-03-06发布的发明授权授权公告中获悉：该发明授权的专利申请号/专利号为：202511491840.7，技术领域涉及：G06F9/48；该发明授权基于强化学习的推理请求调度方法、装置、设备及介质是由高丰;王雪;牛昊一;杨耀;杨建明;孙铭鸽设计研发完成，并于2025-10-17向国家知识产权局提交的专利申请。

本基于强化学习的推理请求调度方法、装置、设备及介质在说明书摘要公布了：本申请涉及人工智能技术领域，公开了一种基于强化学习的推理请求调度方法、装置、设备及介质，应用于推理集群路由调度系统，其中方法包括：基于当前用于表征系统运行情况的当前状态空间，通过强化学习模型确定调度推理请求相匹配的目标模型实例；接收目标模型实例对推理请求依次经过预填充阶段和解码阶段进行处理返回的结果返回给用户；其中，强化学习模型将评估期望值和选择动作分别置于目标网络和主网络中，主网络根据当前状态空间输出各个动作的期望值并选择最大期望值的动作，目标网络评估执行选择的动作后的目标期望值，更新网络参数，以完成强化学习模型的训练。本申请提供的技术方案能够平衡模型实例的节点负载均衡和KV缓存命中率。

本发明授权基于强化学习的推理请求调度方法、装置、设备及介质在权利要求书中公布了：1.一种基于强化学习的推理请求调度方法，其特征在于，应用于推理集群路由调度系统，所述方法包括：获取用户提交的推理请求；基于当前用于表征系统运行情况的当前状态空间，通过预先构建的强化学习模型确定调度所述推理请求相匹配的目标模型实例；其中，所述强化学习模型通过以下方式训练得到：获取用于表征每个模型实例在不同阶段队列长度的节点状态、用于表征推理请求的输入序列长度的请求状态和KV缓存分布状态，构建状态空间；确定每个时间步可采取的动作集合作为动作空间；其中，所述动作集合包括将推理请求调度到对应的模型实例操作和不采取调度操作；基于所述状态空间和所述动作空间，训练强化学习模型，根据所述状态空间选择所述动作空间中的最优动作，并确定执行所述最优动作后的目标期望值；确定主网络选择所述最优动作对应的预测期望值，根据所述预测期望值和所述目标期望值之间的损失函数，通过最小化所述损失函数更新网络参数，直至满足预设条件，得到训练好的强化学习模型；接收所述目标模型实例对所述推理请求依次经过预填充阶段和解码阶段进行处理返回的结果，并将所述结果返回给所述用户；其中，所述强化学习模型将评估期望值和选择动作分别置于目标网络和主网络中，所述主网络根据所述当前状态空间输出各个动作的期望值并选择最大期望值的动作，所述目标网络评估执行选择的动作后的目标期望值，更新网络参数，以完成所述强化学习模型的训练。

如需购买、转让、实施、许可或投资类似专利技术，可联系本专利的申请人或专利权人之江实验室，其通讯地址为：311121 浙江省杭州市余杭区中泰街道科创大道之江实验室；或者联系龙图腾网官方客服，联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

请提出您的宝贵建议，有机会获取IP积分或其他奖励

之江实验室高丰获国家专利权

热门推荐

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务