浪潮(北京)电子信息产业有限公司胡奇夫获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉浪潮(北京)电子信息产业有限公司申请的专利一种Q网络控制方法、装置及可读存储介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115906998B 。
龙图腾网通过国家知识产权局官网在2026-04-07发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211448100.1,技术领域涉及:G06N3/092;该发明授权一种Q网络控制方法、装置及可读存储介质是由胡奇夫;李茹杨;邓琪;赵雅倩;李仁刚设计研发完成,并于2022-11-18向国家知识产权局提交的专利申请。
本一种Q网络控制方法、装置及可读存储介质在说明书摘要公布了:本申请公开一种Q网络控制方法、装置及可读存储介质,涉及电子信息领域。本申请所提供的Q网络控制方法中预设行为是在行为空间A中随机选择的行为或利用数据库算子在行为空间A选择的最优行为。且从经验池中抽取出多个经验样本,并基于数据库算子计算得到对应的预期收益,最后根据预期收益更新Q网络的参数及向量索引以及目标Q网络的参数及向量索引,其中数据库算子为基于近似最近邻搜索技术实现的算子。与以往的训练控制方法相比,本方案中引入了近似最近邻搜索技术得到数据库算子,从而极大减小了搜索范围。与以往DQN遍历所有的动作空间相比,增加了训练以及决策效率,能够应用于大规模离散行为场景。
本发明授权一种Q网络控制方法、装置及可读存储介质在权利要求书中公布了:1.一种Q网络控制方法,其特征在于,适用于商品推荐场景,包括: 对Q网络以及目标Q网络的参数进行初始化,建立所述Q网络以及所述目标Q网络的向量索引;所述Q网络以及所述目标Q网络采用自适应的行为表示;对同一商品,引入一组基向量;以及根据所处状态的不同,生成各基向量的权重,将基向量加权求和作为商品的嵌入向量;同一商品在不同的状态下有不同的嵌入表示,为每个用户建立了动作嵌入空间;动作嵌入空间的物理意义是兴趣空间; 获取当前环境状态,若所述当前环境状态为空或终止状态,则重置运行环境并获得所述运行环境的初始状态作为更新后的环境状态; 选择并执行预设行为,获取得到环境反馈及更新后的所述环境状态;其中,所述预设行为是在行为空间A中随机选择的行为或利用数据库算子在行为空间A选择的最优行为;动作空间由所有商品组成,动作空间的规模为,动作空间,行为;利用数据库算子在行为空间选择最优行为,无须遍历所有的动作空间; 将所述预设行为、所述环境反馈、所述当前环境状态以及更新后的所述环境状态作为经验样本存储至经验池中;其中,所述经验池为存储各所述经验样本的存储单元; 从所述经验池中抽取出多个所述经验样本,并基于所述数据库算子计算得到对应的预期收益;其中,所述数据库算子为基于近似最近邻搜索技术实现的算子; 根据所述预期收益更新所述Q网络的参数及向量索引以及所述目标Q网络的参数及向量索引。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人浪潮(北京)电子信息产业有限公司,其通讯地址为:100085 北京市海淀区上地信息路2号2-1号C栋1层;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励