Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 清华大学牟倪获国家专利权

清华大学牟倪获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉清华大学申请的专利一种基于多目标强化学习的策略生成方法及装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119398190B

龙图腾网通过国家知识产权局官网在2025-11-18发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411191254.6,技术领域涉及:G06N20/00;该发明授权一种基于多目标强化学习的策略生成方法及装置是由牟倪;栾垚;贾庆山设计研发完成,并于2024-08-28向国家知识产权局提交的专利申请。

一种基于多目标强化学习的策略生成方法及装置在说明书摘要公布了:本说明书涉及强化学习技术领域,提供了一种基于多目标强化学习的策略生成方法及装置。该方法包括:接收多目标策略优化请求;根据多目标策略优化请求对应的若干个状态动作序列片段、多目标权重特征以及用于评估状态动作序列片段的二元评估器,构建多目标反馈指标数据;建立显式的多目标奖励模型;利用多目标反馈指标数据训练多目标奖励模型;根据若干个状态动作序列片段对应的状态、动作以及训练后的多目标奖励模型,建立马尔可夫决策过程模型;根据马尔可夫决策过程模型,在多目标策略优化请求对应的学习环境下,利用多目标强化学习算法训练得到多目标策略。通过本说明书实施例,可提高基于多目标强化学习的策略生成精度。

本发明授权一种基于多目标强化学习的策略生成方法及装置在权利要求书中公布了:1.一种基于多目标强化学习的策略生成方法,其特征在于,所述方法包括: 接收多目标策略优化请求; 根据所述多目标策略优化请求对应的若干个状态动作序列片段、多目标权重特征以及用于评估所述状态动作序列片段的二元评估器,构建多目标反馈指标数据; 建立显式的多目标奖励模型; 利用所述多目标反馈指标数据训练所述多目标奖励模型; 根据所述若干个状态动作序列片段对应的状态、动作以及训练后的多目标奖励模型,建立马尔可夫决策过程模型; 根据所述马尔可夫决策过程模型,在所述多目标策略优化请求对应的学习环境下,利用多目标强化学习算法训练得到多目标策略; 利用所述多目标反馈指标数据训练所述多目标奖励模型,包括: 从所述多目标反馈指标数据的状态动作序列片段中选取指定时刻的状态及动作; 将指定时刻的状态及动作输入至所述多目标奖励模型中,得到对应的预测奖励; 基于所述预测奖励与所述多目标反馈指标数据中多目标权重特征的相关性,建立反馈指标预测器; 将所述预测奖励与所述多目标反馈指标数据中的多目标权重特征输入至所述反馈指标预测器中,得到反馈指标预测结果; 根据预设的损失函数计算反馈指标预测结果对应的损失,并利用参数优化算法训练所述反馈指标预测器,以实现更新所述多目标奖励模型中的模型参数; 所述反馈指标预测器利用如下方式建立: 其中,表示反馈指标预测器,表示后于,和均表示状态动作序列的片段,w表示多目标权重特征,exp表示以自然常数e为底的指数函数,{l,k}表示二元标量的类别集合,i表示二元标量的类别集合中的元素,表示在t时刻下并且二元标量的类别为i时,状态和动作对应的预测奖励,表示转置; 根据所述马尔可夫决策过程模型,在所述多目标策略优化请求对应的学习环境下,利用多目标强化学习算法训练得到多目标策略,包括: 步骤0:初始化网络参数; 步骤1:获取当前状态,并判断当前步数是否超过预设阈值; 步骤2:若未超过预设阈值,则随机采样得到当前动作;若未超过预设阈值,则基于控制策略采样得到当前动作; 步骤3:获取由当前状态、当前动作、下一状态以及多目标反馈指标数据中的多目标权重特征组成的状态转移元组; 步骤4:根据所述状态转移元组调用对应的训练后的多目标奖励模型,并将当前状态和当前动作输入至训练后的多目标奖励模型中,得到当前多目标奖励; 步骤5:将由当前状态、当前动作、当前多目标奖励以及下一状态组成的状态转移数据加入至本次迭代的重放缓冲区;所述重放缓冲区用于存放每次迭代所需的状态转移数据; 步骤6:对本次迭代的重放缓冲区中的状态转移数据进行部分批量采样,得到采样批量数据,并基于所述采样批量数据,利用强化学习损失函数进行多目标强化学习,更新网络参数; 重复上述步骤1-步骤6,直至达到预设迭代次数; 获取多目标反馈指标数据的预设更新频率; 随着迭代次数不断增加,当所述预设更新频率与当前迭代次数之间的关系满足预设条件时,从所述重放缓冲区中采样得到预设数量的状态动作序列片段,并从预设数据集中采样得到预设数量的多目标权重特征; 根据采样得到的多目标权重特征、状态动作序列片段以及所述二元评估器,生成新的多目标反馈指标数据; 将所述新的多目标反馈指标数据加入至反馈指标数据集中; 利用所述反馈指标数据集中的数据,根据预设的损失函数更新所述训练后的多目标奖励模型; 利用更新后的多目标奖励模型,更新所述重放缓冲区。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人清华大学,其通讯地址为:100084 北京市海淀区清华园;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。