大连理工大学孙国瀚获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉大连理工大学申请的专利一种感知行动回路决策的内在奖励生成方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115587615B 。
龙图腾网通过国家知识产权局官网在2026-02-13发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211292921.0,技术领域涉及:G06N3/0464;该发明授权一种感知行动回路决策的内在奖励生成方法是由孙国瀚;林恺;王博艺;高建;纪良运设计研发完成,并于2022-10-21向国家知识产权局提交的专利申请。
本一种感知行动回路决策的内在奖励生成方法在说明书摘要公布了:本发明属于计算机应用技术领域,具体涉及一种感知行动回路决策的内在奖励生成方法。本发明中,首先,搭建状态预测网络,并收集智能体训练过程中的环境状态与智能体动作数据对环境状态变化进行预测建模。其次,在强化学习训练过程中利用已训练的状态预测网络模型预测环境状态变化并生成预测差内在奖励。最后,将生成的预测差内在奖励与外部奖励结合,形成新的奖励以供策略更新网络使用。本发明构建SGBRT网络对环境状态进行预测并生成内在奖励,且利用内在奖励以加快策略更新网络的训练过程并提高训练效果。
本发明授权一种感知行动回路决策的内在奖励生成方法在权利要求书中公布了:1.一种感知行动回路决策的内在奖励生成方法,其特征在于,步骤如下: 步骤1状态预测网络搭建与训练1.1首先从对行为决策策略更新算法进行了N步训练的强化学习整体过程中收集每一步中感知到的环境状态和智能体的动作,结合得到,并设其维度为D; 设置聚类簇个数为m时,SOM网络有m组竞争层神经元权重,每组权重的维数为D;初始化时对竞争层中的每个神经元给与随机初始值;随后当第t个样本被用于训练网络时,先从竞争层中选择与样本最相似的神经元c,公式如下式: 1; 其中为竞争层神经元的权重,为被选中的竞争层神经元的权重;公式1使用欧氏距离作为判断神经元与样本相似度的依据;在选择神经元之后,需要对神经元及其周围神经元进行权重更新,公式如下式: 2; 其中和为第t步和即将更新的竞争层神经元权重,01为一个自更新控制变量,用于控制神经元权重的更新幅度,确定方法如下: 3; 其中,01为超参数,整体控制权重更新幅度;用于控制权重更新半径,随着SOM训网络练的推进,会越来越小,权重更新半径也随之变小,公式如下: 4; 其中和为超参数,为权重更新半径的初始值也是最大值,被用于控制权重更新半径缩小的速度;公式3和公式4表明,距离选中的神经元c越近的神经元的权重更新程度越大,且随着训练的进行,神经元权重更新半径逐渐减小; 1.2在进行SOM聚类操作之后,得到共m个聚类簇,首先需要为每个聚类簇计算其目标向量,对第j个聚类簇计算其目标向量的公式如下: 5; 使用聚类簇目标均量作为训练预测网络的目标向量; 随后,将SOM网络的竞争层的权重信息作为输入,训练GBRT网络;GBRT网络的预测公式如下: 6; 其中为聚类簇对应的SOM竞争层神经元权重,为预测的聚类簇的目标向量,为GBRT网络中的一个子树,GBRT网络共由K个子树构成,是所有子树的集合,GBRT网络通过对每个子树进行训练并集成,GBRT网络将子树逐个加入到集合中,对每个子树的训练,使前一个集合的loss最小,公式如下: 7; 其中为子树加入之前的树集,为加入之后的树集,通过引入任意损失函数L,便可进行逆梯度更新来训练GBRT网络;通过如上操作,利用SOM的聚类簇权重和目标向量作为输入训练GBRT得到SGBRT网络; SGBRT网络的训练和行为决策强化学习训练并行进行,强化学习训练中的预测是基于预训练的SGBRT网络,在强化学习训练的同时,SGBRT网络也从强化学习的训练过程数据中收集样本,以训练新的模型,训练完成后便用新的模型替代强化学习网络中的预训练模型,并重新收集样本; 步骤2内在奖励生成与奖励结合2.1在强化学习训练的第k步,其感知状态和智能体决策动作分别为和,将其输入预训练的状态预测网络,得到预测状态特征,计算得到第k步的预测误差作为内在奖励,公式如下: 8; 2.2取得步骤2.1中获得的内在奖励之后将内在奖励和外部奖励进行结合来进行强化学习训练;然而,由于内部奖励与外部奖励的来源有所不同,在将奖励进行结合之前需要先对奖励r进行标准化,公式如下: 9; 其中mean和std分别为已经获得的所有奖励的均值和标准差,这两个值在训练过程中动态计算,将内在奖励和外在奖励都经过公式9计算后,两种奖励的尺度相似,得到和;之后,将两种奖励相加,公式如下: 10; 其中,为一个可供调节的超参数,用于调整内在奖励在训练中的作用,具体表现为,越大,智能体越倾向于根据经验优化策略,越小,智能体越倾向于对环境进行探索;随后,将结合后的奖励输入行为决策任务策略更新网络进行强化学习策略训练。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人大连理工大学,其通讯地址为:116024 辽宁省大连市甘井子区凌工路2号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励