中国科学技术大学王杰获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中国科学技术大学申请的专利提升智能体连续控制稳定性的方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114186496B 。
龙图腾网通过国家知识产权局官网在2025-10-10发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202111532624.4,技术领域涉及:G06F30/27;该发明授权提升智能体连续控制稳定性的方法是由王杰;匡宇飞;周祺;周文罡设计研发完成,并于2021-12-15向国家知识产权局提交的专利申请。
本提升智能体连续控制稳定性的方法在说明书摘要公布了:本发明公开了一种提升智能体连续控制稳定性的方法,包括:步骤1,智能体按预先设定的连续控制任务与环境交互采集交互数据,将交互数据作为训练数据放到经验回放池中;步骤2,对所述保守状态策略评价模块的目标函数取最小值的方式对所述保守状态打分网络进行训练;步骤3,结合训练好的所述保守状态打分网络对所述保守状态策略提升模块的目标函数进行计算,通过取最大值的方式对所述保守状态策略网络的策略函数进行训练,直至得出稳定性最强的策略;步骤4,智能体用稳定性最强的策略执行后续的连续控制。该方法有效增强了智能体强化学习训练得到策略从训练环境到真实环境迁移时的鲁棒性,提升智能体连续控制的稳定性。
本发明授权提升智能体连续控制稳定性的方法在权利要求书中公布了:1.一种提升智能体连续控制稳定性的方法,其特征在于,用于部署有保守状态打分网络和保守状态策略网络的强化学习的智能体中,所述保守状态打分网络采用保守状态策略评价模块进行训练,所述保守状态策略网络采用保守状态策略提升模块进行训练;包括: 步骤1,所述智能体按预先设定的连续控制任务与环境进行交互采集交互数据,将采集的所述交互数据作为训练数据放到经验回放池中;所述智能体为:智能机器人、智能工业控制系统中的任一种;所述交互数据包括:动作数据和状态数据; 步骤2,所述智能体从所述经验回放池中取出一批训练数据,通过对所述保守状态策略评价模块的目标函数取最小值的方式对所述保守状态打分网络进行训练; 该步骤2中,通过最小化以下所述保守状态策略评价模块的目标函数1对所述保守状态打分网络进行训练,所述目标函数1为: 1; 其中,的定义为: ; ; 上述各式中,各参数表示的含义为: 为通过θ参数化的打分函数,其输入为当前时刻的状态和动作,输出为当前状态下对当前动作质量的打分;θ为打分函数Q的参数; 为所述智能体在t时刻的状态; 为所述智能体在t时刻的动作; r,为t时刻的状态和动作的所述智能体的奖励函数; γ为对所述智能体未来拿到的奖励进行衰减的折扣因子; 为所述智能体在环境中的初始状态分布; 为状态附近大小为ε的小邻域,表示来自状态空间扰动的大小; inf表示对小邻域的所有状态求极小值; 表示在状态s所述智能体选择的动作遵循的概率分布; E表示对概率分布或者初始状态分布求数学期望; D为收集训练数据的经验回放池; 步骤3,所述智能体从所述经验回放池中取出一批训练数据,结合训练好的所述保守状态打分网络对所述保守状态策略提升模块的目标函数进行计算,通过取最大值的方式对所述保守状态策略网络的策略函数进行训练,直至得出稳定性最强的策略; 该步骤3中,通过最大化以下目标函数2对所述保守状态策略网络的策略函数π进行训练,所述目标函数2为: 2; 上式1中,各参数表示的含义为: 为通过φ参数化的策略函数,其输入为一个当前时刻的状态,输出为输入状态下各个动作的概率分布; φ为所述策略函数的参数; 为所述智能体在t时刻的状态; 为状态附近大小为ε的小邻域,表示来自状态空间扰动的大小; inf表示对小邻域的所有状态求极小值; 表示在状态s智能体选择的动作遵循的概率分布; E表示对概率分布求数学期望; D为收集训练数据的经验回放池。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国科学技术大学,其通讯地址为:230026 安徽省合肥市包河区金寨路96号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励