Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
专利交易 商标交易 积分商城 国际服务 IP管家助手 科技果 科技人才 会员权益 需求市场 关于龙图腾 更多
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 北京化工大学李大字获国家专利权

北京化工大学李大字获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉北京化工大学申请的专利一种基于集成最大熵深度逆强化学习的无人驾驶奖励学习和控制方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116702870B

龙图腾网通过国家知识产权局官网在2026-04-07发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310522892.0,技术领域涉及:G06N3/092;该发明授权一种基于集成最大熵深度逆强化学习的无人驾驶奖励学习和控制方法是由李大字;宋莉设计研发完成,并于2023-05-10向国家知识产权局提交的专利申请。

一种基于集成最大熵深度逆强化学习的无人驾驶奖励学习和控制方法在说明书摘要公布了:本发明公开了一种基于集成最大熵深度逆强化学习的无人驾驶奖励学习和控制方法,包括如下步骤:步骤一:将在高速路无人车驾驶环境中学习奖励函数和控制运行构建为一个基于马尔科夫决策过程模型;步骤二:构建基于值裁剪的软Q‑learning学习模型来获取专家演示,并根据专家偏好将逆强化学习任务划分为各子任务;步骤三:建立强学习器集成模型,通过最大熵深度逆强化学习恢复奖赏函数;步骤四:通过线性组合实现各子任务奖赏函数的融合,从而提高奖赏函数的学习精度。本发明考虑软Q‑learning中的梯度爆炸、梯度消失以及数据溢出等问题,通过改进的软Q‑learning算法学习专家演示,并基于学习的专家演示提出集成的最大熵深度逆强化学习算法,可以更好的实现决策控制。

本发明授权一种基于集成最大熵深度逆强化学习的无人驾驶奖励学习和控制方法在权利要求书中公布了:1.一种基于集成最大熵深度逆强化学习的无人驾驶奖励学习和控制方法,其特征在于:包括以下四个步骤, 步骤一:在高速路无人驾驶的逆强化学习应用场景下构建一个基于马尔科夫决策过程模型,将高速路无人驾驶环境转换为求解一个马尔科夫决策过程; 步骤二:为求解步骤一构建的马尔科夫决策过程,首先构建基于值裁剪和缩放指数线性单元激活函数的改进的软Q-learning学习模型来获取专家演示,并根据专家偏好将逆强化学习任务解耦为各子任务; 步骤三:在步骤二获得的各子任务的专家演示下,建立强学习器集成模型,通过最大熵深度逆强化学习求解各子任务的奖励函数,利用集成算法将深度最大熵弱学习器集合成强学习器; 步骤四:通过线性组合方法将步骤三中学习获得的无人驾驶环境下的各子任务奖励函数进行融合,从而提高无人驾驶奖励函数的学习精度; 步骤二中,将熵项增加到软Q-learning算法中获得求解高速路无人驾驶的奖励函数的最优化目标函数, 1; 其中表示无人驾驶车的奖励函数,表示无人驾驶车的轨迹分布的状态-动作边缘;熵项通过进行计算,表示无人驾驶车的策略在概率分布上的随机性;表示控制熵项重要性的温度因子,即控制无人驾驶车的所选择动作的随机性;熵越大,无人驾驶车所选择的策略的随机性越大; 高速路无人驾驶的逆强化学习算法中的软Q函数和软值函数定义为, 2;3; 其中折扣因子表示未来奖励对当前时刻奖励的影响,即越大,无人驾驶车往前考虑的步数越多; 通过重要性采样,无人驾驶车的软Q函数的软贝尔曼误差用一个等价的形式表示为最小化, 4; 其中表示无人驾驶车状态空间的分布,表示无人驾驶车动作空间的分布,表示无人驾驶车的目标Q值,表示无人驾驶车的目标参数; 利用神经网络的激活函数缩放指数线性单元激活函数,选择右半轴的斜率为1.05解决梯度爆炸问题; 5; 其中为1.67,表示软饱和区的斜率; 在高速路无人驾驶的实验过程中,改进的软Q-learning算法的值函数增长非常快,存在数据溢出问题,因此发明值裁剪方法来处理软Q值函数,当软值函数大于定义的阈值,软Q值函数被更新为;否则,软Q值函数保持不变; 6; 其中表示经值裁剪后的无人驾驶的软Q值函数; 在改进的软Q-learning算法中,将从高速路无人驾驶环境中获得的状态作为改进的软Q-learning算法的输入,动作分布作为改进的软Q-learning算法的输出;在改进的软Q-learning算法的迭代学习过程中,通过学习得到的状态-动作对和奖励函数存储在缓冲器中;然后经过采样,获得逆强化学习算法的专家演示;根据专家偏好,将无人驾驶车复杂的奖励函数学习任务解耦为多个子任务,进行奖励函数的学习;在每一个专家演示的子任务下,学习无人驾驶车的奖励函数和最优策略。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京化工大学,其通讯地址为:100029 北京市朝阳区北三环东路15号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。