上海人工智能创新中心阚宇衡获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉上海人工智能创新中心申请的专利基于最大熵框架的强化学习的交通信号控制方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115588303B 。
龙图腾网通过国家知识产权局官网在2025-12-12发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210839915.6,技术领域涉及:G08G1/07;该发明授权基于最大熵框架的强化学习的交通信号控制方法是由阚宇衡;王茂南;谷心洋设计研发完成,并于2022-07-18向国家知识产权局提交的专利申请。
本基于最大熵框架的强化学习的交通信号控制方法在说明书摘要公布了:本发明涉及交通信号控制技术领域,提出一种基于最大熵框架的强化学习的交通信号控制方法,包括:构造仿真环境;构造基于最大熵框架的强化学习方法,并且在所述仿真环境中通过所述基于最大熵框架的强化学习方法对智能体进行训练;以及通过训练后的智能体控制交通信号。
本发明授权基于最大熵框架的强化学习的交通信号控制方法在权利要求书中公布了:1.一种基于最大熵框架的强化学习的交通信号控制方法,其特征在于,包括下列步骤: 构造仿真环境; 构造基于最大熵框架的强化学习方法,并且在所述仿真环境中通过所述基于最大熵框架的强化学习方法对智能体进行训练;以及 通过训练后的智能体控制交通信号; 其中构造仿真环境包括: 构造智能体的观测状态、构造智能体的动作以及构造智能体的奖励; 其中构造智能体的观测状态包括: 将流量q、平均排队长度l以及上一个周期的信号灯方案P作为观测信息,其中所述信号灯方案P表示为下式: 其中,所述信号灯方案P由M个相位组成,表示第i个相位的绿灯时长;以及 将环境观测向量表示为下式: 其中,表示车道i上的流量,分别表示车道i上的平均排队长度; 其中将所述智能体构造为执行微调每个相位时长的动作,其中对每个相位分配所述智能体,通过所述智能体单独调整每个相位的绿灯时长,并且将多个所述智能体组合形成周期循环并以固定顺序执行; 其中所述基于最大熵框架的强化学习方法包括下列步骤: 以表示相位的Q值并且分部对其计算,表示为下式: 其中通过假设相位独立来计算,表示残差项; 以KL-散度衡量策略和策略的相似度求解第一式的最大值,第一式表示为: ; 将t时刻的总回报表示为下式: ; 将表示为下式: ; 将转换下式: 根据最大熵原理设以得到下式: 其中KL-散度值为信息熵与动作个数的差; 计算Q的差值,表示为下式: ; 化简以获得对当前状态值的预测,表示为第二式: 。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人上海人工智能创新中心,其通讯地址为:200232 上海市徐汇区云锦路701号37、38层;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励