Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 河海大学胡强获国家专利权

河海大学胡强获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉河海大学申请的专利一种基于Spark的并行强化学习方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116611498B

龙图腾网通过国家知识产权局官网在2026-01-30发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310389368.0,技术领域涉及:G06N3/092;该发明授权一种基于Spark的并行强化学习方法是由胡强;胡鹤轩;朱跃龙;孙齐;李洪;胡震云;张晔设计研发完成,并于2023-04-12向国家知识产权局提交的专利申请。

一种基于Spark的并行强化学习方法在说明书摘要公布了:本发明公开了一种基于Spark的并行强化学习方法,包括分析应用场景,确定环境状态空间和强化学习的奖励函数,分别对多个智能体各自建立相同的模拟环境,将多个智能体与各自的Q值表在Spark中一一绑定,将多张Q值表拷贝并一一放在同一个RDD相应的一个或多个分区,在Spark中利用RDD自身带有的函数接口进行不同智能体间信息的交互融合,在信息融合时取表项最优的值赋给下一轮需要被拷贝的新表,循环迭代直至Q值表收敛。本发明可有效利用CPU多核心数的物理优势,在应用环境的计算复杂度增加时,能够显著地加快强化学习算法的学习速度。

本发明授权一种基于Spark的并行强化学习方法在权利要求书中公布了:1.一种基于Spark的并行强化学习方法,其特征在于,包括如下步骤: 步骤1、设计并行强化学习算法:分析应用场景为稀疏奖赏模式还是密集奖赏模式,确定环境状态空间和强化学习的奖励函数,分别对多个智能体各自建立相同的模拟环境,多个智能体各自在独立的环境执行动作,获得不同的状态动作序列,取各个智能体不同状态动作序列对应的最大Q值作为它们下一次迭代起始的Q值; 步骤2、将并行强化学习算法映射到Spark环境中:将多个智能体与各自的Q值表一一绑定,并且在各自的模拟环境中优化Q值表; 步骤3、在Spark环境下进行并行强化学习RDD操作:创建多个RDD,每个RDD中划分一个或多个分区,多个RDD的分区的总数尽量等于集群中的CPU核心数,将拷贝的多张Q值表一一放在同一个RDD相应的一个或多个分区,在Spark中利用RDD自身带有的函数接口进行不同智能体间信息的交互融合,在信息融合时取表项最优的值赋给下一轮需要被拷贝的新表,循环迭代直至Q值表收敛; 所述步骤1中: 稀疏奖赏模式的奖励函数设计为,单个智能体在未达到最终状态之前每一步状态转移的奖励值为负值,到达终止状态时奖励值为正值,除终止状态外每个状态可被访问多次; 密集奖赏模式的函数设计为,状态空间被划分成若干个独立的状态子集合,单个智能体执行动作后到达每个时刻的状态子集合均不相同,每个时刻仅取不同状态集合中的某个状态访问,奖励值函数设置为状态的函数: 式中,fst,at是t时刻的单个智能体关于状态st和动作at的函数; 所述步骤3的过程具体包括以下步骤: 步骤3.1.若每个RDD划分多个分区,则在每个RDD中的不同分区分别放置Q值表,将Q值表转化成键值对形式sx,ay,Qsx,ay,其中x为Q值表状态的坐标,y为Q值表动作的坐标; 步骤3.2.对RDD中的Q值表进行map转换操作,并利用for循环重复执行每一幕操作; 步骤3.3.利用flatmap转换操作将各个Q值表拆分成键值对形式; 步骤3.4.利用reduceByKey转换操作,将相同键sx,ay对应的最大Q值求出并转换成新的RDD数据集作为下一次需要拷贝的Q值表。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人河海大学,其通讯地址为:211100 江苏省南京市江宁区佛城西路8号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。