西南科技大学霍建文获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉西南科技大学申请的专利一种基于强化学习的放射源搜寻方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN121028795B 。
龙图腾网通过国家知识产权局官网在2026-02-13发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511565983.8,技术领域涉及:G05D1/43;该发明授权一种基于强化学习的放射源搜寻方法是由霍建文;黎晓璐;周怀芳;凌铭润;胡旭林;陈诗琪设计研发完成,并于2025-10-30向国家知识产权局提交的专利申请。
本一种基于强化学习的放射源搜寻方法在说明书摘要公布了:本发明公开了一种基于强化学习的放射源搜寻方法,属于核安全技术领域,步骤如下:将辐射场区域划分为若干个区域;选取一个区域并随机生成放射源,且利用智能体在辐射场区域中进行自主寻源训练,得到初始训练好的智能体;重复从剩余没生成过放射源的区域中选取一个区域随机生成放射源,并再次对智能体进行训练更新,得到二次训练好的智能体;将二次训练好的智能体置于随机生成放射源的辐射场区域中进行自主寻源训练,并融合各区域的知识后根据奖励值调整机器人动作,得到全局最优自主寻源策略;根据全局最优自主寻源策略,搜寻辐射场区域中的放射源。本发明解决了难以在复杂环境中快速准确定位放射源的问题。
本发明授权一种基于强化学习的放射源搜寻方法在权利要求书中公布了:1.一种基于强化学习的放射源搜寻方法,其特征在于,包括如下步骤: S1、将辐射场区域划分为若干个区域; S2、从划分的区域中选取一个区域并在该区域中随机生成放射源,且利用智能体在辐射场区域中进行自主寻源训练,得到初始训练好的智能体; 所述自主寻源训练的方法包括如下步骤: A1、根据当前训练轮次,基于渐进式区域策略选择放射源生成范围,并根据软演员‑评论家网络,设置智能体的训练目标函数; A2、基于选定的放射源生成范围,随机生成放射源位置,并初始化机器人的初始位置和软演员‑评论家网络,构建状态空间、动作空间和奖励函数; A3、利用机器人通过辐射探测器获取当前时刻的辐射强度测量值,并结合机器人位置信息和历史序列信息作为状态向量; A4、将状态向量输入软演员‑评论家网络,并利用演员网络在收到状态向量后根据智能体的训练目标函数输出连续的二维动作,其中,二维动作包括前进方向和速度; A5、通过智能体执行二维动作,以更新机器人位置,同时利用智能体根据奖励函数对当前策略进行评估,以对智能体进行奖惩或结束当前训练轮次; A6、重复A1~A5,直至一个完整的训练轮次结束后,利用智能体将经验元组存储到经验池中,其中,表示时间步下的状态,表示时间步下的动作,表示时间步下的状态,,表示时间步下的奖励,为训练结束标志; A7、重复A1~A6,若经验池中的经验元组达到预设训练容量阈值时,则进入A8; A8、根据数据选取原则,利用智能体从经验池中的选择经验样本进行关键样本训练,并累计训练次数和记录机器人寻找到放射源的成功率作为智能体自主寻源成功率,其中,经验样本为智能体的每个训练轮次对应的经验元组; S3、从未生成过放射源的区域中选取一个区域并在该区域中随机生成放射源,且利用初始训练好的智能体在辐射场区域中进行自主寻源训练,并在完成自主寻源训练后,得到更新的智能体,并进入S4; S4、基于上次训练更新的智能体,重复执行S3,再次对智能体训练更新,直至每个区域都分别生成过放射源,且各区域对应的自主寻源训练都成功后,得到二次训练好的智能体; S5、随机在辐射场区域中生成放射源,并将二次训练好的智能体置于辐射场区域中进行全局的自主寻源训练,且融合各区域的知识后根据奖励值调整机器人动作,得到全局最优自主寻源策略; S6、根据全局最优自主寻源策略,利用智能体驱动机器人通过辐射探测器搜寻辐射场区域中的放射源。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人西南科技大学,其通讯地址为:621000 四川省绵阳市涪城区青龙大道59号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励