南京邮电大学许斌获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉南京邮电大学申请的专利基于区块链的可控进化强化学习方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116384478B 。
龙图腾网通过国家知识产权局官网在2026-04-21发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310310524.X,技术领域涉及:G06N3/092;该发明授权基于区块链的可控进化强化学习方法及系统是由许斌;练元洪;金英哲;李成阳;朱剑鸣;亓晋;孙雁飞设计研发完成,并于2023-03-28向国家知识产权局提交的专利申请。
本基于区块链的可控进化强化学习方法及系统在说明书摘要公布了:本发明提供了一种基于区块链的可控进化强化学习方法及系统,主要包括以下步骤:获取约束数据;使用区块链储存约束数据和当前策略;使用约束策略优化方法将约束数据转化为策略空间的约束边界;使用历史梯度引导的进化强化学习方法,应用处理后的策略空间进行训练,在每次做出决策后使用自适应场景阈值比较机制,如出现危险行为时,则重新作出决策;使用区块链对策略参数进行回溯;使用区块链储存约束数据和当前策略。本发明通过对人工输入的约束的有效转化,简化每次都需要为特定的场景设计特定的奖励函数,以此达到可控。
本发明授权基于区块链的可控进化强化学习方法及系统在权利要求书中公布了:1.一种基于区块链的可控进化强化学习方法,其特征在于,主要包括以下步骤: 步骤1、获取约束数据; 步骤2、使用区块链储存约束数据和当前策略; 步骤2中,在数据共享过程中,对于设备中产生的共享数据f而言,其所发送的交易格式为: TX=Hσf,r,D,URL,π,Sig1,Sig2, 其中,H是对数据进行哈希,r是人工输入的新的约束条件,σf={D,URL,Hf}为数据f的标记向量,其中,D={d1,d2,…,dπ}表示数据共享过程中数据f的π个特征值,用以表示与索引数据,URL是设备上传的区块链节点的地址,π是这一时刻所得到的设备中智能体的策略参数,Hσf与Hf表示对标记向量和原始数据进行哈希运算得到的哈希特征值,Sig1是设备对σf的数字签名,Sig2对应的是区块链节点对本次交易的签名; 步骤2具体包括: 步骤21、数据收集与上传,设备v通过自身传感器收集共享数据f,并将该共享数据f存储在边缘存储服务器K内,共享数据f的共享过程由节点Un进行记录,分析f的数据特征D,并相应地为共享数据f生成标记向量σf,对得到的标记向量和原始数据进行哈希运算,其中,URL字段指向K的地址,随后工业智能化可移动设备利用自身私钥对σf进行数字签名,并连同σf上传至邻近的节点,并等待区块链的处理过程; 步骤22、区块链交易封装与共识,节点在接收到v发送的标记向量,会提取σf中的D、URL字段,将其封装为交易TX的格式,随后将交易广播至当前自身所处的区块链,当区块链内某一节点收集足够数量的TX,会对交易进行打包操作并将打包区块广播至区块链内全部节点处,以完成后续共识过程; 步骤3、使用约束策略优化方法将约束数据转化为策略空间的约束边界; 步骤4、使用历史梯度引导的进化强化学习方法,应用步骤3处理后的策略空间进行训练,在每次做出决策后使用自适应场景阈值比较机制,判断是否处于低水平,即遇到突发干扰或者低奖励事件,如果处于低水平,则执行步骤5,如不处于低水平,则执行步骤6;如出现危险行为时,则重新作出决策; 步骤5、使用区块链对策略参数进行回溯; 步骤6、使用区块链储存约束数据和当前策略。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人南京邮电大学,其通讯地址为:210012 江苏省南京市栖霞区文苑路9号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励