安徽大学朱云来获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉安徽大学申请的专利一种基于策略迭代的贝尔曼方程的硬件实现方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115983358B 。
龙图腾网通过国家知识产权局官网在2025-08-15发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310055769.2,技术领域涉及:G06N3/063;该发明授权一种基于策略迭代的贝尔曼方程的硬件实现方法是由朱云来;郭文斌;冯哲;吴祖恒;徐祖雨;代月花设计研发完成,并于2023-01-18向国家知识产权局提交的专利申请。
本一种基于策略迭代的贝尔曼方程的硬件实现方法在说明书摘要公布了:本发明公开了一种基于策略迭代的贝尔曼方程的硬件实现方法,首先输入奖励值到贝尔曼期望方程电路中,求出该奖励值的策略价值;将得到的策略价值输入贝尔曼最优方程电路进行策略迭代求解,求出最优价值;将得到的最优价值映射到由忆阻器阵列组成的策略图谱中,完成每一个状态的最优价值求解,并根据最优价值的大小决定每一个状态的移动方向,达到利用硬件加速贝尔曼方程求解最优价值的目的。该方法能够使用忆阻器阵列乘加的方式将贝尔曼方程硬件化,从而对强化学习硬件系统性能有很大的优化作用。
本发明授权一种基于策略迭代的贝尔曼方程的硬件实现方法在权利要求书中公布了:1.一种基于策略迭代的贝尔曼方程的硬件实现方法,其特征在于,所述方法包括: 步骤1、输入奖励值到贝尔曼期望方程电路中,求出该奖励值的策略价值; 所述贝尔曼期望方程电路是利用不动点原理将贝尔曼期望方程的期望形式转化为矩阵乘加形式的迭代解; 原贝尔曼方程表示为:,其中表示输入的奖励值,表示对未来折扣奖励总和,γ为折扣因子,为当前状态到下一状态的转移矩阵; 贝尔曼方程表示当前状态的值函数通过下个状态的值函数来计算,写成矩阵形式并对其进行求解推导之后可得到其迭代解析解为:; 基于该迭代解析解,通过忆阻器阵列本身具有的矩阵乘法作用来分别代替等式左右两部分,从而硬件实现贝尔曼方程; 其中,输入电压信号表示系统输入的奖励值;忆阻器阵列中的每个忆阻器的电导值表示状态转移概率,通过使用外围FPGA板卡电路进行忆阻器阵列的推理和映射;输出的电流值通过恒定电阻阵列转化为电压信号,表示输出的价值,即输入奖励值的策略价值; 所述忆阻器阵列是用单个交叉杆忆阻器进行二维行列堆叠而成,阵列之上每个交叉点均有一个忆阻器,每个忆阻器中具有可调节的电导值; 当对忆阻器阵列进行逐行输入电压时,同一行中每一个忆阻器能通过输入电压乘以该忆阻器电导得到该点的电流值,同时对阵列多行输入时,对每一列来说,由基尔霍夫电流定律,每一列输出该列所有忆阻器电流值之和,达到矩阵乘加的目的; 步骤2、将步骤1得到的策略价值输入贝尔曼最优方程电路进行策略迭代求解,求出最优价值; 所述贝尔曼最优方程电路是将贝尔曼期望方程电路求出的策略价值经过反复递归操作,利用贪心算法更新价值概率矩阵,反复求解策略价值,直到归于一个确定的值,即最优价值; 其中,电路输入电压信号为贝尔曼期望方程电路求出的策略价值矩阵;忆阻器阵列中阵列电导值表示价值概率转移矩阵,通过忆阻器阵列的矩阵乘加运算后输出对应电压价值之后再次返回输入值进行反复递归操作,通过算法更新价值概率矩阵进行输出新的已优化的价值;由不动点迭代法可知经过反复迭代后输出价值逐渐趋于稳定,最后通过使用赢者通吃电路求出最大价值,即为最优价值; 步骤3、将步骤2得到的最优价值映射到由忆阻器阵列组成的策略图谱中,完成每一个状态的最优价值求解,并根据最优价值的大小决定每一个状态的移动方向,达到利用硬件加速贝尔曼方程求解最优价值的目的。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人安徽大学,其通讯地址为:230601 安徽省合肥市经济开发区九龙路111号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。