广东工业大学林元妙获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉广东工业大学申请的专利基于强化学习的AI处理器架构优化方法、装置及存储介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116596049B 。
龙图腾网通过国家知识产权局官网在2026-04-21发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310425167.1,技术领域涉及:G06N3/063;该发明授权基于强化学习的AI处理器架构优化方法、装置及存储介质是由林元妙;黄宏敏;符善森;刘远;熊哓明设计研发完成,并于2023-04-20向国家知识产权局提交的专利申请。
本基于强化学习的AI处理器架构优化方法、装置及存储介质在说明书摘要公布了:本发明的目的在于提供一种基于强化学习的AI处理器架构优化方法、装置及存储介质,包括:通过卷积神经网络和硬件平台构成AI处理器评估模型,并在所述AI处理器评估模型中获取能够得到最大回报的行动的函数;设置经验回放缓存池,将采样得到的样本保存在缓存池内;在收集到足够的样本时,通过所述取能够得到最大回报的行动的函数与神经网络构建策略函数,并利用增加高斯噪声干扰所述策略函数,从所述经验回放缓存池内获取训练样本;训练所述策略函数,并通过所述策略函数获取最大奖励,得到优化后的AI处理器架构的参数。本发明所述的方法可以获得更好的样本利用率、稳定性和探索能力,并且能够得到最佳的AI处理器架构设计参数。
本发明授权基于强化学习的AI处理器架构优化方法、装置及存储介质在权利要求书中公布了:1.一种基于强化学习的AI处理器架构优化方法,其特征在于,包括: 通过卷积神经网络和硬件平台构成AI处理器评估模型,并在所述AI处理器评估模型中获取能够得到最大回报的行动的函数; 设置经验回放缓存池,将采样得到的样本保存在缓存池内; 在收集到足够的样本时,通过所述能够得到最大回报的行动的函数与神经网络构建策略函数,并利用增加高斯噪声干扰所述策略函数,从所述经验回放缓存池内获取训练样本; 训练所述策略函数,并通过所述策略函数获取最大奖励,得到优化后的AI处理器架构的参数; 所述训练所述策略函数,包括: 对策略函数πa|s,θ进行训练,利用状态价值函数Vs,θ来对策略函数πa|s,θ进行梯度下降来训练,状态价值函数vs,θ的梯度公式如下: 利用蒙特卡洛采样所得到的轨迹来近似梯度,表示为: 并在多条轨迹τ中选取回报最大的那条τmax作为梯度下降的那条轨迹,表示为: 采用梯度上升来更新神经网络的参数θ,即: 其中,τ:s0→a0→s1→…→sT-1→aT-1→sT,指的是从初始点到终点一条完整轨迹; 表示在策略函数πa|s,θ下采样一条轨迹τ的概率乘积;Gτ=∑tTγtRst,表示轨迹τ的回报,描述了通过轨迹τ可以获得的总奖励值;Rst是t时刻的奖励;γ是折扣系数。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人广东工业大学,其通讯地址为:510062 广东省广州市越秀区东风东路729号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励