广东工业大学王美林获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉广东工业大学申请的专利基于D3QN强化学习的面向工件流转智能车间实时调度方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115526457B 。
龙图腾网通过国家知识产权局官网在2025-08-19发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211058355.7,技术领域涉及:G06Q10/0631;该发明授权基于D3QN强化学习的面向工件流转智能车间实时调度方法是由王美林;肖文;吴耿枫;梁凯晴;邸江磊设计研发完成,并于2022-08-30向国家知识产权局提交的专利申请。
本基于D3QN强化学习的面向工件流转智能车间实时调度方法在说明书摘要公布了:本发明公开一种基于D3QN强化学习的面向工件流转智能车间实时调度方法,先采集车间的作业数据并处理成马尔可夫决策链数据,训练一个D3QN的在线Q网络和目标Q‑网络,并利用训练好的在线Q网络作为知识网络,匹配车间实时状态,择优排产,反复执行直至生产结束。本发明通过实时采集多通道资源视图状态匹配知识网络模型的推理实现智能制造车间实时调度,高效快速指导车间作业调度,提高企业生产效率。
本发明授权基于D3QN强化学习的面向工件流转智能车间实时调度方法在权利要求书中公布了:1.一种基于D3QN强化学习的面向工件流转智能车间实时调度方法,其特征在于,包括以下步骤: S1:从智能车间某次订单下放起至成品加工完毕,采集并记录本次生产过程的所有作业数据; S2:将步骤S1采集的作业数据分类处理成马尔可夫决策链数据; S3:将步骤S2处理完毕的马尔可夫决策链数据载入容量为C的样本数据池; S4:判断样本数据池是否已蓄满,若未蓄满则重复步骤S1至S3,若蓄满则执行S5; S5:构建两个结构一致的卷积神经网络作为D3QN的在线Q网络和目标Q-网络; S6:从样本数据池中随机抽取若干条马尔可夫决策链数据,训练所述在线Q网络,以固定训练频率更新目标Q-网络参数,具体为: 将状态si输入在线Q网络估计其Q值,将状态si+1输入目标Q-网络结合奖励值r得到目标值Y,对Q值与Y值之间的损失函数L采用随机梯度下降,训练更新在线Q网络参数,以固定训练频率f复制在线Q网络参数,更新目标Q-网络参数; Q值与Y值之间的损失函数L的数学表达式如下: 式中,ω表示双输出子网前的网络参数,双输出子网包括前端和输出子网,网络的输入经前端后进入输出子网,输出子网包括价格函数网络Vn和优势函数网络An,价格函数网络Vn负责评估状态si的价值,优势函数网络An负责在状态s下各个动作的相对优劣,α、β分别表示价格函数网络Vn和优势函数网络An的参数,下标j为训练步长,表示均方误差计算,表示从样本数据池抽取的训练样本数据,γ为折扣因子,折扣因子越大,网络训练越注重未来状态变化;表示D3QN在线Q网络评估下一状态si+1的最具价值动作为am; S7:判断当前在线Q网络是否收敛,若不收敛,则返回步骤S6,若收敛,则执行S8; S8:调用已收敛的在线Q网络作为知识网络,匹配车间实时状态,择优排产,反复执行直至生产结束,具体为: 构建车间在线知识匹配机制,在该机制内调用已收敛的在线Q网络作为知识网络,确定制造车间各资源信息的实时状态s,确定实时状态下的待排产任务Jobs,将实时状态s输入知识网络得到待排产动作价值,在车间选取并执行最优价值排产动作,刷新实时状态s′和任务Jobs′,再次输入知识网络进行择优排产,重复执行至生产结束。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人广东工业大学,其通讯地址为:510090 广东省广州市越秀区东风东路729号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。