Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 龙门实验室;中信重工机械股份有限公司;河南科技大学张明川获国家专利权

龙门实验室;中信重工机械股份有限公司;河南科技大学张明川获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉龙门实验室;中信重工机械股份有限公司;河南科技大学申请的专利基于多策略深度强化学习的柔性车间生产资源调度方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120355202B

龙图腾网通过国家知识产权局官网在2025-11-14发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510856937.7,技术领域涉及:G06Q10/0631;该发明授权基于多策略深度强化学习的柔性车间生产资源调度方法是由张明川;曲浩凯;赵旭辉;杨磊;王琳;吴庆涛;朱军龙;冯嘉美;冀治航;王红艺设计研发完成,并于2025-06-25向国家知识产权局提交的专利申请。

基于多策略深度强化学习的柔性车间生产资源调度方法在说明书摘要公布了:本发明公开了基于多策略深度强化学习的柔性车间生产资源调度方法,涉及智能制造领域,方法构建了作业、机器、AGV的三个策略网络和三个价值网络,在每个调度时刻,作业选择策略网络根据作业状态选择调度规则并映射到具体操作;AGV选择策略网络根据AGV状态选择调度规则并映射到运输操作的第台AGV;机器选择策略网络根据机器状态映射到加工操作的第台机器,经多策略协作确定操作由AGV运输到机器加工,计算操作开始和结束时间,并将状态、动作及奖励存入对应经验池,价值网络从经验池采样数据,计算损失并更新网络参数,经验池清空后进入下一轮迭代。该方法能动态响应生产需求变化,实时优化资源分配和调度决策。

本发明授权基于多策略深度强化学习的柔性车间生产资源调度方法在权利要求书中公布了:1.基于多策略深度强化学习的柔性车间生产资源调度方法,其特征在于,采用多策略协作机制,构建包括作业选择模块、AGV选择模块和机器选择模块的决策模型,对作业随机达到的柔性车间生产资源进行调度,具体步骤如下: S1、建立基于马尔科夫决策的作业选择模块、机器选择模块和AGV选择模块,所述作业选择模块、机器选择模块和AGV选择模块均使用包括策略网络和价值网络的优化算法训练动作选择智能体;作业选择模块、机器选择模块和AGV选择模块的策略网络和价值网络的参数相互独立;设计作业选择、机器选择和AGV选择的复合调度规则; S2、初始化作业选择模块、机器选择模块和AGV选择模块智能体的网络参数,并进行训练; S3、训练过程中,若有新作业则将新作业添加到未完成作业集合后计算作业、机器和AGV的状态,反之则直接计算状态; S4、状态确定后,在每个调度时刻内分别进行作业选择、机器选择和AGV选择多策略协作调度,作业选择策略网络、机器选择策略网络和AGV选择策略网络的输出被送入函数中,得到多种作业选择规则的概率分布,从概率分布中随机采样一个概率值,并获取其对应的索引,根据该索引,从步骤S1的复合调度规则中选取对应的规则,根据作业状态映射到具体操作,根据AGV状态映射到运输操作的AGV,根据机器状态映射到用于加工操作的机器; S5、通过步骤S4中多策略协作确定操作由运输到机器进行加工后,进入下一个状态,计算操作开始和结束时间,根据平均延迟时间计算智能体的奖励,并将作业选择、机器选择和AGV选择的状态、动作、及奖励存入对应经验池; S6、重复步骤S3、S4、S5,直到单个调度算例中新到达的作业和车间已有作业的操作加工完成后,从经验池采样单轮数据,计算损失并更新网络参数,经验池清空后进入下一轮迭代; 所述策略网络和价值网路中均引入残差块,每个残差块包括两个全连接层,使用ReLU激活函数,并具有跳跃连接,网络中多个残差块堆叠设置,最后一个残差块的输出传递到网络的全连接层,并输出结果;策略网络的输出为: , 其中,表示的是经过策略网络的最后一个全连接层的输出,表示全连接层的权重矩阵和偏置项,为策略网络最后一个残差块的输出; 在价值网络中,其最后一个残差块传递到网络的全连接层,计算状态价值 其中,为价值网络中最后一个残差块的输出,表示价值网络全连接层的权重矩阵和偏置项; 所述作业选择策略网络、机器选择策略网络和AGV选择策略网络运算中均加入有色噪声,有色噪声为策略网络输出维度对应下的噪声项,该噪声项与策略网络原始输出相加形成带噪声的输出,在策略网络中,将有色噪声添加到 通过计算动作的概率分布 其中,为动作数量;为重调度时间点t的带噪声的输出,为第i个动作对应的带噪声输出; 所述作业选择策略网络、机器选择策略网络和AGV选择策略网络采用共享的即时奖励进行更新; 所述步骤S1中的复合调度规则的动作空间包括作业调度规则、机器调度规则、AGV调度规则,所述作业调度规则为: 1、如果为空,选择平均松弛时间最小的作业,否则选择超期时间最长,优先级高的作业进行加工; 2、如果为空,选择松弛时间临界比小、优先级高的作业,否则选择超期时间最长,优先级高的作业进行加工; 3、如果为空,选择操作完成率低、优先级高的作业,否则选择超期时间最长,优先级高的作业进行加工; 4、为了避免陷入局部最优,在未完成作业集合中,随机选择一个作业进行加工; 其中为在重调度点超期作业集合;有色噪声序列的生成方法为:首先根据输入噪声长度计算出频率分量的集合,根据噪声的颜色参数计算每个频率的缩放因子,组合缩放因子得到频谱密度,并计算标准差用于归一化,然后根据标准差和缩放因子生成符合正态分布的随机数,分别用于频谱的实部和虚部,通过将实部和虚部组合生成复数频谱,对生成的复数频谱应用逆傅里叶变换以获得时域上的噪声序列,将生成的噪声序列进行归一化,得到最终的带颜色噪声序列。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人龙门实验室;中信重工机械股份有限公司;河南科技大学,其通讯地址为:471023 河南省洛阳市伊滨区科技大道1号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。