Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 哈尔滨工业大学邓立宝获国家专利权

哈尔滨工业大学邓立宝获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉哈尔滨工业大学申请的专利一种基于多智能体深度强化学习的分布式混合流水车间调度方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN117891220B

龙图腾网通过国家知识产权局官网在2025-12-19发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202410074533.8,技术领域涉及:G05B19/418;该发明授权一种基于多智能体深度强化学习的分布式混合流水车间调度方法是由邓立宝;狄原竹;李春磊;邱艺萱;付宁;乔立岩设计研发完成,并于2024-01-18向国家知识产权局提交的专利申请。

一种基于多智能体深度强化学习的分布式混合流水车间调度方法在说明书摘要公布了:一种基于多智能体深度强化学习的分布式混合流水车间调度方法,属于制造生产车间的调度排产技术领域,本发明为解决分布式混合流水车间调度的技术普遍存在响应速度慢、求解效率不高的问题。本发明对于以最大完工时间最小和总能耗最小为优化目标的分布式混合流水车间调度问题,该方法首先将各机器作为智能体搭建多智能体神经网络模型,随后使用模型对大量分布式混合流水生产算例进行计算求解,并使用经验库对训练过程中动作、奖励和状态变化情况进行保存,再通过对经验库进行随机采样对各神经网络进行训练,训练过程中使用验证算例集对模型进行检验,最后使用完成训练的模型对分布式混合流水车间调度问题进行求解。

本发明授权一种基于多智能体深度强化学习的分布式混合流水车间调度方法在权利要求书中公布了:1.一种基于多智能体深度强化学习的分布式混合流水车间调度方法,其特征在于,该方法包括以下步骤: 步骤S1:初始化多智能体,并为各智能体搭建神经网络; 步骤S2:初始化神经网络参数、优化器,初始化样本回放集合; 步骤S3:对神经网络进行训练,训练网络的步骤依次为: 选择一个分布式混合流水车间调度算例并读取其信息的步骤; 将当前机器的生产状态输入决策网络得到决策网络输出,将工件生产信息输入评价网络得到工件特征输出的步骤;具体实现过程为: 步骤S3A1、将包括各台机器总工作时间、总空闲时间、最早可用时间和总能量消耗信息在内的机器生产状态向量输入对应智能体的决策网络,将智能体的决策网络输出结果记作,其中,为机器数量,为决策网络的参数; 步骤S3A2、将包括工件各道工序的加工时间信息的向量分别输入评价网络,通过评价网络中RNN部分的计算,得到工件特征,其中,为工件的第道工序的加工时间,为工件的工件特征,重复该步骤,直至得到全部工件的特征; 通过对比决策网络输出和工件特征输出为各智能体选择动作的步骤;具体实现过程如下: 步骤S3B1、对于每一个智能体,根据其所处工厂以及工序阶段,并结合各工件的加工进度,筛选可加工的工件集合; 步骤S3B2、通过对比该智能体决策网络的输出数值与可加工工件的特征值,选择数值最相近的工件作为智能体待加工的下一道工序,若可加工工件集合为空,则该智能体选择的动作为空,即无待加工工件; 步骤S3B3、判断是否全部智能体均完成了动作选择,是,则执行步骤S3B4,否则执行步骤S3B1; 步骤S3B4、检查全部智能体所选择的动作是否存在冲突,即是否存在多个智能体选择同一个工件作为下一道工序,是,则执行步骤S3B5,否则执行步骤S3B6; 步骤S3B5、对于存在冲突的工件,从全部选择其为待加工工序的机器中选择对应决策网络输出数值与其特征值最接近的一个,其余机器将根据步骤S3B2的描述重新选择工序,返回步骤S3B4; 步骤S3B6、返回各智能体待加工的下一道工序; 将当前生产状态和各智能体采取的动作输入评价网络得到评价网络输出的步骤; 各智能体执行所选动作并更新生产状态的步骤; 计算各智能体获得的奖励值,并进行样本储存的步骤;具体实现过程如下: 步骤S3E1、若智能体选择的动作为某一工件,则根据如下公式计算智能体在当前状态下选择相应工件进行加工所获得的奖励值 其中,为智能体对应的机器在完成所选工件的加工后的总工作时间,为智能体对应的机器在开始加工所选工件前的总工作时间,为智能体对应的机器在完成所选工件的加工后的最早可使用时间,为智能体对应的机器在开始加工所选工件前的最早可使用时间,表示全部机器在完成所选工件的加工后的最早可使用时间中的最大值; 步骤S3E2、若智能体选择的动作为空,则根据如下公式计算奖励值: ,重复步骤S3E1与S3E2,直至全部智能体的奖励值均完成计算; 步骤S3E3、将全部智能体开始加工所选工件前的原始工件状态、原始机器状态和原始观测样本分别存入原始工件状态样本、原始机器状态样本和原始观测样本,将全部智能体在完成所选工件的加工后的新工件状态、新机器状态和新观测样本分别存入新工件状态样本、新机器状态样本和新观测样本,将全部智能体所采取的动作和获得的奖励分别存入动作样本和奖励样本; 根据评价网络输出计算决策网络的损失函数值并更新决策网络的参数,根据各智能体的奖励值计算评价网络的损失函数值并更新评价网络的参数的步骤; 对目标决策网络和目标评价网络的参数进行软更新的步骤; 步骤S4:判断神经网络训练代数是否满足步骤S2中初始化参数所给出的终止条件,是,则执行步骤S5;否,则返回执行步骤S3; 步骤S5:使用经过训练的神经网络对分布式混合流水车间调度问题求解,对所得调度方案进行解码,得到排产甘特图。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人哈尔滨工业大学,其通讯地址为:150001 黑龙江省哈尔滨市南岗区西大直街92号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。