Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 贵州大学干雪梅获国家专利权

贵州大学干雪梅获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉贵州大学申请的专利一种基于深度强化学习的作业车间自适应调度方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114707881B

龙图腾网通过国家知识产权局官网在2025-06-27发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210406935.4,技术领域涉及:G06Q10/0631;该发明授权一种基于深度强化学习的作业车间自适应调度方法是由干雪梅;李少波;张钧星;张安思;左颖设计研发完成,并于2022-04-18向国家知识产权局提交的专利申请。

一种基于深度强化学习的作业车间自适应调度方法在说明书摘要公布了:本发明公开了一种基于深度强化学习的作业车间自适应调度方法,在近端策略优化算法中设计优化的动作策略和异步更新机制,形成直接高效探索和异步更新近端策略优化算法,基于直接高效探索和异步更新近端策略优化算法,将图神经网络与原始状态信息的分层非线性细化相结合,设计了一种端到端的强化学习方法,基于此,获得一个自适应调度系统。本发明的直接高效探索和异步更新近端策略优化算法具有高级鲁棒性,调度得分比近端策略优化算法提高5.6%,最小完成时间比深度Q网络算法降低8.9%。实验结果证明了所提出的自适应调度策略的有效性和通用性。

本发明授权一种基于深度强化学习的作业车间自适应调度方法在权利要求书中公布了:1.一种基于深度强化学习的作业车间自适应调度方法,其特征在于:该方法包括以下步骤: 1构建作业车间调度问题的调度函数模型:设有以n个作业和m台机器,每个作业包括m个不同的工序,在作业车间调度中,n个作业J={J1,J2……,Jn必须在m台机器m={M1,M2……,Mm}上按照预先知道的不同顺序进行处理,设Ok,b表示为工件b第k个工序,每个工序Ok,b都必须在特定的时间段内在特定的机器上执行,工件b在机器Mk上的处理时间用tb,k标记,tb,k是预先确定的,工件b在Mk机器上的实际完成时间用Cbk表示,它等于Ab,k+tb,k,其中Ab,k表示工件b在Mk机器上的开始处理时间,一个工件在它最后一个工序完成之后就全部完成,所有的调度目标都取决于所有工件的完成时间;最小化最大完工时间的目标函数对应调度的长度;作业车间调度问题的调度函数模型定义为: Cmax=minmax{Cb,k}1 其中,b=1,2……n;k=1,2……,m; Cbk-tbk+M1-ybhk≥Cbh2 其中,M是一个极大值,b=1,2……n;h,k=1,2……,m;Cbk表示工件b在Mk机器上的实际完成时间;tb,k表示工件b在机器Mk上的处理时间;Cbh表示工件b在Mh机器上的实际完成时间;ybhk表示条件函数如4,若工件b在机器h上加工先于机器k,ybhk等于1,否则等于0 Cak-Cbk+M1-xbak≥tak3 其中,M是一个极大值,a,b=1,2……n;k=1,2……,m;Cak表示工件a在Mk机器上的实际完成时间,Cbk表示工件b在Mk机器上的实际完成时间;ta,k表示工件a在机器Mk上的处理时间;xbhk表示条件函数如5,若工件b先于工件a在机器k上加工,xbhk等于1,否则等于0 式1是使所有工件完成时间最小的总目标函数;公式2-3是调度过程的约束条件;公式2表示工件b在机器h上先于机器k处理,公式3表示工件b在机器k上加工先于工件a; 2在近端策略优化算法引入优化策略和异步更新机制后形成直接高效探索和异步更新近端策略优化算法; 3将图神经网络与原始状态信息的分层非线性细化相结合,并基于步骤2直接高效探索和异步更新近端策略优化算法,给出一种端到端的深度强化学习方法; 4基于步骤3端到端的深度强化学习方法对步骤1作业车间进行自适应调度决策; 直接高效探索和异步更新近端策略优化算法的步骤如下: 2.1输入:带训练参数θ的A网络πθ;带训练参数ω的C网络vω,裁剪系数∈,C网络相对于A网络的更新频率倍数K,折扣因子λ,贪婪因子ε; 2.2生产环境的马尔科夫过程建模,设计环境状态st,动作集合at,奖励值rt; 2.3对1-N轮调度训练;对该轮训练中的1-J步;感知状态st,基于动作策略选择动作at;获得即时奖励rt和下一状态st+1;收集以上的参数{st,rt,at}到经验池,判断该轮调度是否完; 2.4调度完成后,通过将经验池数据输入C网络,评估该轮训练的优势函数 2.5反向传递更新C网络 2.6当训练次数是K的整数倍时,按如下公式更新A网络的参数θ, 2.7将更新后的参数赋值到A网络πold←πθ。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人贵州大学,其通讯地址为:550025 贵州省贵阳市花溪区贵州大学花溪北校区科技处;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。