北京理工大学;北京云迹科技股份有限公司邓方获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京理工大学;北京云迹科技股份有限公司申请的专利一种基于深度强化学习的多机货架仓储调度方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN117361013B 。
龙图腾网通过国家知识产权局官网在2025-10-24发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202311125785.0,技术领域涉及:B65G1/137;该发明授权一种基于深度强化学习的多机货架仓储调度方法是由邓方;周轩;石翔;褚文清;张乐乐;支涛;吕茂斌;陈晨;陈杰设计研发完成,并于2023-09-01向国家知识产权局提交的专利申请。
本一种基于深度强化学习的多机货架仓储调度方法在说明书摘要公布了:本发明公开了一种基于深度强化学习的多机货架仓储调度方法,可以提高多机仓储调度物流系统执行效率;使用深度强化学习算法实现多机货架仓储调度问题的自主决策,人工设计成本低,求解效率高,实时性好,自适应能力好;设计了多机仓储调度网络掩码机制,结合多头注意力神经网络解决了允许执行的动作空间可变的硬性约束问题;设计了多机货架仓储调度动作空间结构,在保证动作数量较少的同时,将多智能体学习问题转化成可以集中式训练的单体马尔可夫决策过程模型,避免了多智能体强化学习中常见的非平稳环境问题和动作空间爆炸的问题,有利于保证强化学习算法的收敛和提高算法的训练速度;设计的顺序执行操作避免了多智能体同时决策产生任务冲突。
本发明授权一种基于深度强化学习的多机货架仓储调度方法在权利要求书中公布了:1.一种基于深度强化学习的多机货架仓储调度方法,其特征在于,包括以下步骤: 步骤1:将多机货架仓储调度问题集中式地建模为马尔科夫决策过程MDP模型;定义MDP模型中的各个要素:状态、动作、奖励、状态转移函数; 步骤2:根据步骤1中建立的MDP模型,设计基于注意力机制的多机仓储调度神经网络模型;定义注意力机制神经网络中的编码器掩码规则和解码器掩码规则;定义多机器人仓储货架调度交互环境; 步骤3:根据步骤2中建立的MDP模型,随机生成一批问题实例及其初始状态;根据步骤2中建立的多机仓储调度神经网络模型,初始化神经网络参数和编码器掩码和解码器掩码;根据步骤2中建立的交互环境,初始化环境参数;初始化训练步数和回合数; 步骤4:将步骤3中机器人目前的状态观测结果输入给步骤3中的多机仓储调度神经网络模型,得到神经网络输出的策略分布;根据策略分布随机选择的仓储调度动作; 步骤5:根据步骤4中输出的动作与步骤3中的环境交互实现状态转移,获取交互完成后新的观测状态,和环境交互获得即时奖励值;步骤4中的训练步数加一; 步骤6:执行步骤4直至所有需要处理的货架搬运任务全部完成,即一个回合结束,计算累积奖励值; 步骤7:根据步骤6中的累积奖励值和步骤4中神经网络输出策略分布计算损失函数,根据损失函数通过Adam算法更新多机仓储调度神经网络模型参数;训练回合数加一; 步骤8:执行步骤3到步骤7直至达到训练最大回合数,结束训练;保存神经网络模型文件和过程文件; 步骤9:将步骤8训练完成的神经网络模型应用于多机器人仓储调度问题求解;输入地图模型与环境参数,多机仓储调度神经网络将输出调度动作序列结果;每个机器人根据输出的调度规划动作序列分别顺序执行自己对应的动作。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京理工大学;北京云迹科技股份有限公司,其通讯地址为:100081 北京市海淀区中关村南大街5号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励