Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
专利交易 商标交易 积分商城 国际服务 IP管家助手 科技果 科技人才 会员权益 需求市场 关于龙图腾 更多
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 咸阳师范学院胡茜获国家专利权

咸阳师范学院胡茜获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉咸阳师范学院申请的专利基于多智能体强化学习的城市末端配送调度方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN121414086B

龙图腾网通过国家知识产权局官网在2026-04-21发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202512015594.4,技术领域涉及:G06Q10/0631;该发明授权基于多智能体强化学习的城市末端配送调度方法及系统是由胡茜;苏丹;柴廷熠设计研发完成,并于2025-12-30向国家知识产权局提交的专利申请。

基于多智能体强化学习的城市末端配送调度方法及系统在说明书摘要公布了:本发明公开了基于多智能体强化学习的城市末端配送调度方法及系统,属于智能物流技术领域,该方法获取配送订单及全局状态信息,通过全局状态感知模块生成全局状态向量,通过多智能体策略生成模块基于动态价值分解网络为每个配送智能体生成策略参数,通过竞争协作调度模块基于Nash均衡机制进行订单分配和资源调度,执行配送任务后通过执行反馈优化模块采用基于Nash社会福利的奖励分配机制将奖励值反馈至策略生成模块形成闭环优化,本发明实现无人机、配送员、智能快递柜三类配送资源的协同调度和优势互补,显著提升配送效率和客户满意度,降低配送成本。

本发明授权基于多智能体强化学习的城市末端配送调度方法及系统在权利要求书中公布了:1.基于多智能体强化学习的城市末端配送调度方法,其特征在于,包括: 获取配送订单及全局状态信息,其中,所述全局状态信息包括订单分布信息、路况信息、天气信息及配送资源状态信息,所述配送资源状态信息包括无人机状态、配送员状态和智能快递柜状态; 将所述配送订单及全局状态信息输入全局状态感知模块,对所述全局状态信息进行特征提取和状态编码,生成全局状态向量; 将所述全局状态向量输入多智能体策略生成模块,基于动态价值分解网络,为每个配送智能体生成个体价值函数和策略参数,其中,所述配送智能体包括无人机智能体、配送员智能体和智能快递柜智能体;构建所述动态价值分解网络,所述动态价值分解网络包括个体价值网络、混合网络和全局价值网络;将所述全局状态向量和各配送智能体的局部观测信息输入所述个体价值网络,生成各配送智能体的个体价值函数;将所述全局状态向量输入所述混合网络,生成状态依赖的混合权重;根据所述个体价值函数和所述混合权重,通过所述全局价值网络计算全局价值函数;其中,定义全局价值函数为所有配送智能体在当前全局状态下采取联合动作获得的期望累积奖励,定义各配送智能体的个体价值函数为所述配送智能体在当前局部观测下采取动作获得的期望累积奖励,通过所述混合网络根据所述全局状态向量生成状态依赖的混合权重矩阵,将各配送智能体的个体价值函数与所述混合权重矩阵相乘并求和,得到所述全局价值函数,满足单调性约束,确保全局最优动作对应各配送智能体的局部最优动作;基于所述个体价值函数和所述全局价值函数,采用梯度下降方法更新所述动态价值分解网络的网络参数;根据所述个体价值函数,通过softmax函数生成各配送智能体的策略参数; 将所述策略参数输入竞争协作调度模块,基于Nash均衡机制进行订单分配和资源调度,其中:根据订单优先级和订单价值,将所述配送订单分为高价值订单和普通订单;针对所述高价值订单,构建竞争博弈模型,各配送智能体根据所述策略参数计算竞标值,选择竞标值最高的配送智能体执行所述高价值订单;针对所述普通订单,构建协作优化模型,综合考虑配送距离、配送时间、资源利用率和负载均衡,采用匈牙利算法进行订单与配送智能体的匹配;求解所述竞争博弈模型和所述协作优化模型的Nash均衡点,确定各配送智能体的最优策略组合,使得在当前状态下任何配送智能体单独改变策略都无法获得更高收益; 根据所述最优策略组合执行配送任务,并将执行结果输入执行反馈优化模块,根据所述执行结果计算配送时效性、客户满意度、资源利用率和协同效率,根据所述配送时效性、客户满意度、资源利用率和协同效率计算全局奖励值,采用基于Nash社会福利的奖励分配机制将所述全局奖励值分解为各配送智能体的个体奖励值,所述Nash社会福利定义为各配送智能体个体奖励值的对数之和最大化,保证奖励分配的公平性和激励性;将所述个体奖励值作为反馈信号,输入所述多智能体策略生成模块; 将所述奖励值反馈至所述多智能体策略生成模块,动态更新所述动态价值分解网络的网络参数和所述策略参数。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人咸阳师范学院,其通讯地址为:712000 陕西省咸阳市渭城区文林路咸阳师范学院;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。