Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 浙江四港联动发展有限公司陈喆榕获国家专利权

浙江四港联动发展有限公司陈喆榕获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉浙江四港联动发展有限公司申请的专利一种深度强化学习的多式联运路径优化方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120069723B

龙图腾网通过国家知识产权局官网在2025-08-05发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510550210.6,技术领域涉及:G06Q10/0835;该发明授权一种深度强化学习的多式联运路径优化方法是由陈喆榕;潘宇;王军;俞波;宋扬中;耿雪峰;黄雄设计研发完成,并于2025-04-29向国家知识产权局提交的专利申请。

一种深度强化学习的多式联运路径优化方法在说明书摘要公布了:本发明公开了一种深度强化学习的多式联运路径优化方法,属于物流管理领域,包括以下步骤S1.形成从起点到终点的多条可行路径作为训练样本,计算每条子路径的运输时间、运费成本、碳排放量、事故发生率和最大载重指标作为对应可行路径的质量评价指标;S2.基于状态空间、动作空间及奖励函数构建深度强化学习智能体;S3.智能体采用SumTree优先采样机制选择样本,生成最优路径;S4.联运过程中,监控路径的质量评价指标,根据实时路径状态数据动态生成最优路径。本发明能适应实时交通变化等动态因素,减少人工干预,对突发事件响应效率高,可减少意外事故的发生概率,降低碳排放量和其他污染物的排放。

本发明授权一种深度强化学习的多式联运路径优化方法在权利要求书中公布了:1.一种深度强化学习的多式联运路径优化方法,其特征在于,其包括以下步骤: S1.构建多式联运路径网络拓扑模型,将路径网络抽象为图结构,并形成从起点到终点的多条可行路径作为训练样本,计算每条子路径的运输时间、运费成本、碳排放量、事故发生率和最大载重指标作为对应可行路径的质量评价指标; S2.基于状态空间、动作空间及奖励函数构建深度强化学习智能体,具体步骤为: S2.1.建立智能体的状态空间,状态空间包括业务请求信息和可行路径状态矩阵两项信息,用向量表示,向量表示为: , 其中,为向量,表示当前时刻t的状态,D为业务请求信息,包括起点和终点,TM为业务请求信息对应的可行路径状态矩阵,可行路径状态矩阵包括运费成本指标、运输时间指标、碳排放量指标、事故发生率指标和最大载重指标; 所述的可行路径状态矩阵表示为: , 其中,d表示运输时间,b表示运费成本,l表示碳排放量指标,m表示事故发生率,n表示最大载重,k为可行路径的数量; S2.2.建立智能体的动作空间,动作空间用于表示可行路径集合,其通过ε-greed策略做出相应的路径决策,决策方式为: , 其中,为当前路径网络状态下做出的路径优选策略,表示动作,x为[0,1]范围内的随机数,ε为初值为1的控制随机探索概率的变量,θ为公共部分的路径网络参数;β和α分别为价值函数和优势函数的独有参数,α为学习率; S2.3.建立智能体的奖励函数,奖励函数表示为: , 其中,R为奖励函数,、、、和分别表示运费成本指标、运输时间指标、碳排放量指标、事故发生率指标和最大载重指标对应的权重,权重和为1; S2.4.定义智能体选择最优路径的方式,具体方式是:利用网络状态、路径优选策略和奖励迭代更新动作值函数,以最大化期望奖励值为目标,选择每个路径集状态下的最优路径策略,动作值函数的表达式为: , 其中,Q表示期望奖励值,为在状态下选择动作的即时奖励值,表示状态选择各个动作的最大奖励值,γ为折扣因子,反映了未来奖励的重要性; S3.智能体采用SumTree优先采样机制与均匀采样和重加权采样机制结合从训练样本中选择样本,具体方式为: S3.1.智能体采用SumTree优先采样机制选择样本:计算每个样本的优先级,按照优先级从大到小的顺序选择设定数量的样本,优先级的计算公式为: , 其中,i为样本编号,每个样本对应一条可行路径,为样本i的优先级,为样本i的SumTree优先采样机制的时序差分误差; 所述的时序差分误差的计算公式为: , 其中,为目标神经网络产生的奖励值; S3.2.智能体采用均匀采样和重加权采样机制从训练样本中选择样本:所有可行路径样本以循环队列形式存储,每次训练时均匀随机抽取设定数量样本,每个样本被选择的概率为: , 其中,N为样本池总容量,i为样本编号,为样本i被选择概率; 然后对每个被选中的样本,计算其时序差分误差,计算公式为: , 其中,为样本i均匀采样和重加权采样机制的时序差分误差,为目标神经网络输出的路径奖励估值,I为当前网络估计值,为折扣因子,为样本i对应状态,为遍历所有样本状态的索引变量,为一个遍历所有可能动作的索引变量; 然后,对损失函数重加权,在反向传播过程中,根据样本时序差分误差动态调整损失权重,损失函数定义为: , 其中,为损失权重,M为批量样本数,为平滑常数,用于防止零误差样本无权重,为优先级强度系数,表示样本i的权重,j表示一个遍历所有值的一个索引标签; S3.3.将S3.1和S3.2获得的样本进行合并组成样本集; S4.联运过程中,监控路径的质量评价指标,若质量评价指标超出阈值时,根据实时路径状态数据动态更新最优路径。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人浙江四港联动发展有限公司,其通讯地址为:310012 浙江省杭州市西湖区西溪新座7幢1号门501室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。