吉林大学张玉新获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉吉林大学申请的专利一种端到端自动驾驶模型训练方法及装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119647561B 。
龙图腾网通过国家知识产权局官网在2025-11-21发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411670030.3,技术领域涉及:G06N3/0985;该发明授权一种端到端自动驾驶模型训练方法及装置是由张玉新;寇洪瑞;王子煜;吕周航;郭孔辉设计研发完成,并于2024-11-21向国家知识产权局提交的专利申请。
本一种端到端自动驾驶模型训练方法及装置在说明书摘要公布了:本发明提供一种端到端自动驾驶模型训练方法及装置,端到端自动驾驶模型训练方法及装置包括采集车辆的运行参数,基于“演员‑评论家”框架建立自动驾驶模型,采用融合自适应参数空间噪声的DDPG算法,对DDPG算法中的评论家网络和演员网络的参数进行初始化;选择Adam优化器并初始化经验回放池,存储智能体与环境交互的经验,设置初始学习率以及确定批量大小;使用经验回放池中的经验更新评论家网络和演员网络的参数;调整自动驾驶车辆的性能,本发明提供的端到端自动驾驶模型训练方法及装置,该方法通过调整至适当的学习率以及批量大小,加速模型的收敛速度,对超参数中学习率以及批量大小进行调整,使模型在训练过程中更加稳定。
本发明授权一种端到端自动驾驶模型训练方法及装置在权利要求书中公布了:1.一种端到端自动驾驶模型训练方法,其特征在于,包括如下步骤: 步骤一、采集车辆的运行参数,包括车辆位置、周围交通状况和自身的网络参数,基于“演员-评论家”框架建立自动驾驶模型,采用融合自适应参数空间噪声的DDPG算法,对DDPG算法中的评论家网络和演员网络的参数进行初始化; 所述融合自适应参数空间噪声的DDPG算法包括如下步骤: S1、初始化与准备:包括随机初始化评论家网络和演员网络的权重以及,使用权重以及权重分别初始化评论家目标网络和演员目标网络,分别得到以及,此时初始化参数噪声以及经验回放池R,并抖动策略网络; S2、训练循环与执行:根据初始化与准备后的参数,设置初始episode=1,开始全局训练循环,并在每个episode开始时,接收初始观察状态; S3、策略选择与执行:在训练循环过程中,从噪音分布中采样噪音变量ψ,将噪音变量ψ加入到演员网络:,加入后记抖动网络为:,此时选择动作,根据选择的动作进行执行,观察执行后下一个状态、获得的奖励以及是否达到终止状态; S3步骤中,还包括对神经网络的每一层进行归一化处理,确保噪声对各层的影响一致; S4、根据策略选择与执行中的数据,记录,并将经验存储到经验回放池R中,并从经验回放池R中随机采样一批经验用于训练; S5、网络更新:根据随机采样后得出的经验,有以下操作: 操作一、使用评论家目标网络计算目标值: 其中,是即时奖励,是折扣因子,是目标网络预测的Q值; 操作二、使用梯度下降法更新评论家网络的参数; 操作三、使用梯度更新策略更新演员网络的参数;包括如下操作: Step1、设计目标函数:J=E[QS,]; Step2、使用策略梯度方法计算演员网络参数的梯度,记作J; Step3、使用链式法则将策略梯度展开; Step4、使用梯度上升法更新演员网络的参数: 其中,为学习率; 操作四、使用软更新策略更新目标网络的参数,使得: 其中,为0.001; 具体操作方式为:将评论家网络和演员网络的参数复制到对应的目标网络中,实现目标网络的稳定更新; S6、循环与终止:根据网络更新所得出的数据,判断是否达到终止条件,若达到未终止条件,则更新episode数,并回到S2继续训练,若达到终止条件,则结束训练,输出训练结果; 初始化评论家和演员网络优化器的参数,初始化一个批量大小变量BS以及学习率变量lr,并设置批量大小变量BS值为64,学习率的初始值为lr=0.001,并在每次更新评论家网络和演员网络的参数时,使用当前的学习率,所述自身的网络参数包括车辆在行驶过程中的转向、加速以及制动参数; 步骤二、根据初始化评论家网络和演员网络的参数,选择Adam优化器并进行初始化经验回放池,存储自动驾驶车辆与环境交互的经验,设置初始学习率以及确定批量大小,其中,环境包括道路环境以及交通环境; 步骤三、从经验回放池中随机采样一批数量为BS的经验用于训练,使用这批经验和当前的学习率lr更新评论家网络和演员网络的参数; 步骤四、根据更新后的网络参数,调整自动驾驶车辆的性能,包括更新车辆对环境的感知、决策和规划; 步骤五、根据所需调整后的性能,设定衰减率DR和衰减周期DS,在每个训练周期结束或达到一定的训练步数后,根据预设的指数衰减策略,计算新的学习率; 步骤六、根据计算后新的学习率nlr,更新全局变量lr为nlr; 步骤七、使用更新后的学习率nlr和网络参数继续下一个训练周期或步数的训练,并定期对训练好的模型进行评估,根据评估结果调整学习率、批量大小以及网络结构。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人吉林大学,其通讯地址为:130012 吉林省长春市前进大街2699号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励