Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 重庆大学唐小林获国家专利权

重庆大学唐小林获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉重庆大学申请的专利一种在线驾驶场景的陌生环境状态认知模型训练方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119475978B

龙图腾网通过国家知识产权局官网在2025-07-11发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411509346.4,技术领域涉及:G06F30/27;该发明授权一种在线驾驶场景的陌生环境状态认知模型训练方法是由唐小林;陈佳信;王猛;杨为;刘宇杰;唐小丽;李佳承设计研发完成,并于2024-10-28向国家知识产权局提交的专利申请。

一种在线驾驶场景的陌生环境状态认知模型训练方法在说明书摘要公布了:本发明涉及一种在线驾驶场景的陌生环境状态认知模型训练方法,属于新能源汽车与人工智能的交叉领域。该方法包括:S1:加载三维驾驶场景模型,搭建混合动力汽车模型,并对每个时刻行驶位置的多角度驾驶画面采集;S2:获取纯视觉特征提取流的CameraBEV特征,并与原二维变量型状态张量相结合;利用基于Actor‑Critic架构的近端策略优化算法作为智能体,形成Actor‑Critic‑Guard网络架构;S3:构建包含关于Actor、Critic与Guard的损失值与L2正则项的损失函数对网络训练;S4:加载近似真实世界的测试环境在动态驾驶场景下对Guard环境认知网络进行评估。

本发明授权一种在线驾驶场景的陌生环境状态认知模型训练方法在权利要求书中公布了:1.一种在线驾驶场景的陌生环境状态认知模型训练方法,其特征在于,该方法具体包括以下步骤: S1:在离线训练场景下,以自适应巡航控制与车道保持辅助为首要学习任务,通过加载三维驾驶场景模型,搭建混合动力汽车模型,并且根据nuScenes数据集的相机内外参数矩阵布置对应的RGB摄像头模型,实现对每个时刻行驶位置的多角度驾驶画面采集; S2:在仿真训练环境启动前,根据来自六个不同视角RGB摄像头采集的实时驾驶画面,获取纯视觉特征提取流的CameraBEV特征,并与原先二维变量型状态张量相结合;随后,利用基于Actor-Critic架构的近端策略优化算法作为智能体,提出“Guard环境认知网络”概念,形成能够充分实现策略学习-策略评估-环境认知三种作用的“Actor-Critic-Guard”网络架构;步骤S2具体包括以下步骤: S21:在仿真训练环境启动前,首先通过六个不同视角的RGB摄像头实时采集驾驶画面;这些图像通过BEVFusion算法处理后,生成维度为1×80×128×128的BEV特征;利用卷积神经网络对S BEV进行降维处理,并且随后分别与S ACC和S LKA变量型状态张量结合;最后利用全连接网络将这些状态进行整合,为深度强化学习型控制策略的训练提供多模态输入信息; S22:基于Actor-Critic架构的深度强化学习算法——近端策略优化作为智能体学习混合动力汽车的节能驾驶策略,通过Actor拟合当前训练环境的最优控制策略,并利用Critic评估当前策略的最优性;同时,积极判别任意时刻可能出现的陌生状态以及由此可能导致的危险动作,提出“Guard环境认知网络”概念;实时辨析动态环境引起的状态差异,在接近已知空间的边界后及时安全接管措施;就此,构建了结合策略学习-策略评估-环境认知的“Actor-Critic-Guard”网络架构; S3:在仿真驾驶场景的训练过程中,针对基于数据驱动的深度强化学习型混合动力汽车控制策略,传统Actor-Critic架构训练流程按照原始方案持续进行;同时,为有效训练Guard环境认知网络,在损失函数中同步包含关于Actor、Critic与Guard的损失值与L2正则项,由此将在Actor与Critic网络对当前的训练环境实现稳定拟合后,才开始认知与当前最优策略对应的训练环境状态特征;仿真驾驶场景的训练步骤具体为: S31:基于数据驱动的深度强化学习型混合动力汽车控制策略的训练中,传统Actor-Critic架构训练流程按照如下公式所示的损失函数计算更新梯度,其中Actor的目标是最大化预期回报,Critic的目标是准确估计当前策略的价值函数,在原先价值函数的损失函数中均增加L2正则项; 其中,是演员网络的损失值,是评论家网络的损失值,是当前策略的概率分布,是旧策略的概率分布,是优势估计,是裁剪参数,是Critic的值函数输出,R是基于实际的奖励和优势计算计算的回报值,L Critic-L2与L Actor-L2是关于Critic与Actor网络权重的L2正则项; S32:为了有效训练“Guard环境认知网络”,在损失函数中同步包含着关于Actor、Critic与Guard的损失值与L2正则项,由此将仅在Actor与Critic网络对当前的训练环境实现稳定学习后,再开始认知与当前最优策略对应的训练环境状态特征,而“Guard环境认知网络”的训练基于以下公式L Guard所示,具体包含着多方面损失函数的综合指标: 其中,是守护者网络的损失值,L Guard-Label是引导Guard学习环境认知标签的损失,而L Guard-L2是关于Guard网络权重的L2正则项; S4:在离线仿真训练结束后,加载复杂多变且近似真实世界的路径轨迹为测试工况,并且对测试环境引入差异性大并且多样化的状态偏差,进而在动态驾驶场景下对“Guard环境认知网络”进行评估,确定需要改进与增强的适用范围。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人重庆大学,其通讯地址为:400044 重庆市沙坪坝区沙坪坝正街174号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。