Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
专利交易 商标交易 积分商城 国际服务 IP管家助手 科技果 科技人才 会员权益 需求市场 关于龙图腾 更多
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 清华大学宋士吉获国家专利权

清华大学宋士吉获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉清华大学申请的专利一种模型训练方法、路径跟踪方法、装置及电子设备获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116777954B

龙图腾网通过国家知识产权局官网在2026-04-21发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310708844.0,技术领域涉及:G06T7/246;该发明授权一种模型训练方法、路径跟踪方法、装置及电子设备是由宋士吉;杨琪森设计研发完成,并于2023-06-14向国家知识产权局提交的专利申请。

一种模型训练方法、路径跟踪方法、装置及电子设备在说明书摘要公布了:本申请提供了一种模型训练方法、路径跟踪方法、装置及电子设备,包括:获取由多个轨迹点信息构成的轨迹切片信息;获取轨迹切片信息中各个轨迹点信息对应的行动者隐藏状态值和评论者隐藏状态值;基于轨迹切片信息、行动者隐藏状态值和评论者隐藏状态值进行优势估计,得到Q值序列;基于Q值序列确定行动者网络梯度和评论者网络梯度;基于行动者网络梯度更新行动者网络的参数,基于评论者网络梯度更新评论者网络的参数,得到路径跟踪模型。集合历史轨迹切片信息和网络的隐藏状态信息对模型中的行动者网络和评论者网络进行Q值序列的计算,通过Q值序列对模型中的行动者网络和评论者网络进行运算能够提升训练得到的路径跟踪模型的路径追踪精度。

本发明授权一种模型训练方法、路径跟踪方法、装置及电子设备在权利要求书中公布了:1.一种模型训练方法,其特征在于,所述方法将单目视觉路径跟踪MVPF问题建模为部分可观测马尔可夫决策过程POMDP,并且所述方法应用循环深度确定性策略梯度算法RDPG,所述循环深度确定性策略梯度算法通过在策略网络和值网络中引入循环神经网络RNN来处理POMDP的部分可观测性,所述方法包括: 获取由多个轨迹点信息构成的轨迹切片信息;其中,所述轨迹点信息包括第一观测信息、第二观测信息、动作信息和奖励信息,所述第一观测信息和所述第二观测信息由智能体在相邻时刻对环境进行观测得到; 获取所述轨迹切片信息中各个轨迹点信息对应的行动者隐藏状态值和评论者隐藏状态值;其中,所述行动者隐藏状态值由待训练模型中的行动者网络产生,所述评论者隐藏状态值由所述待训练模型中的评论者网络产生; 基于所述轨迹切片信息、所述行动者隐藏状态值和所述评论者隐藏状态值进行优势估计,得到Q值序列; 基于所述Q值序列确定行动者网络梯度和评论者网络梯度; 基于所述行动者网络梯度更新所述行动者网络的参数,基于所述评论者网络梯度更新所述评论者网络的参数,得到路径跟踪模型;其中,所述路径跟踪模型用于进行路径跟踪; 所述获取由多个轨迹点信息构成的轨迹切片信息,包括: 从回放缓冲区随机选择的轨迹上的随机位置截取多个所述轨迹点信息得到所述轨迹切片信息; 所述基于所述轨迹切片信息、所述行动者隐藏状态值和所述评论者隐藏状态值进行优势估计,得到Q值序列,包括: 对所述行动者隐藏状态值进行重构,得到重构行动者隐藏状态值,基于所述重构行动者隐藏状态值对所述评论者隐藏状态值进行重构,得到重构评论者隐藏状态值; 基于所述重构评论者隐藏状态值和所述切片信息子集合中的奖励信息计算时间差分错误值; 基于所述时间差分错误值确定所述Q值序列。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人清华大学,其通讯地址为:100084 北京市海淀区清华园1号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。