Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
专利交易 商标交易 积分商城 国际服务 IP管家助手 科技果 科技人才 会员权益 需求市场 关于龙图腾 更多
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 华东师范大学谭鑫获国家专利权

华东师范大学谭鑫获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉华东师范大学申请的专利一种用于具身导航决策理解的智能体训练方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN121257641B

龙图腾网通过国家知识产权局官网在2026-03-20发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511448998.6,技术领域涉及:G06N3/092;该发明授权一种用于具身导航决策理解的智能体训练方法是由谭鑫;李林峰;谢源设计研发完成,并于2025-10-11向国家知识产权局提交的专利申请。

一种用于具身导航决策理解的智能体训练方法在说明书摘要公布了:本发明公开了一种用于具身导航决策理解的智能体训练方法,旨在解决现有技术中具身导航智能体因依赖单一路径模仿而导致的泛化能力和决策能力不足的问题。本发明的核心在于两大创新:a一种新颖的训练数据集生成流程,该流程在智能体的每个决策点,为场景中所有可行的候选动作提供基于A*算法的测地距离标注,从而构建出一种具有“全景式”监督信号的数据集;b一种创新的间隔感知混合奖励函数,能根据当前决策的确定性动态地指派奖励信号,在选择明确时提供强引导,在选择模糊时提供细致评分以鼓励探索。将上述方法应用于两阶段训练框架中,可引导智能体从“模仿路径”转变为“理解决策”,显著提升其在未知环境中的自主导航性能。

本发明授权一种用于具身导航决策理解的智能体训练方法在权利要求书中公布了:1.一种用于具身导航决策理解的智能体训练方法,其特征在于,所述方法包括以下具体步骤: 步骤1:生成具有全景式密集标注的导航训练数据集 A1:可行候选动作的生成与状态定义 在一个三维仿真环境中,对于智能体在任意时间步的状态包括其位置姿态和第一人称视觉观测,首先通过一个“动作提议模块”分析其传感器数据,生成一组物理上和视觉上所有可行的候选动作集;每个候选动作代表一个高层级的移动指令,并在智能体的视野中被可视化为带有编号的箭头; A2:全景式密集标注与轨迹数据采集 首先,对于候选动作集中的每一个动作,调用一个拥有环境全局地图信息的“全局A*规划器”,通过以下函数计算执行该动作后到达目标的潜在代价: ; 其中,函数根据当前姿态和动作预测出执行后的新落地姿态;是最终目标的位置;A*函数则计算从新落地姿态到目标点的最短测地距离; 随后,智能体选择测地距离最小的动作来执行,以生成一条最优导航轨迹;当智能体在某个决策点遇到多个测地距离相近的次优动作时即决策模糊点,引入回溯机制:该决策点的状态及完整的距离向量会被记录下来;在当前导航任务结束后,智能体将返回到这些被记录的模糊决策点,并主动执行其中一个未经探索的次优动作,从而生成新的导航轨迹分支,并对导航轨迹分支上的每一步重复进行全景式密集标注; A3:数据样本的结构化存储 将智能体在时间步的第一人称视觉观测、所有候选动作的集合、以及与每个动作一一对应的测地距离构成的完整向量,共同组合成一个结构化的训练数据样本,存入最终的数据集中;形成一个包含多条有效路径和密集监督信号的数据集; 步骤2:设置奖励函数 奖励函数由两部分构成,其中是智能体策略生成的一个包含动作选择的响应:第一部分,连续基础分,无论智能体选择哪个动作,都会得到一个基础分;该分数通过Softmax函数作用于所有候选动作的测地距离的负值计算得出,其数学表达式为: ; 其中是所选动作的测地距离,是一个温度超参数,用于控制分数分布的锐利度;这部分奖励为所有选项提供了一个平滑的、相对的优劣排序,即使是非最优的动作也能根据其好坏程度获得相应的分数; 第二部分,决策确定性调制的动态奖励加成,首先,智能体计算一个“决策确定性因子”,用于量化当前决策的明确程度;该因子通过最优动作即距离最近,设为和次优动作即距离第二近,设为之间的归一化距离差距来定义: ; 其中,是一个防止分母为零的小常数;如果最优选项显著优于所有其他选项即差距大,则值接近1,表明这是一个“高确定性”的决策点;反之,如果多个选项优劣相近即差距小,则值接近0,表明这是一个“低确定性”或“模糊”的决策点; 奖励函数由基础分和动态加成组合而成,其完整表达式为: 其中,代表最优动作的索引,是指示函数,当条件成立时为1,否则为0,是预设的最大奖励加成系数; 步骤3:基于强化微调的智能体决策理解训练 利用步骤1生成的数据集对智能体进行强化微调,以实现决策理解能力的对齐;具体为: C1:响应生成与评分 在训练过程中,对于环境给出的一个状态,智能体生成一组不同的候选输出序列,即对应选择不同的动作; C2:奖励函数作用机制 对每个生成的动作,利用其在数据集中对应的测地距离标注,通过间隔感知混合奖励函数计算其奖励值; C3:策略更新 最后,采用一种组级别奖励策略优化算法,根据所述奖励值来更新智能体的网络参数;所述优化算法的目标是最大化智能体所生成的一组动作的期望总奖励,从而引导智能体学会评估所有可选路径的相对优劣,实现从“路径模仿”到“决策理解”的转变。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人华东师范大学,其通讯地址为:200241 上海市闵行区东川路500号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。