武汉大学罗勇获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉武汉大学申请的专利多任务提示决策变换器构建方法、装置、设备及存储介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN118456423B 。
龙图腾网通过国家知识产权局官网在2026-05-01发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202410529631.6,技术领域涉及:B25J9/16;该发明授权多任务提示决策变换器构建方法、装置、设备及存储介质是由罗勇;郑泓凌设计研发完成,并于2024-04-29向国家知识产权局提交的专利申请。
本多任务提示决策变换器构建方法、装置、设备及存储介质在说明书摘要公布了:一种多任务提示决策变换器构建方法、装置、设备及存储介质,涉及机器人控制仿真环境领域,包括构建MPDT,MPDT包括多层决策器层及基于奖励、状态和动作构建的三元组提示模块;控制目标决策器层和三元组提示模块处于激活状态,基于离线训练样本对MPDT进行训练,且基于三元组提示进行多任务提示微调,生成特定任务提示和跨任务提示;待训练完毕后,将跨任务提示与测试样本的结合作为MPDT的输入进行测试,计算出与测试样本对应的隐藏状态测试均值和隐藏状态测试方差,以与离线训练样本的均值和方差进行对齐计算;基于对齐结果实现跨任务提示更新,生成目标多任务提示决策变换器,提升变换器在零样本和多任务场景下的泛化能力。
本发明授权多任务提示决策变换器构建方法、装置、设备及存储介质在权利要求书中公布了:1.一种多任务提示决策变换器构建方法,其特征在于,包括以下步骤: 构建多任务提示决策变换器MPDT,所述MPDT包括多层决策器层以及基于奖励、状态和动作构建的三元组提示模块; 从多层决策器层中随机筛选出至少一层目标决策器层,控制所述目标决策器层和所述三元组提示模块处于激活状态,并基于预设的离线训练样本对所述MPDT进行训练,且在训练过程中,基于三元组提示对所述MPDT进行多任务提示微调,以生成特定任务提示和跨任务提示; 待MPDT训练完毕后,将所述跨任务提示与无标签的测试样本的结合作为MPDT的输入进行测试,并计算出与所述测试样本对应的隐藏状态测试均值和隐藏状态测试方差; 根据所述隐藏状态测试均值和隐藏状态测试方差以及与离线训练样本对应的隐藏状态训练均值和隐藏状态训练方差进行对齐计算,得到对齐损失; 基于所述对齐损失对MPDT进行反向传播,以实现跨任务提示的更新,生成目标多任务提示决策变换器; 其中,所述根据所述隐藏状态测试均值和隐藏状态测试方差以及与离线训练样本对应的隐藏状态训练均值和隐藏状态训练方差进行对齐计算,得到对齐损失,包括: 将每个隐藏层对应的隐藏状态测试均值、隐藏状态测试方差、隐藏状态训练均值和隐藏状态训练方差代入以下计算公式,得到对齐损失: 式中,表示对齐损失,表示隐藏层的总层数,表示第个隐藏层的隐藏状态测试均值,表示第个隐藏层的隐藏状态测试方差,表示第个隐藏层的隐藏状态训练均值,表示第个隐藏层的隐藏状态训练方差。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人武汉大学,其通讯地址为:430072 湖北省武汉市武昌区八一路299号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励