北京邮电大学胡铮获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京邮电大学申请的专利基于多智体强化学习的心智理论模型实现方法及装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115081617B 。
龙图腾网通过国家知识产权局官网在2025-09-05发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210635877.2,技术领域涉及:G06N3/092;该发明授权基于多智体强化学习的心智理论模型实现方法及装置是由胡铮;谭奇明;张春红;庄本辉设计研发完成,并于2022-06-06向国家知识产权局提交的专利申请。
本基于多智体强化学习的心智理论模型实现方法及装置在说明书摘要公布了:本申请提供一种基于多智体强化学习的心智理论模型实现方法及装置,该方法包括:基于心智理论模型建立原始联合心智模型网络以预测多个己方智能体的友方智能体的意图特征信息;建立多智体强化学习的任务场景结合意图特征信息,分级建模场景任务的主目标及其子目标;通过主目标的收敛后的主目标实现算法和子目标的规则化子目标实现算法收集待使用数据,以对原始联合心智模型网络进行训练,通过目标联合心智模型网络预测当前己方智能体的意图信息并将其添加至多智体算法的输入信息,实现己方智能体的协同。本申请实施例提供的基于多智体强化学习的心智理论模型实现方法结合多智体强化学习、心智理论模型和任务场景,提升了多智能体的协同效果。
本发明授权基于多智体强化学习的心智理论模型实现方法及装置在权利要求书中公布了:1.一种基于多智体强化学习的心智理论模型实现方法,其特征在于,包括: 基于心智理论模型建立原始联合心智模型网络,通过所述原始联合心智模型网络预测多个己方智能体的友方智能体的意图特征信息; 建立多智体强化学习的任务场景并结合所述意图特征信息,分级建模所述任务场景的主目标及其子目标; 对所述主目标进行训练,得到收敛后的主目标实现算法,并基于平台底层规则得到所述子目标的规则化子目标实现算法; 通过所述收敛后的主目标实现算法和所述规则化子目标实现算法收集待使用数据对所述原始联合心智模型网络进行训练,得到目标联合心智模型网络; 通过所述目标联合心智模型网络预测当前己方智能体的意图信息,并在多智体算法的训练过程中将所述意图信息添加至所述多智体算法的输入信息中,实现己方智能体的协同; 其中,智能体为无人机,涉及的任务场景为基于多无人机空战模拟平台Xsim的多目标覆盖任务场景; 所述基于心智理论模型建立原始联合心智模型网络,包括: 确定所述多个己方智能体的全局观测信息,其中,所述全局观测信息包括己方智能体信息和己方可观测到的敌方智能体信息; 通过所述多个己方智能体的己方智能体信息和己方可观测到的敌方智能体信息,对所述心智理论模型进行训练,得到所述原始联合心智模型网络; 所述心智理论模型用于预测每一个己方智能体的意图,具体公式为: 其中,表示己方第i智能体的预测意图,为网络输出特征再进行一层softmax层计算后的意图概率分布intenti1,…,intentiN,每一个元素都代表当前己方智能体i选择第j个意图的概率,整体和为1;si表示第i个智能体的基本信息,se表示观测到的敌方智能体整体信息,MLPθ表示以θ为参数的MLP网络; 所述通过所述原始联合心智模型网络预测多个己方智能体的友方智能体的意图特征信息,包括: 通过所述原始联合心智模型网络对各个所述友方智能体的意图概率分布进行预测,得到各个所述友方智能体的表层意图信息; 通过所述原始联合心智模型网络对各个所述友方智能体的自身概率分布进行预测,得到各个所述友方智能体的深处意图信息; 将各个所述友方智能体的表层意图信息和深处意图信息,确定为各个所述友方智能体的意图特征信息; 所述建立多智体强化学习的任务场景并结合所述意图特征信息,分级建模所述任务场景的主目标及其子目标,包括: 确定多智体强化学习的任务场景,其中,所述任务场景的布局包括场景大小、作战多方初始位置信息、任务目标和最终任务评价指标; 将所述场景大小、所述作战多方初始位置信息、所述任务目标和所述最终任务评价指标与所述意图特征信息进行结合,分级建模所述任务场景的主目标及其子目标; 所述分级建模所述任务场景的主目标及其子目标,包括: 将己方智能体选择不同的敌方智能体作为覆盖目标的过程建模为己方智能体主目标; 将己方智能体追击当前目标敌方智能体建模为主目标的子目标; 所述对所述主目标进行训练,得到收敛后的主目标实现算法,并基于平台底层规则得到所述子目标的规则化子目标实现算法,包括: 通过多智能体强化学习算法并以己方智能体信息和己方可观测到的敌方智能体信息为输入,以己方智能体选择的覆盖目标为输出,对所述主目标进行训练,得到所述收敛后的主目标实现算法; 对己方智能体选定的目标进行追击并基于所述平台底层规则,得到所述规则化子目标实现算法。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京邮电大学,其通讯地址为:100876 北京市海淀区西土城路10号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。