Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 北京邮电大学何召锋获国家专利权

北京邮电大学何召锋获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉北京邮电大学申请的专利智能体训练方法及装置、电子设备、存储介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119701377B

龙图腾网通过国家知识产权局官网在2025-12-05发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411939576.4,技术领域涉及:A63F13/822;该发明授权智能体训练方法及装置、电子设备、存储介质是由何召锋;李浩天;项刘宇;王乐源;倪乐天设计研发完成,并于2024-12-26向国家知识产权局提交的专利申请。

智能体训练方法及装置、电子设备、存储介质在说明书摘要公布了:本公开提供了一种智能体训练方法及装置、电子设备、存储介质,属于智能体训练技术领域,该方法包括:确定主智能体的第一策略模型和陪练智能体的第二策略模型,第一策略模型为主智能体历史版本池中的模型,第二策略模型为陪练智能体历史版本池中的模型;基于第一策略模型和第二策略模型的交互数据对第一策略模型进行更新得到第三策略模型,基于第一策略模型和第二策略模型的交互数据对第二策略模型进行更新得到第四策略模型;将第三策略模型加入主智能体历史版本池中,将第四策略模型加入到陪练智能体历史版本池中。本公开提供的智能体训练方法及装置、电子设备、存储介质能够满足在非对称任务中策略多变、环境复杂的实际需求。

本发明授权智能体训练方法及装置、电子设备、存储介质在权利要求书中公布了:1.一种智能体训练方法,其特征在于,包括: 响应于主智能体与陪练智能体的实力评分差值的绝对值小于或等于第一数值,将所述主智能体对应的策略模型作为第一策略模型,将所述陪练智能体的策略模型作为第二策略模型;所述第一策略模型为主智能体历史版本池中的模型,所述第二策略模型为陪练智能体历史版本池中的模型; 获取所述第一策略模型和所述第二策略模型的交互数据; 基于深度强化学习算法,利用所述交互数据对所述第一策略模型的策略参数进行更新,得到第三策略模型; 基于深度强化学习算法,利用所述交互数据对所述第二策略模型的策略参数进行更新,得到第四策略模型; 将所述第三策略模型加入所述主智能体历史版本池中,将所述第四策略模型加入到所述陪练智能体历史版本池中; 还包括: 设定目标概率,基于所述目标概率,决定是否随机从陪练智能体历史版本池中选择一个策略模型作为第二策略模型; 还包括: 基于所述第一策略模型和所述第二策略模型的交互数据更新所述主智能体和所述陪练智能体的实力评分; 其中,基于第一公式更新所述主智能体和所述陪练智能体的实力评分; 所述第一公式为: 其中,表示为更新后的实力评分,表示为更新前的实力评分,表示为评分更新的步长参数,表示为主智能体和陪练智能体的交互结果,表示为主智能体或陪练智能体的预期胜率; 基于第二公式计算所述主智能体或陪练智能体的预期胜率; 所述第二公式为: 其中,表示为对手的实力评分,表示为自己的实力评分。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京邮电大学,其通讯地址为:100089 北京市海淀区西土城路10号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。