Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
专利交易 商标交易 积分商城 国际服务 IP管家助手 科技果 科技人才 会员权益 需求市场 关于龙图腾 更多
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 北京市科学技术研究院贾倪获国家专利权

北京市科学技术研究院贾倪获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉北京市科学技术研究院申请的专利一种基于GRPO和多阶段验证的智能体进化方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120975134B

龙图腾网通过国家知识产权局官网在2026-03-24发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511125104.X,技术领域涉及:G06N3/045;该发明授权一种基于GRPO和多阶段验证的智能体进化方法是由贾倪;丁超越;刘彤设计研发完成,并于2025-08-12向国家知识产权局提交的专利申请。

一种基于GRPO和多阶段验证的智能体进化方法在说明书摘要公布了:本发明公开一种基于GRPO和多阶段验证的智能体进化方法,属于人工智能技术领域。所述方法包括:初始化智能体的策略参数;将输入任务传递给智能体,以采样得到工具调用样本;对该工具调用样本进行多阶段验证以得到工具调用样本的总奖励;根据该总奖励更新所述智能体的策略参数,以完成智能体的工具使用能力的进化。本发明通过对大模型智能体结构以及采样样本的奖励函数进行有效构造,提高智能体在面对新工具时的适应能力和学习效率,不依赖繁重的人工标注,实现大模型智能体在工具使用能力上的自主进化。

本发明授权一种基于GRPO和多阶段验证的智能体进化方法在权利要求书中公布了:1.一种基于GRPO和多阶段验证的智能体进化方法,其特征在于,所述方法包括: 初始化智能体的策略参数; 将输入任务传递给智能体,以采样得到工具调用样本;其中,所述工具调用样本包括:用户任务描述、智能体对工具的调用尝试和工具调用执行结果,所述智能体对工具的调用尝试包括:工具名称、工具描述和传入工具的参数; 对该工具调用样本进行多阶段验证以得到工具调用样本的总奖励; 根据该总奖励,并基于GRPO算法更新所述智能体的策略参数,以完成智能体的工具使用能力的进化; 其中,所述智能体的网络结构由基座策略LLM、两个并行的多层MLP网络和一个融合网络组成,其中,两个并行的多层MLP网络连接基座策略LLM的最后一层,且分别为网络和网络,网络用于输出对于已知工具调用的token分布,用于输出未知工具调用的token分布,所述融合网络的输出,表示输入任务的嵌入向量,表示激活函数,表示可学习参数向量,表示平均池化,所述智能体的输出; 其中,对该工具调用样本进行多阶段验证以得到工具调用样本的总奖励,包括: 基于智能体对工具的调用尝试进行工具调用样本的格式校验,得到格式奖励; 基于工具调用执行结果进行工具调用样本的有效性校验,得到有效性奖励; 基于用户任务描述、智能体对工具的调用尝试和工具调用执行结果进行工具调用样本的相关性校验,得到相关性奖励; 根据格式奖励、工具有效性奖励和相关性奖励,得到该工具调用样本的总奖励。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京市科学技术研究院,其通讯地址为:100089 北京市海淀区西三环北路27号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。