北京衔远有限公司;北京衔远科技有限公司张开颜获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京衔远有限公司;北京衔远科技有限公司申请的专利基于强化学习优化的多轮自动机器学习智能体系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120806041B 。
龙图腾网通过国家知识产权局官网在2025-12-05发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511294754.7,技术领域涉及:G06N3/092;该发明授权基于强化学习优化的多轮自动机器学习智能体系统是由张开颜;姜澈;华尔默;贾国力;谢树雷设计研发完成,并于2025-09-11向国家知识产权局提交的专利申请。
本基于强化学习优化的多轮自动机器学习智能体系统在说明书摘要公布了:本申请提供一种基于强化学习优化的多轮自动机器学习智能体系统。包括:任务解析模块,用于生成供MLE智能体调用的初始提示;MLE智能体模块,用于生成可执行代码;代码执行器,用于生成执行结果;评价器,用于输出各指标的归一化值及代码正确性标识;奖励构建模块,用于生成奖励值;强化学习优化器,用于计算群体平均回报与候选优势,并基于候选优势更新MLE智能体模块的策略参数;多轮交互控制模块,用于在多轮交互过程中将上一轮的执行结果与奖励值反馈至MLE智能体模块,控制下一轮代码生成,直至满足预设终止条件。本申请能够实现策略自适应演化、细粒度信用分配的强化学习优化以及多轮闭环的自动化流程改进。
本发明授权基于强化学习优化的多轮自动机器学习智能体系统在权利要求书中公布了:1.一种基于强化学习优化的多轮自动机器学习智能体系统,其特征在于,包括: 任务解析模块,用于接收用户输入的任务描述和约束条件并解析得到目标指标、资源限制及数据集信息,生成供MLE智能体调用的初始提示; MLE智能体模块,用于基于大规模预训练语言模型,接收所述初始提示及多轮反馈信息,生成可执行代码; 代码执行器,用于在受控执行环境中运行所述可执行代码,采集运行日志、模型性能指标、运行时间、资源占用及错误信息,形成执行结果; 评价器,用于根据所述执行结果计算性能类与运行类的多维指标,并输出各指标的归一化值及代码正确性标识; 奖励构建模块,用于按照预设规则将归一化指标与所述代码正确性标识进行组合,生成对应的奖励值; 强化学习优化器,用于针对同一任务输入由所述MLE智能体模块采样生成的多个候选输出的所述奖励值,计算群体平均回报与候选优势,并基于所述候选优势更新所述MLE智能体模块的策略参数; 多轮交互控制模块,用于在多轮交互过程中将上一轮的执行结果与所述奖励值反馈至所述MLE智能体模块,控制下一轮代码生成,直至满足预设终止条件; 其中,所述代码执行器具体用于: 加载所述可执行代码所需的依赖库与数据资源,并按照预设资源配额初始化执行容器; 触发所述可执行代码的执行并在执行过程中进行事件监听,记录运行日志; 根据预设评价接口对训练与预测阶段输出进行指标计算,获取所述模型性能指标; 通过时间戳标记与资源监控探针分别统计所述运行时间及资源占用; 对执行过程中捕获的异常类型、错误码及中断状态进行归类,生成所述错误信息; 按照预设数据结构将所述运行日志、模型性能指标、运行时间、资源占用及错误信息汇总并封装为所述执行结果; 所述评价器具体用于: 对所述执行结果进行字段解析与数据清洗,得到原始指标数据集; 根据预设性能指标计算规则对所述模型预测输出与标注数据进行比对,计算性能类指标; 根据预设运行指标统计规则对时间记录与资源监控数据进行聚合,计算运行类指标; 根据所述错误信息中的异常类型、错误码及执行中断状态确定代码正确性标识; 按照统一的归一化策略对所述性能类指标与运行类指标进行归一化处理,生成归一化指标集合; 所述奖励构建模块具体用于: 调用预设的指标权重映射表与组合规则库,为各归一化指标分配权重系数并确定组合算子; 将归一化指标按照性能类与运行类进行划分,生成对应的子奖励分量; 根据所述代码正确性标识计算惩罚因子或加成因子; 对所述子奖励分量与所述惩罚因子或加成因子执行加权组合及分段函数运算,得到初始奖励值; 对所述初始奖励值进行区间裁剪与量化编码,形成所述奖励值。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京衔远有限公司;北京衔远科技有限公司,其通讯地址为:100080 北京市海淀区学院路51号首享科技大厦第三层306室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励