深圳市人工智能与机器人研究院张建国获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉深圳市人工智能与机器人研究院申请的专利一种应用于自编程任务的强化学习方法、装置、电子设备及存储介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119576302B 。
龙图腾网通过国家知识产权局官网在2026-03-31发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411451709.3,技术领域涉及:G06F8/33;该发明授权一种应用于自编程任务的强化学习方法、装置、电子设备及存储介质是由张建国;玄曜铭;于霖坤;任峰;龙昱丞;丁宁设计研发完成,并于2024-10-17向国家知识产权局提交的专利申请。
本一种应用于自编程任务的强化学习方法、装置、电子设备及存储介质在说明书摘要公布了:本发明涉及强化学习技术领域,尤其涉及一种应用于自编程任务的强化学习方法、装置、电子设备及存储介质,方法包括:获取应用于自编程任务的示例数据集,并根据示例数据集对任意开源大语言模型进行微调;在微调完成后的大语言模型后连接第一价值输出端和第二价值输出端;通过调节温度参数,鼓励大语言模型针对选定的自编程任务进行多样化代码生成,并收集正例和反例数据;根据生成的多样化代码进行蒙特卡洛树搜索生成一系列文本并记录;利用蒙特卡洛树搜索收集的数据训练大语言模型,以优化其代码生成与评估能力。克服了现有框架在自编程领域的局限性,实现更高效、更精准的代码生成与优化。
本发明授权一种应用于自编程任务的强化学习方法、装置、电子设备及存储介质在权利要求书中公布了:1.一种应用于自编程任务的强化学习方法,其特征在于,所述方法包括: 获取应用于自编程任务的示例数据集,并根据所述示例数据集对任意开源的大语言模型进行微调; 在微调完成后的所述大语言模型后连接第一价值输出端和第二价值输出端;所述第一价值输出端用于对后续生成的文本能不能编译进行预测;所述第二价值输出端用于对后续生成的文本能不能完成自编程任务进行预测; 通过调节温度参数,鼓励所述大语言模型针对选定的自编程任务进行多样化代码生成,并收集正例和反例数据; 根据所述生成的多样化代码进行蒙特卡洛树搜索生成一系列文本并记录; 利用蒙特卡洛树搜索收集的数据训练所述大语言模型,以优化其代码生成与评估能力; 所述根据所述生成的多样化代码进行蒙特卡洛树搜索生成一系列文本,包括: 所述蒙特卡洛树搜索包括选择阶段、扩展和评估阶段、回溯阶段,其中选择阶段依据选择公式选取下一个需要扩展的叶子节点;扩展和评估阶段根据节点状态执行大模型或触发终止条件进行价值评估;回溯阶段更新各节点的统计信息; 所述扩展和评估阶段根据节点状态执行大模型或触发终止条件进行价值评估,包括: 在所选中的边的末端新建一个叶子节点; 若新节点满足终止条件,则将新节点对应的文本传入编译器和模拟器,收集反馈,得到真实价值v1,v2,并进入回溯阶段; 若新节点未满足终止条件,但处于计算消耗的考虑需要提前终止蒙特卡洛树搜索,则先执行所述大语言模型,然后进入回溯阶段; 若新节点未满足终止条件且蒙特卡洛树搜索还要执行下去;则依然需要执行所述大语言模型,但两个价值输出端的输出会被忽略。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人深圳市人工智能与机器人研究院,其通讯地址为:518000 广东省深圳市龙岗区坂田街道雅宝路1号星河WORLD G2-14、15层;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励