深圳市人工智能与机器人研究院张建国获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉深圳市人工智能与机器人研究院申请的专利一种针对非对抗性任务的自学习方法、装置、设备及介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119623563B 。
龙图腾网通过国家知识产权局官网在2026-03-24发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411492081.1,技术领域涉及:G06N3/092;该发明授权一种针对非对抗性任务的自学习方法、装置、设备及介质是由张建国;玄曜铭;于霖坤;任峰;丁宁;龙昱丞设计研发完成,并于2024-10-24向国家知识产权局提交的专利申请。
本一种针对非对抗性任务的自学习方法、装置、设备及介质在说明书摘要公布了:本发明涉及强化学习技术领域,具体涉及一种针对非对抗性任务的自学习方法、装置、设备及介质,所述方法包括:步骤1:初始化非对抗性任务的决策神经网络;步骤2:基于当前所述决策神经网络执行MCTS状态搜索算法,获取第三方效能评分并记录路径信息;步骤3:根据所述第三方效能评分及路径信息对决策神经网络进行训练优化;步骤4:重复并行执行步骤2‑3,直至所述决策神经网络满足触发终止条件。本申请提供的针对非对抗性任务的自学习方法不会受限于任务场景,针对所有的非对抗性任务都能较好的结果,可根据任务场景进行适应修改;针对不同的非对抗性任务都能快速从0逐步探索出最短解,最大程度的避免重复计算,提高探索效率。
本发明授权一种针对非对抗性任务的自学习方法、装置、设备及介质在权利要求书中公布了:1.一种针对非对抗性任务的自学习方法,其特征在于,所述方法包括: 步骤1:初始化非对抗性任务的决策神经网络; 步骤2:基于当前所述决策神经网络执行MCTS状态搜索算法,获取第三方效能评分并记录路径信息; 步骤3:根据所述第三方效能评分及路径信息对决策神经网络进行训练优化; 步骤4:重复并行执行步骤2-3,直至所述决策神经网络满足触发终止条件; 所述非对抗性任务包括大语言模型文本生成任务,其中, 模拟阶段: 若所述大语言模型第一次执行MCTS,则直接根据当前参数生成一段文本,直至达到最大长度或生成终止字符; 若所述大语言模型不是第一次执行MCTS,即提示词中已经存在字符串,则以当前字符串为提示词生成一段文本; 完整执行文本生成任务后,获得判别器的反馈;所述判别器包括代码编译判别器、任务执行判别器以及人类评分; 更新阶段: 根据所述大语言模型的执行结果,更新成功路径上每个状态的Found_victorys=1,所述每个状态对应提示词+已生成的文本; 记录此时新路径整体长度为length,更新ELs=minELs,length,所述length也记录了已生成token的数量; 计算Vs=Found_victorys+1ELs; Found_victorys为标记是否已经搜索到一条经过状态s且最终达到成功状态的路径;ELs:经过s达到终止状态的路径的长度,仅记录最小值; 同时,对于该状态的父节点,更新Qsprevious,a=Vs,当sprevious中动作a趋向于状态s时;Nsprevious,a+=1;其中,sprevious为前一时刻状态; 选择阶段: 在已探索节点上选取下一个可使以下公式最大化的动作: preferences,a=H*|s+Us,a+Qs,a; 其中,H*|s代表基于当前决策网络,在状态s下选取下一个动作的熵,熵越大则证明s越有可能是一个语义分歧点,建议下个动作从s的可选动作中选取;Us,a代表上界置信;Qs,a代表在状态s下依据对未来收益预期选取动作a的倾向; 扩展阶段: 根据选中的动作扩展下一个节点。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人深圳市人工智能与机器人研究院,其通讯地址为:518000 广东省深圳市龙岗区坂田街道雅宝路1号星河WORLD G2-14、15层;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励