广州钛动科技股份有限公司林泽枫获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉广州钛动科技股份有限公司申请的专利一种基于人类反馈强化学习的分层次教育出题方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120580116B 。
龙图腾网通过国家知识产权局官网在2026-03-31发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511078008.4,技术领域涉及:G06Q50/20;该发明授权一种基于人类反馈强化学习的分层次教育出题方法及系统是由林泽枫;朱火庚;曹晓晓;蔡棱;贺小博;张江枫设计研发完成,并于2025-08-01向国家知识产权局提交的专利申请。
本一种基于人类反馈强化学习的分层次教育出题方法及系统在说明书摘要公布了:本发明涉及数据分析领域,尤其涉及一种基于人类反馈强化学习的分层次教育出题方法及系统,所述方法先获取出题引导信息及对应的题目参考评分,再将出题引导信息输入预设的题目生成模型中,生成候选题目集,然后,根据题目参考评分,排序生成人类偏好数据集,接着将出题引导信息和人类偏好数据集输入第一奖励模型中,预测得到符合预设目标函数的奖励分数,并将奖励分数反向传播,得到第二奖励模型,再将出题引导信息和候选题目集输入第二奖励模型和预设的评论家模型中,以驱动题目生成模型中模型参数的更新,最后,将出题引导信息输入模型参数更新后的题目生成模型中,得到实际题目集。本发明方法解决了现有技术深度理解能力不足的问题。
本发明授权一种基于人类反馈强化学习的分层次教育出题方法及系统在权利要求书中公布了:1.一种基于人类反馈强化学习的分层次教育出题方法,其特征在于,包括: 获取出题引导信息及对应的题目参考评分; 根据预训练目标,将所述出题引导信息输入预设的题目生成模型中,生成候选题目集; 根据所述题目参考评分,给所述候选题目集中的元素进行排序,得到人类偏好数据集; 将所述出题引导信息和所述人类偏好数据集输入基于Transformer架构的第一奖励模型中,预测得到符合预设目标函数的奖励分数,并将所述奖励分数反向传播,迭代训练所述第一奖励模型,得到第二奖励模型; 将所述出题引导信息和所述候选题目集输入所述第二奖励模型和预设的评论家模型中,以驱动所述题目生成模型中模型参数的更新; 将所述出题引导信息输入模型参数更新后的题目生成模型中,得到实际题目集; 所述题目生成模型包括策略模型及参考模型; 其中,所述策略模型用于生成候选题目集,并在迭代过程中优化参数; 所述参考模型用于计算KL散度,以使所述策略模型生成的候选题目集在人类标注文本数据的分布范围之内; 将所述出题引导信息和所述候选题目集输入所述第二奖励模型和预设的评论家模型中,以驱动所述题目生成模型中模型参数的更新,包括: 将所述出题引导信息和所述候选题目集输入所述第二奖励模型和预设的评论家模型中,分别计算得到即时奖励值及评论状态值; 将所述即时奖励值及所述评论状态值置入优势估计算法中,计算得到优势评估值和所述优势评估值的综合损失值; 综合损失值的计算公式为: 式中,为综合损失值,为题目生成模型的损失值,为评论家模型的损失值,为KL散度,为控制评论家模型的损失值的第一权重参数,为控制KL散度的第二权重参数。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人广州钛动科技股份有限公司,其通讯地址为:510000 广东省广州市天河区高唐路265号202;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励