深圳市大数据研究院李卓获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉深圳市大数据研究院申请的专利奖励模型的训练方法、大语言模型的优化方法及相关设备获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN121031714B 。
龙图腾网通过国家知识产权局官网在2026-01-30发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511446159.0,技术领域涉及:G06N3/096;该发明授权奖励模型的训练方法、大语言模型的优化方法及相关设备是由李卓;杨芬;黄珊;胡玉进;万翔;王昌淼;古锦敏;梁莹;张贤设计研发完成,并于2025-10-11向国家知识产权局提交的专利申请。
本奖励模型的训练方法、大语言模型的优化方法及相关设备在说明书摘要公布了:本发明公开了一种奖励模型的训练方法、大语言模型的优化方法及相关,奖励模型的训练方法包括:获取偏好训练样本对以及待训练的奖励模型,偏好训练样本对包括首选响应样本与非首选响应样本;基于待训练的奖励模型计算首选响应样本与非首选响应样本的奖励分数差;基于奖励分数差以及首选响应样本、非首选响应样本二者之间的语义关联度构建成本矩阵;基于成本矩阵,计算损失边际;基于损失边际计算得到带边际的成对偏好损失值,并以最小化基于带边际的损失值为优化目标对待训练的奖励模型的参数进行更新,得到训练好的奖励模型。提升了模型对困难样本的学习能力和整体泛化性能,避免过度依赖简单样本,进而改进大语言模型在复杂任务中的生成质量。
本发明授权奖励模型的训练方法、大语言模型的优化方法及相关设备在权利要求书中公布了:1.一种奖励模型的训练方法,其特征在于,所述方法包括: 获取偏好训练样本对以及待训练的奖励模型,所述偏好训练样本对包括首选响应样本与非首选响应样本,所述首选响应样本是语义完整、逻辑连贯、符合事实或任务要求的文本响应,所述非首选响应样本是语义不完整、逻辑不连贯、存在事实性错误或不符合任务要求的文本响应; 基于所述待训练的奖励模型计算所述首选响应样本与所述非首选响应样本的奖励分数差; 基于所述奖励分数差以及所述首选响应样本、非首选响应样本二者之间的语义关联度构建成本矩阵; 基于所述成本矩阵,计算损失边际; 基于所述损失边际计算得到带边际的成对偏好损失值,并以最小化基于所述带边际的损失值为优化目标对所述待训练的奖励模型的参数进行更新,得到训练好的奖励模型; 所述基于所述成本矩阵,计算损失边际,包括: 基于所述成本矩阵求解得到用于表征首选响应样本与非首选响应样本之间匹配关系的最优传输; 针对每一首选响应样本,基于所述最优传输与所述成本矩阵中的成本值进行加权聚合,得到所述首选响应样本对应的损失边际; 所述基于所述成本矩阵求解得到用于表征首选响应样本与非首选响应样本之间匹配关系的最优传输,包括: 构建所述首选响应样本的第一分布以及所述非首选响应样本的第二分布; 确定基于所述第一分布与所述第二分布的可行域,所述可行域用于约束传输矩阵的行边缘等于所述第一分布与列边缘等于所述第二分布; 在所述可行域内,建立以所述成本矩阵与传输矩阵的内积为代价项并包含熵正则项的优化问题; 对所述优化问题进行求解,得到所述最优传输。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人深圳市大数据研究院,其通讯地址为:518000 广东省深圳市龙岗区龙城街道龙翔大道2001号道远楼225室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励