恭喜苏州浪潮智能科技有限公司罗建刚获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜苏州浪潮智能科技有限公司申请的专利一种对话模型优化方法、装置、计算机设备和存储介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN117112742B 。
龙图腾网通过国家知识产权局官网在2025-06-10发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310910513.5,技术领域涉及:G06F16/3329;该发明授权一种对话模型优化方法、装置、计算机设备和存储介质是由罗建刚;王申领设计研发完成,并于2023-07-24向国家知识产权局提交的专利申请。
本一种对话模型优化方法、装置、计算机设备和存储介质在说明书摘要公布了:本申请涉及一种对话模型优化方法、装置、计算机设备和存储介质。所述方法包括:通过应用程序接口采集预训练对话模型中输入的问题数据,并将所述问题数据按照预设比例分为第一数据、第二数据以及第三数据;设置第一损失函数,并基于标注答案的第一数据对所述预训练对话模型进行训练,获得训练后的对话模型;将所述第二数据输入所述训练后的对话模型,获得对应的若干条回复并标注序号;设置差值函数,并基于标注序号的对应的若干条回复对所述预训练奖励模型进行训练,获得训练后的奖励模型;设置第二损失函数,并基于所述第三数据通过强化学习算法获得优化后的对话模型。采用本方法能够提高对话模型的对话质量,避免输出畸形结果。
本发明授权一种对话模型优化方法、装置、计算机设备和存储介质在权利要求书中公布了:1.一种对话模型优化方法,其特征在于,所述方法包括:通过应用程序接口采集预训练对话模型中输入的问题数据,并将所述问题数据按照预设比例分为三部分,分别为第一数据、第二数据以及第三数据;在所述预训练对话模型中设置第一损失函数,并基于标注答案的第一数据对所述预训练对话模型进行训练,获得训练后的对话模型,使得第一损失函数值最小;将所述第二数据输入所述训练后的对话模型,获得对应的若干条回复并标注序号;在预训练奖励模型中设置差值函数,并基于标注序号的对应的若干条回复对所述预训练奖励模型进行训练,获得训练后的奖励模型,使得差值函数值最大;根据所述训练后的对话模型设置第二损失函数,并基于所述第三数据通过强化学习算法获得优化后的对话模型,其具体包括:根据所述训练后的奖励模型,获得对应的奖励值函数;根据所述训练后的对话模型设置第二损失函数,并根据所述第二损失函数对所述对应的奖励值函数进行调整,获得调整后的奖励值函数;根据所述调整后的奖励值函数,获得调整后的奖励模型;将所述第三数据输入所述训练后的对话模型,输出回复结果;将所述回复结果输入所述调整后的奖励模型,并根据所述调整后的奖励值函数输出奖励值;根据所述奖励值对所述训练后的对话模型进行更新,获得优化后的对话模型;其中,所述第二损失函数表示所述优化后的对话模型与所述训练后的对话模型之间的相似程度。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人苏州浪潮智能科技有限公司,其通讯地址为:215000 江苏省苏州市吴中经济开发区郭巷街道官浦路1号9幢;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。