阿里巴巴(中国)有限公司邹桃获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉阿里巴巴(中国)有限公司申请的专利模型训练方法、数据处理方法、系统及存储介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119884331B 。
龙图腾网通过国家知识产权局官网在2025-08-19发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510386313.3,技术领域涉及:G06N5/04;该发明授权模型训练方法、数据处理方法、系统及存储介质是由邹桃;余海洋;李永彬;黄非设计研发完成,并于2025-03-28向国家知识产权局提交的专利申请。
本模型训练方法、数据处理方法、系统及存储介质在说明书摘要公布了:本申请公开了一种模型训练方法、数据处理方法、系统及存储介质,涉及大模型技术、数据处理领域。其中,该方法包括:获取原始训练集,其中,原始训练集为单任务数据集,单任务数据集包含预先确定任务类型与约束类型的样本训练数据;对原始训练集中的待扩充对象进行数据内容扩充,生成目标训练集,其中,待扩充对象包括以下至少之一:任务类型、约束类型;响应于目标训练集满足预设数据验证条件,采用目标训练集对初始语言模型进行训练,生成目标语言模型,其中,目标语言模型用于对目标任务查询进行数据处理以生成目标任务回复。本申请解决了相关技术提供的训练数据集在进行模型训练时存在模型训练效率低、灵活性差的技术问题。
本发明授权模型训练方法、数据处理方法、系统及存储介质在权利要求书中公布了:1.一种模型训练方法,其特征在于,包括: 获取原始训练集,其中,所述原始训练集为单任务数据集,所述单任务数据集包含预先确定任务类型与约束类型的样本训练数据,所述单任务数据集中的所述样本训练数据围绕单一类型任务而设计; 对所述原始训练集中的待扩充对象进行数据内容扩充,生成目标训练集,其中,所述待扩充对象包括以下至少之一:所述任务类型、所述约束类型; 响应于所述目标训练集满足预设数据验证条件,采用所述目标训练集对初始语言模型进行训练,生成目标语言模型,其中,所述目标语言模型用于对目标任务查询进行数据处理以生成目标任务回复,所述预设数据验证条件用于从多个维度验证所述目标训练集的数据质量是否适用于训练所述初始语言模型,所述多个维度包括:数据完整性、约束一致性、任务多样性、数据代表性以及输出质量; 其中,对所述原始训练集中的所述待扩充对象进行数据内容扩充,生成所述目标训练集包括: 从多个交互场景维度对所述原始训练集进行场景扩展,得到扩展数据集,其中,所述多个交互场景维度包括以下至少部分或全部维度:交互场景类型、参与交互的成员数量、参与交互的成员交互轮次; 对所述扩展数据集中的所述待扩充对象进行数据内容扩充,生成所述目标训练集,其中,所述数据内容扩充包括以下操作:任务扩展、约束增加和示例增加。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人阿里巴巴(中国)有限公司,其通讯地址为:310052 浙江省杭州市滨江区长河街道网商路699号4号楼5楼508室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。