上海交通大学葛冬冬获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉上海交通大学申请的专利领域专用大语言模型的训练样本生成方法及训练方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120892822B 。
龙图腾网通过国家知识产权局官网在2025-12-05发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511433522.5,技术领域涉及:G06F18/214;该发明授权领域专用大语言模型的训练样本生成方法及训练方法是由葛冬冬设计研发完成,并于2025-10-09向国家知识产权局提交的专利申请。
本领域专用大语言模型的训练样本生成方法及训练方法在说明书摘要公布了:本申请实施例提供一种领域专用大语言模型的训练样本生成方法及训练方法,所述训练样本生成方法包括:对多个数据系统中的异构信息进行采集与预处理,生成与特定优化任务相关的结构化过程数据,并基于所述结构化过程数据,重建与该特定优化任务对应的优化模型的演进轨迹;以及基于所述优化模型的演进轨迹,构建指令微调样本,用于对预训练大语言模型进行定制化训练。本申请提供的方法可以解决具体工程应用中存在的训练数据质量较差的问题。
本发明授权领域专用大语言模型的训练样本生成方法及训练方法在权利要求书中公布了:1.一种领域专用大语言模型的训练样本生成方法,其特征在于,包括: 对多个数据系统中的异构信息进行采集与预处理,生成与特定优化任务相关的结构化过程数据,并基于所述结构化过程数据,重建与该特定优化任务对应的优化模型的演进轨迹;以及 基于所述优化模型的演进轨迹,构建指令微调样本,用于对预训练大语言模型进行定制化训练; 所述对多个数据系统中的异构信息进行采集与预处理,生成与特定优化任务相关的结构化过程数据,并基于所述结构化过程数据,重建与该特定优化任务对应的优化模型的演进轨迹的步骤,包括: 通过接口层与所述多个数据系统建立通信连接,以获取分布于所述多个数据系统中的多源异构信息; 对所述多源异构信息进行语义识别和筛选,提取与所述特定优化任务相关的信息,生成对应的结构化过程数据;以及 基于所述结构化过程数据,识别优化模型的演进节点及对应的内容变更,重建所述优化模型的演进轨迹; 所述基于所述结构化过程数据,识别优化模型的演进节点及对应的内容变更,重建所述优化模型的演进轨迹,包括: 对所述结构化过程数据进行时序整理,基于时序信息识别优化模型的演进节点,基于所述演进节点重建所述优化模型的演进轨迹,其中,每一演进节点对应于一次具有业务含义的模型修改事件; 所述基于所述优化模型的演进轨迹,构建指令微调样本,用于对预训练大语言模型进行定制化训练的步骤中,所述指令微调样本的构建方法包括: 基于所述优化模型的演进轨迹中包含的调整记录,构建多组输入-输出样本对,其中,所述输入包括问题描述、已有模型版本、业务反馈信息中的至少一种,所述输出包括模型的更新版本、建模策略推荐、变更原因解释的至少一种。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人上海交通大学,其通讯地址为:200030 上海市徐汇区华山路1954号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励