南京邮电大学张燕获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉南京邮电大学申请的专利面向分类任务的基于大小模型协同的数据生成方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120822037B 。
龙图腾网通过国家知识产权局官网在2025-11-11发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511317553.4,技术领域涉及:G06F18/214;该发明授权面向分类任务的基于大小模型协同的数据生成方法是由张燕;孙雁飞;徐伟;亓晋;华佳琳;董振江设计研发完成,并于2025-09-16向国家知识产权局提交的专利申请。
本面向分类任务的基于大小模型协同的数据生成方法在说明书摘要公布了:本发明属于数据生成技术领域,公开了一种面向分类任务的基于大小模型协同的数据生成方法,包括步骤1、收集原始数据集;步骤2、确定生成数据规模;步骤3、利用大语言模型生成新的生成数据;步骤4、校验生成新的生成数据的逻辑一致性;步骤5、对新的生成数据质量评分,形成仅针对新的生成数据的综合评分;步骤6、基于原始训练数据集和新的生成数据进行小模型训练。本申请实现数据生成的精准化与自适应调整,从源头上杜绝低质量数据流入训练环节,实现对生成数据的精准量化评分,通过阶段适配的规则调整实现合成数据的精准应用。
本发明授权面向分类任务的基于大小模型协同的数据生成方法在权利要求书中公布了:1.一种面向分类任务的基于大小模型协同的数据生成方法,其特征在于:所述数据生成方法具体包括以下步骤: 步骤1、数据准备:收集原始数据集,对原始数据集进行预处理,对预处理后的数据进行分类标注,明确每个数据所属的类别,并将其划分为原始训练数据集和原始测试数据集; 步骤2、确定生成数据数量:结合原始训练数据集的样本不均衡度评估结果和小模型性能差异确定不同类别新生成数据数量; 步骤3、数据生成:根据步骤2确定的不同类别新生成数据规模,利用大语言模型为不同类别生成对应数量的新数据,此生成过程为迭代生成,每次生成一批新数据; 步骤4、生成数据一致性校验:依据逆向生成与正向推导验证方法,校验步骤3生成的新生成数据的逻辑一致性; 步骤5、基于小模型对新生成数据训练过程中的性能表现对新生成数据进行质量评分,形成仅针对新生成数据的综合评分; 步骤6、基于原始训练数据集和新生成数据进行小模型训练,其中:所述步骤2具体包括以下步骤: 步骤2.1、统计原始训练数据集中各类别数据的数量; 步骤2.2、采用原始类别比例和基尼系数的多维度指标对各类别数据的数量进行综合量化,形成对原始训练数据集分布不均衡程度评估结果; 步骤2.3、设置不平衡程度阈值,依据步骤2.2得到的原始训练数据集分布不均衡程度评估结果,决策数据生成数量分配策略,生成基础生成权重,当不均衡程度处于低区间即基尼系数小于等于不均衡程度阈值时,采用平均分配策略,当不均衡程度处于高区间即基尼系数大于不均衡程度阈值时,采用按比例分配策略即各类别生成数据数量与类别比例成反比; 步骤2.4、基于分布不均衡程度评估结果,初步确定各类别基础生成数据数量; 步骤2.5、引入小模型性能反馈维度,结合基础生成权重与小模型性能指标,构建生成数据样本权重模型,实现对基础生成数据数量的二次调整,具体为: , 其中,为类别的基础生成权重,为调整后的类别的生成权重,为原始训练数据集中数据的总类别数,为数量均衡因子,小模型在原始测试数据集的性能指标,为性能调整因子,基于二次调整后的生成权重,计算各类别的生成数据数量: , 其中,为生成数据总量; 步骤2.6、建立生成过程实时监测与动态优化:持续追踪已生成数据的分布不均衡程度及小模型在新增数据上的性能波动,通过预设的不均衡改善度评估函数,实时评估当前生成策略的有效性,评估结果计算公式如下: , 其中,为当前生成数据的基尼系数,为小模型在新增数据上的提升值,和分别为数量均衡和性能提升权重参数,若评估结果低于评估有效性阈值,自动触发生成参数迭代机制。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人南京邮电大学,其通讯地址为:210003 江苏省南京市鼓楼区新模范马路66号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励