华东师范大学王廷获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉华东师范大学申请的专利一种基于领域模板预训练的小样本文本分类方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115840820B 。
龙图腾网通过国家知识产权局官网在2025-07-25发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211598846.0,技术领域涉及:G06F16/353;该发明授权一种基于领域模板预训练的小样本文本分类方法是由王廷;贾晨阳设计研发完成,并于2022-12-14向国家知识产权局提交的专利申请。
本一种基于领域模板预训练的小样本文本分类方法在说明书摘要公布了:本发明公开了一种基于领域模板预训练的小样本文本分类方法,其特点是该方法使用与目标任务相关的领域内数据集进行模板构建,然后使用构建之后的数据对预训练语言模型进行进一步的预训练,对目标任务数据集进行混合模板的构建,并对目标数据集数据进行预处理,使用进一步预训练之后的模型再对目标任务进行训练及验证,得到预测的词语,使用标签词映射器,将预测的词映射为最后的目标标签。本发明与现有技术相比具有训练速度更快,对硬件性能要求较低,更好的利用了预训练语言模型,使用较少的数据也能够来达到更好的分类效果,提高了目标任务的分类准确率,为相关领域的技术发展提供了技术支撑。
本发明授权一种基于领域模板预训练的小样本文本分类方法在权利要求书中公布了:1.一种基于领域模板预训练的小样本文本分类方法,其特征在于,采用与目标任务相关的领域数据集对使用的预训练语言模型进行进一步训练的方法,通过数据预处理、参数处理、混合模板和多标签映射进行小样本文本分类,具体包括以下步骤: 1)使用与目标任务领域相关的数据集进行提示模板的构建,得到领域数据; 2)以MLM为目标任务对领域数据选用的预训练语言模型进行预训练,生成进一步预训练语言模型; 3)对训练数据集采用类别均衡采样,对长文本进行首尾相同长度截断,对短文本进行动态填充; 4)使用目标数据集进行离散模板和连续模板结合的混合模板构建方法,进行提示混合模板的构建; 5)使用生成的进一步预训练语言模型对目标任务进行训练及预测,对学习率参数进行调整,得到预测答案; 6)根据预测答案使用多标签映射器,对模型预测的词根据答案空间进行目标任务的实际标签的标签映射转换,得到最后的输出标签,实现小样本文本分类; 所述步骤1)使用与目标任务领域相关的数据集进行提示模板的构建,若输入数据为X,使用为提示函数用于添加提示信息,构建成由下述(a)式定义的: (a); 其中,x为领域数据集文本数据;为模板构建函数;x’为领域数据集经模板构建后的数据; 所述步骤4)使用人类可理解的自然语言模板和机器理解的编码语言模板对目标数据集进行提示混合模板的构建,使用目标任务的训练数据Xtarget,经过模板设计为{soft:This}topic{soft:is}{mask}{Xtarget},其中soft为机器理解的可调模板,并进行根据任务初始化;topic为语言转化成对应的Embedding形式的自然语言模板;mask为将要进行预测的值;Xtarget为原有输入序列。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人华东师范大学,其通讯地址为:200241 上海市闵行区东川路500号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。