湖南大学胡玉鹏获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉湖南大学申请的专利文本语义匹配长度偏差优化方法、电子设备及存储介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116303906B 。
龙图腾网通过国家知识产权局官网在2025-12-19发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310336010.1,技术领域涉及:G06F16/334;该发明授权文本语义匹配长度偏差优化方法、电子设备及存储介质是由胡玉鹏;郑澜涛;肖雨婷;李宗营;黄靖设计研发完成,并于2023-03-31向国家知识产权局提交的专利申请。
本文本语义匹配长度偏差优化方法、电子设备及存储介质在说明书摘要公布了:本发明公开了一种文本语义匹配长度偏差优化方法、电子设备及存储介质,聚焦于解决文本语义匹配任务模型存在的长度差异偏差的问题。本发明中,将主模型与对手模型进行共同对抗训练后,得到的文本匹配模型将难以根据给定样本预测出文本长度差异值,即文本匹配模型无需关注文本长度差异值在语义空间中的表示,因此对正常文本语义匹配任务做出预测时不会过度依赖文本长度差异,从而减少了文本长度差异偏差对模型泛化性的影响。
本发明授权文本语义匹配长度偏差优化方法、电子设备及存储介质在权利要求书中公布了:1.一种文本语义匹配长度偏差优化方法,其特征在于,包括以下步骤: S1、利用每个样本中文本对的长度差异偏差生成对抗测试集; 利用原始训练集训练文本匹配相似度预测模型; S2、利用文本匹配相似度预测模型输出的词向量训练文本长度差异预测器,所述文本长度差异预测器包括编码器和与所述编码器连接的全连接层; S3、将所述文本匹配相似度预测模型作为主模型,将经步骤S2训练后的文本长度差异预测器作为对手模型;在主模型的损失函数中加入对手模型的损失函数,通过所述主模型和对手模型的对抗,优化所述主模型,得到第一优化模型;或者,在主模型的损失函数中添加扰动,通过所述主模型和对手模型的对抗,优化所述主模型,得到第二优化模型; S4、重复步骤S2和步骤S3,利用所述对抗测试集测试第一优化模型和第二优化模型; S5、从第一优化模型和第二优化模型中选择性能更优的模型作为最终的文本匹配模型; 步骤S2的具体实现过程包括: A计算原始训练集中每个样本的长度差异值,将所有长度差异值的值域分为M个区间,为每个长度差异值分配一[0,M-1]中的整数作为其标签; B使用BERT预训练模型提供的词表,将原始训练集中的样本S*的两个文本分词化,将分词化后的结果T1′和T2′加入BERT预训练模型的token中,得到输入input={[CLS],T′1,[SEP],T′2,[SEP]},[CLS]放在句首作为整个句子的句向量,[SEP]放在句尾作为句子的结束; C将input作为文本匹配相似度预测模型encoder层Menc的输入,获得样本S*的句子向量表示h; D将所述句子向量表示h作为全连接层的输入,得到句子向量表示h对应样本S*关于长度差异值属于[0,M-1]中每个标签的概率C; E计算概率C和样本S*的真实标签的损失,反向传播所述损失,更新全连接层的权重; F对原始训练集中的所有样本,重复上述步骤D和步骤E,得到文本长度差异预测器; 或者, 步骤S2的具体实现过程包括: A计算原始训练集中每个样本的长度差异值,将所有长度差异值的值域分为M个区间,为每个长度差异值分配一[0,M-1]中的整数作为其标签; B使用BERT预训练模型提供的词表,将原始训练集中的样本S*的两个文本分词化,将分词化后的结果T1′和T2′加入BERT预训练模型的token中,得到输入input={[CLS],T′1,[SEP],T′2,[SEP]},[CLS]放在句首作为整个句子的句向量,[SEP]放在句尾作为句子的结束; C将input作为文本匹配相似度预测模型encoder层Menc的输入,获得样本S*的句子向量表示h; D将所述句子向量表示h作为全连接层的输入,得到句子向量表示h对应样本S*关于长度差异值的预测值V; E计算预测值V和样本S*的真实标签的损失,反向传播所述损失,更新全连接层的权重; F对原始训练集中的所有样本,重复上述步骤D和步骤E,得到文本长度差异预测器。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人湖南大学,其通讯地址为:410083 湖南省长沙市岳麓区麓山南路28号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励