大连理工大学;国投智能(厦门)信息股份有限公司孙媛媛获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉大连理工大学;国投智能(厦门)信息股份有限公司申请的专利一种提高向量检索性能的文本数据增强方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119961436B 。
龙图腾网通过国家知识产权局官网在2025-08-26发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510139067.1,技术领域涉及:G06F16/334;该发明授权一种提高向量检索性能的文本数据增强方法是由孙媛媛;凤文铎;罗凌;徐博;林国凯;王海滨设计研发完成,并于2025-02-08向国家知识产权局提交的专利申请。
本一种提高向量检索性能的文本数据增强方法在说明书摘要公布了:本发明提供了一种提高向量检索性能的文本数据增强方法,属于计算机数据分析领域。该方法首先使用大语言模型的提示模板对长文本数据进行压缩处理,将其分解为若干条短文本;在训练过程中,这些短文本将替换原来的长文本被用作训练数据,从而节约单条信息占用的显存大小;为应对文本长度缩短可能导致的表示能力下降问题,本发明通过组合来源于同一长文本的多条短文本构建出指引向量,并将指引向量作为辅助信息指导单个短文本的编码过程。通过这种方式,本发明能够有效地减少文本缩短对模型表示能力的不利影响,从而在使用更短的单条信息的前提下,提升模型的训练效果和泛化能力。
本发明授权一种提高向量检索性能的文本数据增强方法在权利要求书中公布了:1.一种提高向量检索性能的文本数据增强方法,其特征在于,包括以下步骤: S1、获取数据集并对所述数据集进行预处理; S2、利用预处理后的数据集对预训练模型进行对比学习训练,得到训练好的初级检索模型; S3、基于大语言模型对预处理后的数据集中的正例文档进行语义解耦,将正例文档分解为若干条短文本;并对所述短文本数据进行筛选,得到增强数据集,格式为查询,正例,负例,增强短文本集合; S4、基于所述初级检索模型对所述增强数据集中的数据进行聚合构建出指引向量,利用所述指引向量指引所述初级检索模型的训练,得到最终的检索模型;所述指引向量的构建方式为: 加载所述初级检索模型,将所述增强数据集划分成若干个训练批次;在一个批次的训练任务中,将该批次内的查询、正例、负例、增强短文本集合全部编码为高维向量,其中增强短文本集合不经过池化层;将来自同一查询的所有短文本高维向量相加得到拼接向量;再将拼接向量通过一层全连接层,一层残差连接,并使其投影到一个高层语义空间;对每个查询的拼接向量依照向量位置拆分,基于每个位置的向量之间的欧式距离进行聚类生成若干个词组向量;对于每个查询向量,计算该查询向量与各词组向量之间的KL散度,并将最小KL散度所对应的词组向量作为指引向量。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人大连理工大学;国投智能(厦门)信息股份有限公司,其通讯地址为:116024 辽宁省大连市甘井子区凌工路2号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。