重庆邮电大学蒲天豪获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉重庆邮电大学申请的专利一种基于粒球聚类的文本翻译方法和系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119599034B 。
龙图腾网通过国家知识产权局官网在2025-10-24发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411658560.6,技术领域涉及:G06F40/58;该发明授权一种基于粒球聚类的文本翻译方法和系统是由蒲天豪;夏书银;王泽丽;刘林萍设计研发完成,并于2024-11-20向国家知识产权局提交的专利申请。
本一种基于粒球聚类的文本翻译方法和系统在说明书摘要公布了:本发明涉及一种基于粒球聚类的文本翻译方法和系统,包括:采用爬虫技术定期获取文本数据集并进行预处理;利用分词工具对获取的文本数据进行分词处理,并利用分词处理得到的词对词库进行更新;基于预训练的大语言模型对词库中的词进行编码得到词的词向量表示;根据词库中词的词向量表示利用粒球聚类算法自适应地生成词库中词的同义词集;利用训练文本中词的同义词对其进行替换生成训练文本的对抗样本;根据训练文本和对抗样本构建训练集,基于构建的训练集对基于大语言模型的文本翻译模型进行训练;通过训练好的文本翻译模型对待翻译的文本进行翻译,发明能够提高翻译的准确性和可靠性。
本发明授权一种基于粒球聚类的文本翻译方法和系统在权利要求书中公布了:1.一种基于粒球聚类的文本翻译方法,其特征在于,包括: S1:采用爬虫技术定期获取文本数据集并进行预处理; S2:利用分词工具对获取的文本数据进行分词处理,并利用分词处理得到的词对词库进行更新; S3:基于预训练的大语言模型对词库中的词进行编码得到词的词向量表示; S4:根据词库中词的词向量表示利用粒球聚类算法自适应地生成词库中词的同义词集; 利用粒球聚类算法动态的生成词库中词的同义词集包括: S41:将词库中所有的词作为初始球粒集合; S42:计算球粒集合中所有词的词向量两两之间的余弦距离矩阵;在余弦距离矩阵中选择两个差异最大的词a和b;并将两个语义差异最大的词a和b分别放入两个新的球粒集合; S43:遍历原球粒集合中每个词c,如果词c和词a的余弦距离大于词c和词b的余弦距离,则将词c加入词b所在的新球粒集合,反之则将词c加入词a所在的新球粒集合; S44:针对每个新球粒集合重复执行步骤S42~S44,直至球粒集合的密度达到设定阈值为止,输出多个球粒集合,每个球粒集合代表一个同义词集; 所述球粒集合的密度包括: 其中,Degb表示球粒集合,n表示球粒集合中词的数量,xi表示第i个词的词向量;c0表示球粒集合的中心;d表示余弦距离; S5:利用训练文本中词的同义词对其进行替换生成训练文本的对抗样本; 所述步骤S5包括: S51:以引入最小的扰动来误导文本翻译模型为目标构建目标函数:其中,P表示目标函数,X表示训练文本;Xadv表示引入扰动后的对抗文本;gX,Xadv表示文本X和文本Xadv的语义相似度;mX表示文本X的语义困惑度; S52:利用训练文本中词的同义词集对训练文本中的词进行随机替换生成遗传算法的初始种群; S53:基于生成的遗传算法的初始种群利用遗传算法对构建的目标函数进行求解得到最优的对抗文本; S6:根据训练文本和对抗样本构建训练集,基于构建的训练集对基于大语言模型的文本翻译模型进行训练;通过训练好的文本翻译模型对待翻译的文本进行翻译。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人重庆邮电大学,其通讯地址为:400065 重庆市南岸区南山街道崇文路2号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励