昆明理工大学余正涛获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉昆明理工大学申请的专利面向汉越跨语言事件检索的事件预训练方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115470393B 。
龙图腾网通过国家知识产权局官网在2025-10-21发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211029783.7,技术领域涉及:G06F16/951;该发明授权面向汉越跨语言事件检索的事件预训练方法是由余正涛;吴少扬;朱恩昌;线岩团;黄于欣设计研发完成,并于2022-08-25向国家知识产权局提交的专利申请。
本面向汉越跨语言事件检索的事件预训练方法在说明书摘要公布了:本发明涉及面向汉越跨语言事件检索的事件预训练方法,属于自然语言处理技术领域。本发明利用两个预训练方法对mBERT进行额外的预训练,首先利用事件要素掩码预训练将事件知识融入模型,改善模型对于极低资源的事件表征,接着利用跨语言对比学习,使不同语言之间具有相似含义的句子在表征空间中具有更近的距离,然后得到汉越跨语言事件预训练模型,对其进行微调以使得下游任务获得更好的性能。本发明提出的面向汉越跨语言事件检索的事件预训练方法在自建的汉越双语新闻事件检索数据集上的实验证明了本发明方法的有效性。
本发明授权面向汉越跨语言事件检索的事件预训练方法在权利要求书中公布了:1.面向汉越跨语言事件检索的事件预训练方法,其特征在于:所述面向汉越跨语言事件检索的事件预训练方法的具体步骤如下: Step1、实验数据集构建:利用爬虫技术从维基百科新闻页面爬取汉越双语新闻数据,并通过人工标注构建实验所需要的数据集,数据集包含事件要素掩码预训练数据集、跨语言对比学习数据集和汉越跨语言事件检索数据集; Step2、汉越跨语言事件预训练模型构建:利用事件要素掩码预训练和跨语言对比学习训练了一个汉越跨语言事件预训练模型,改善多语言预训练模型的汉越双语对齐表征,并将事件知识融入模型; Step3、跨语言事件检索模型构建:在Step2的基础上,对汉越跨语言事件预训练模型进行微调,获得汉越跨语言事件检索结果; 所述Step2包括,利用事件要素掩码预训练emlm和跨语言对比学习ccl对mBERT继续进行预训练,具体为: Step2.1、给定一个中文事件句,句子中的事件要素为,首先用[MASK]标记符将进行替换,然后与越南语伪平行事件句进行拼接,最后的输入是一个包含特殊标记符的序列;然后经过嵌入层以及层Transformer将其转换为对应的上下文表征,其中表示最大序列长度,表示隐藏层维度;将得到的最后一层输出的序列表示送至随后的线性层,得到每个被掩码的事件要素的概率;对于在中每一个被[MASK]标记替换的位置,最后对应的表示为,具体计算过程如下: ; ; 在事件要素掩码预训练中,只对中的事件要素进行替换,这样做的原因是鼓励模型利用越南语伪平行句的语义信息来还原被替换的部分,同时学习跨语言特征,事件要素掩码预训练的损失函数如下: ; Step2.2、给定一个中文查询短语,其对应的相关文档为,不相关文档为,通过编码器分别获得查询和文档的对应表征、、,模型的训练目标为最大化与的相似性,最小化、的相似性,具体计算过程如下: ; 其中,是任何相似度算法,将这一训练目标扩展到了查询和文档属于与不同语言的情况; 所述Step3的具体步骤为: Step3.1、给定一个中文查询短语,首先基于跨语言事件预训练模型emBERT将查询切分为序列,其中代表查询的长度,表示查询中的每个词,,与ColBERT不同,不添加标识查询的特殊标记符,而是直接在查询前添加特殊标记符[CLS],使模型学习区分不同语言的查询和文档,然后使用emBERT对查询序列进行上下文表征,最后把输出的[CLS]作为查询的上下文表示,具体对查询的编码公式如下: ; Step3.2、与查询编码器类似,将越南语的新闻文档表示为,代表文档长度,表示文档中的词,,通过emBERT获得文档的上下文表示,具体对文档的编码公式如下: ; Step3.3、在给定的查询的文档经过emBERT编码得到对应表示和后,通过后期交互机制计算查询和文档的相关性分数,使用MaxSim操作符获得得分的总和计为,具体计算过程如下所示: 。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人昆明理工大学,其通讯地址为:650500 云南省昆明市呈贡区景明南路727号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励