厦门大学陈毅东获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉厦门大学申请的专利一种用于手语翻译的新型词级对比学习框架及手语翻译系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116092191B 。
龙图腾网通过国家知识产权局官网在2025-12-23发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310062798.1,技术领域涉及:G06V40/20;该发明授权一种用于手语翻译的新型词级对比学习框架及手语翻译系统是由陈毅东;叶培根;史晓东设计研发完成,并于2023-01-16向国家知识产权局提交的专利申请。
本一种用于手语翻译的新型词级对比学习框架及手语翻译系统在说明书摘要公布了:一种用于手语翻译的新型词级对比学习框架及手语翻译系统,涉及计算机视觉和手语语言学。新型词级对比学习框架ConSLT包括视频输入模块、视觉提取模块、手语编码模块、句子嵌入模块、手语解码模块、对比学习模块、损失计算模块、输出模块;方法:1手语语料选取建模;2手语视觉特征提取;3端到端手语视频转换;4训练阶段句子嵌入;5构建正例对及负例对;6手语翻译模型损失计算;7手语翻译结果输出。从自然语言处理的角度探索手语翻译的对比学习,直接利用数据本身作为监督信息,在低资源情况下也可以学习到很好的手语表示,使手语翻译系统更精准,更流畅。ConSLT框架不受模型限制,适用于不同的模型。
本发明授权一种用于手语翻译的新型词级对比学习框架及手语翻译系统在权利要求书中公布了:1.一种基于对比学习的手语翻译方法,其特征在于包括以下步骤: 1手语语料选取建模;所述手语语料选取建模是在视频输入模块对手语语料进行选取建模,将手语语料中的手语视频以视频帧的形式输入到模型中; 所述手语语料包含手语视频、手语词注、口语句子三元组,该三元组记为D={x,z,y}∈X,Z,Y;其中,X,Z,Y分别表示手语视频、手语词注、口语句子; 具体的,表示T帧的手语视频,是对应的手语词注序列,是对应的口语句子;手语词注序列是一个逐字的手语转录,由于手语词注和口语语法的显著区别,手语词注序列的词序与口语句子不同;Tz和Ty分别是手语词注序列和口语句子的长度; 2手语视觉特征提取;所述手语视觉特征提取是在视觉提取模块将手语视频每一帧使用卷积神经网络对手语视频进行特征提取,得到包含手语视觉信息的序列特征; 3端到端手语视频转换; 所述端到端手语视频转换是将提取到的视觉特征向量送至手语编码模块,通过编码器解码器得到隐藏表示;在接受到手语编码模块的输出的向量后,手语解码模块通过编码模块的特征向量去生成翻译结果; 具体的,手语语料中的手语视频建模后采用基于transformer的编码器-解码器结构进行视频到文本的转换; 手语编码模块用于学习有意义的时空表示和手语表示,通过对齐手语视频中手语词注,将视觉信息编码到文本空间中,为手语翻译任务提供帮助;使用CTC损失对齐手语视频中的手语词注;手语编码模块输出含有手语语义信息的特征向量;手语编码模块中带有注意力机制,注意力机制摆脱输入序列长度的限制,是一种使模型对重要信息重点关注并充分学习吸收的技术; 手语视频的帧级表示由一个预先训练好的手语嵌入网络提取;通过位置编码positionalencoding,PE方法为编码器的输入embedding添加位置信息到帧级表示;输入的input送入transformer编码器模块,生成手语视频的隐藏表示;这些操作表述为: fi=SignEmbeddingxi,1 其中,i∈[1,Tx]表示视频的第i帧;SigEmbedding表示预先训练好的手语嵌入网络,PE表示编码器的输入embedding添加位置信息到帧级表示,Encdoer表示编码器; 在接受到手语编码模块的输出的向量后,有一个begin的标识符,识别到begin后,手语解码模块通过编码模块的特征向量生成翻译结果;解码阶段的每个步骤都从输出序列中输出一个单词;每个步骤的输出在下一个时间步骤中被输入到底部解码器,使其解码结果向上输出给更高一层;在这些解码器输入中嵌入并添加位置编码以指示每个单词的位置,重复此过程,直到到达出现标识符end,表示解码模块已经完成输出; 手语解码模块有一个掩码注意力机制,主要是因为解码是一个顺序操作的过程,在第k个时间步预测单词时,只能看到前k-1个预测结果,因此要对后续部分内容进行掩码操作;同时在解码器的注意力机制中,K,V来自编码器的输出,而Q则来自解码器的上一个输出; 这些操作表述为: wt=WordEmbeddingyt,4 ot=softmaxWht+b.7 其中,py|x}的条件概率和目标函数计算如下: 4训练阶段句子嵌入:在训练阶段,句子嵌入模块输入手语视频x对应口语句子y,作为训练阶段的答案;将口语句子y转为句子嵌入,将文本中的文字表示转为向量表示,为了在高位空间中捕捉词汇间的关系,使用一个线性层将文字表示投影到高维空间中; 5构建正例对及负例对,具体步骤为: 采用不同的dropout采样,将一个符号视频x送入模型两次;由于dropout机制在transformer中随机丢弃部分单元,为每个词yt获得两个不同的隐藏表征,表示为ht和为每个词yt构建正数对 对于解码步骤中的每个词,ConSLT框架将其和由dropout生成的增强版本作为正例对;ConSLT不使用所有其他批次的句子或词作为负面例子,而是随机抽取词汇表中不在当前句子中的K个词作为负面例子来挖掘不同的负面例子;给定一个句子y,将句子y中的所有词集表示为S;从一个候选词集词汇表V中不在当前句子S中的所有词中随机抽取K个词,为每个词yt构建一个负面样本子集将y-通过一个负例embedding查找表为每个词构建负例对 6手语翻译模型损失计算,具体步骤为:在损失计算模块,使用CTC损失函数计算手语编码模块中对齐手语词注的对齐损失,使用交叉熵损失函数计算手语解码模块中生成单词的翻译损失,使用KL散度计算将手语视频输出两次得到的解码模块输出的对比损失; 7手语翻译结果输出。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人厦门大学,其通讯地址为:361005 福建省厦门市思明区思明南路422号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励