Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 浙江工业大学杨旭华获国家专利权

浙江工业大学杨旭华获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉浙江工业大学申请的专利一种基于多粒度跨模态对比学习的连续手语识别方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119863842B

龙图腾网通过国家知识产权局官网在2025-10-03发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510009489.7,技术领域涉及:G06V40/20;该发明授权一种基于多粒度跨模态对比学习的连续手语识别方法是由杨旭华;林炫宇设计研发完成,并于2025-01-03向国家知识产权局提交的专利申请。

一种基于多粒度跨模态对比学习的连续手语识别方法在说明书摘要公布了:一种基于多粒度跨模态对比学习的连续手语识别方法,首先充分挖潜手语视频与对应手语文本之间的隐性语义映射关系;接着利用多粒度跨模态对比机制去缓解冗余帧和语义无关标识词对跨模态对齐的潜在影响,通过粗粒度视频‑句子对比与细粒度帧‑词对比策略,从全局和局部角度对视觉与文本模态的特征进行有效对齐,通过跨粒度视频‑词对比和跨粒度帧‑句子对比策略来缓解冗余帧和语义无关标识词带来的语义干扰;最后利用视觉编码器中获得的视觉嵌入,通过解码器获得手语文本句子,作为预测的连续手语识别结果。本发明充分挖潜手语视频与对应手语文本之间的隐性语义映射关系,增强了手语模型对视觉上下文的语义理解,提高了手语识别的适用性和准确性。

本发明授权一种基于多粒度跨模态对比学习的连续手语识别方法在权利要求书中公布了:1.一种基于多粒度跨模态对比学习的连续手语识别方法,其特征在于,首先充分挖潜手语视频与对应手语文本之间的隐性语义映射关系;接着利用多粒度跨模态对比机制去缓解冗余帧和语义无关标识词对跨模态对齐的潜在影响,通过粗粒度视频‑句子对比与细粒度帧‑词对比策略,从全局和局部角度对视觉与文本模态的特征进行有效对齐,通过跨粒度视频‑词对比和跨粒度帧‑句子对比策略来缓解冗余帧和语义无关标识词带来的语义干扰; 最后利用视觉编码器中获得的视觉嵌入,通过解码器获得手语文本句子,作为预测的连续手语识别结果; 所述方法包括以下步骤: 步骤一、一个手语视频的帧集合表示为,其中代表视频中的帧数,表示第1帧视频,表示第2帧视频,表示第帧视频,该手语视频对应的文本注释句子表示为; 步骤二、进行数据预处理,对手语视频数据中的视频帧进行中心裁剪、调整宽高等数据增强操作,获得处理后的视频数据,同时对手语文本注释数据进行分词等操作,获得处理后的文本数据,其中,表示该手语注释句子的词集合,代表句子中的词数量, 表示第1个文本标签,为第个文本标签,表示第个文本标签; 步骤三、使用2D卷积神经网络提取中视频帧的初始特征,随后利用一维卷积神经网络和双向长短时记忆网络分别捕获中相邻视频帧的时序特征以及长距离帧之间的依赖关系,获得视频帧的细粒度嵌入集合,其中为第1帧的细粒度嵌入,为第帧的细粒度嵌入,为第帧的细粒度嵌入,接着利用池化操作获得表示该视频整体语义特征的粗粒度嵌入; 步骤四、使用视觉解码器将细粒度嵌入转换为文本序列特征,对文本序列特征进行识别,得到多个候选的文本序列id,并使用Softmax函数选取概率最高的作为预测文本id,通过一个全连接层将该预测文本id映射到词汇表中对应的文本;遍历视频帧的细粒度嵌入集合,按照此方法获得每个细粒度嵌入对应的文本,从而获得预测的手语句子; 步骤五、计算预测手语文本与真实手语文本之间的损失函数;其中,表示所有可能出现的文本标签组合路径的集合, 为文本标签出现在路径里面的概率,代表中的词数量; 步骤六、使用CLIP文本编码器从文本数据中提取表示每个手语词特征的细粒度嵌入,接着利用Transformer模型的多层自注意力机制来捕获不同词之间的关系及其上下文信息,利用池化操作获得表示整个句子整体语义特征的粗粒度嵌入; 步骤七、计算视频和文本的粗粒度对比相似度分数; 步骤八、计算跨粒度帧和句子对比相似度分数; 步骤九、计算跨粒度视频和词对比相似度分数; 步骤十、计算视频和文本的细粒度对比相似度分数; 其中; ; 步骤十一、计算该手语视频与对应文本注释对比相似度分数的InfoNCE损失函数; 步骤十二、计算总损失函数,其中是用于平衡和的超参数; 步骤十三、计算词错率; 其中,#ins表示在预测文本手语中出现过但在真实手语文本中不存在的词的数量,#del表示在真实手语文本中出现过但在预测文本手语中没有识别出来的词的数量,#sub表示在真实手语文本中出现过但在预测文本手语中被错误识别为其他词的数量,#reference表示真实手语文本的总词数; 步骤十四、重复执行步骤三~步骤十三,当降低到指定阈值时,结束计算,把最终预测的手语文本作为手语识别结果。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人浙江工业大学,其通讯地址为:310014 浙江省杭州市拱墅区朝晖六区潮王路18号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。