Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 西北工业大学曹聪琦获国家专利权

西北工业大学曹聪琦获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉西北工业大学申请的专利一种手势动作识别的方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115346269B

龙图腾网通过国家知识产权局官网在2025-08-05发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210836930.5,技术领域涉及:G06V40/20;该发明授权一种手势动作识别的方法是由曹聪琦;王祎哲;张艳宁设计研发完成,并于2022-07-15向国家知识产权局提交的专利申请。

一种手势动作识别的方法在说明书摘要公布了:本发明公开了一种手势动作识别的方法,基于现有的ResNet网络,提出了三个网络模块:提供了一个空间注意力模块,在该模块中计算相隔长距离的帧之间的RGB差异,基于该差异来计算空间注意力图,从而给不同的空间位置赋予不同的权重;提供了一个长短距离时间位移模块,在该模块中同时做长距离的时间位移和短距离的时间位移操作,同时建模长期时间信息和短期时间信息;提供了一个标签关系模块来建模不同类别之间的语义信息,该模块首先使用语义模型来对手势类别的标签进行编码,然后使用标签关系模块来建模类别之间的关系从而辅助分类。本发明可以以较小的计算代价和内存消耗提升手势识别的准确率。

本发明授权一种手势动作识别的方法在权利要求书中公布了:1.一种手势动作识别的方法,其特征在于,包括如下步骤: 步骤1:获取待处理视频中的T个视频帧,做数据预处理后作为手势动作识别模型的输入; 步骤2:将处理后的视频帧送入到增加空间注意力模块和长短距离时间位移模块的ResNet神经网络中,对于ResNet中的每一个Bottleneck,具体操作如下: 步骤2-1:对于送入Bottleneck的特征图X={X1,...XT}∈RT×C×H×W,X1,...XT分别表示每一帧的输入图像,C、H、W分别表示输入图像的通道数目及图像的高度和宽度;首先将特征图X通过空间注意力模块,计算长距离帧之间的RGB差异,并依据该差异计算出空间注意力图,从而给不同的空间位置赋予不同的权重;具体如下: 首先计算相隔T2帧之间的RGB差异,即计算Xt和Xt+T2之间的RGB差异: Dt=Xt+T2-Xt,t∈{1,2,...T2} 其中Dt是相隔T2帧之间的RGB差异;接下来,将Dt沿着时间维度拼接起来,得到最终的运动模式变化矩阵D: D=[D1,...,DT2∈RT2×C×H×W 采用时间维度的平均池化层来对运动模式变化矩阵D进行池化,以此来获得整个视频中模式变化发生的位置: Davg=PoolD,Davg∈R1×C×H×W 式中,Davg表示沿时间维度对运动模式变化矩阵D进行池化的结果; 接下来,使用一个3×3的卷积层来对Davg进行卷积,然后经过一个sigmoid层来获取空间注意力图M: M=σconv*Davg,M∈R1×C×H×W 式中,σ.表示sigmoid函数;conv表示一个3×3的卷积层; 最后将输入X和空间注意力图M两个矩阵的对应元素做乘积,得到最终空间注意力模块的输出: Xo=X⊙M 步骤2-2:长短距离时间位移模块; 首先将长短距离时间位移模块的输入沿着通道维度将其划分为三个部分,即选择18的通道作为短期时间位移部分Xs,18的通道作为长期时间位移部分Xl,剩余部分为Xo; 对于短期时间位移部分Xs,将其做短时间的时间位移,选择Xs一半的通道向前移动1个时间步,另一半向后移动1个时间步; 对于长期时间位移部分Xl,将其做长时间的时间位移,选择Xl一半的通道向前移动T2个时间步,另一半向后移动T2个时间步; 对于剩余部分Xo则保持不变; 最终计算上述3个部分的加权和: X‘=Xs×α+Xl×β+Xo 其中α和β分别表示长距离时间位移和短距离时间位移的重要性系数; 步骤3:在经过步骤2中的多个Bottleneck后,得到了用于分类的视觉信息v;在类别关系模块中,融合视觉信息v以及从语义编码模型中构建的语义信息来进行分类; 步骤3-1:构建语义信息;通过phrase-Bert语义编码模型对不同手势的类别标签进行编码,以此来获得语义信息We; 步骤3-2:建模类别标签之间的关系;基于步骤3-1所获得的语义信息,将语义信息编码通过3个线性层转化成Q,K,V;Q、K、V分别表示由语义信息编码经线性层转化所得到的查询矩阵、关键字矩阵和; f,g,h:Q=f·We,K=g·We,V=h·We 式中,f、g、h分别表示转化语义信息的3个线性层;N表示动作的类别数目,即标签的数目,Q,K, 通过Q和K计算自注意力矩阵,再将该自注意力矩阵与V相乘得到Attn; 通过一个线性层l对齐Attn和We的维度,并将对齐后的Attn与We相加: Ge=l·Attn+We 步骤3-3:将ResNet原来的分类层替换为同时结合语义信息和视觉信息的分类层Glinear; 通过步骤3-2的自注意力模块,得到一个新的包含类间关系的语义空间,将该语义空间与之前的视觉信息v相结合,从而得到分类结果p: Glinear:p=softmaxGePv+b 其中是一个可学习的参数,用以融合视觉和语义信息; 步骤4:将步骤3的结果做时间上的平均,得到最终的分类识别结果。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人西北工业大学,其通讯地址为:710072 陕西省西安市友谊西路;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。