四川大学陈良银获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉四川大学申请的专利一种基于RGB数据和骨骼数据的双模态人体行为识别方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116092189B 。
龙图腾网通过国家知识产权局官网在2025-12-12发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310010763.3,技术领域涉及:G06V40/20;该发明授权一种基于RGB数据和骨骼数据的双模态人体行为识别方法是由陈良银;石静;张媛媛;廖俊华;刘圣杰;倪浩文设计研发完成,并于2023-01-05向国家知识产权局提交的专利申请。
本一种基于RGB数据和骨骼数据的双模态人体行为识别方法在说明书摘要公布了:本发明涉及一种基于RGB数据和骨骼数据的双模态人体行为识别方法,通过使用不同的网络结构,能够精准捕捉骨架中的动作信息和RGB模态中的空间信息,解决了Transformer框架中骨骼信息和RGB信息难以融合发挥最大效果的难题。首先,为骨骼数据生成伪热图,这可以避免将骨骼表达为图形造成的稳固性不足,无法处理多人场景的问题。然后设计了拥有不同注意力层,不同视窗大小的双流Transformer架构,并将伪热图和RGB帧以不同的时间和空间分辨率输入双流结构。最终,通过实验验证,所提出的行为识别方法,准确率更高,可以解决多人场景下的行为识别。基于该方法的双流结构和骨骼热图生成方式,适用于多种公共监控中的行为识别。
本发明授权一种基于RGB数据和骨骼数据的双模态人体行为识别方法在权利要求书中公布了:1.基于Transformer的双流RGB和骨骼双模态行为识别方法,包括如下步骤: 步骤1、使用姿态估计算法获取RGB视频中的骨骼信息; 步骤2、生成骨骼热图; 步骤3、对RGB视频和骨骼热图进行采样; 步骤4、输入双流Transformer结构; 步骤5、获取分类token信息进行横向融合;数据拥有者在输入Transformer前,对于RGB视频,将被调整大小到短边320像素的视频,在训练阶段,使用随机切割方法裁剪为224×224的大小,在验证阶段,使用中心裁剪的方法裁剪为224×224的大小,在测试阶段,分别在左上,中心,右下三个空间位置裁剪224×224的大小并输入网络取softmax平均值为最终结果;对于热图视频,生成热图时,获取能覆盖所有目标人物的最小检测框,在检测框内进行零填充,并切割检测框外与人体行为识别无关的背景;最终生成的热图大小为224×224;无需进行裁剪或调整大小的操作; 对于RGB视频和热图视频,采用同样的分解操作,以热图视频来举例,将热图视频分别分解为N不重叠的时空"管"tubes,x1,x2,...,xN∈Rt×h×w×3,其中接下来,将每个tubesxi线性地映射成一个标记encodingzi,zi=Exi;最后,将所有的encodingzi串联成一个向量z0;在第一个位置加入一个特殊的可学习向量zcls∈Rd,表示分类标记的嵌入;以及位置嵌入ppos∈RN+1×d中,也被添加到这个序列中; RGB流和骨骼流使用同样的注意力机制;该机制首先计算同一时间指针下的帧级别空间注意力;骨骼流的空间注意力层数为L′=10,RGB流空间注意力层数为L=12;对于第l层的空间注意力模块,首先计算querykeyvalue: 其中a=1,...,A表示注意力头,p=1,...,N表示空间位置,表示时间位置;表示上一层的输出;之后计算空间注意力: 其中D=N+1×d. 那么l层的输出可以通过如下公式获取: 其中s表示所有注意力头的输出向量; 在计算L′层之后,输出结果被传输给MLP层,其包含一个GELU函数和两个被GELU函数分割开的线性层: 此时,数据拥有者获得了帧级空间注意力表达其可以被视为分类特征因此我们可以将其表达为帧级表达hi∈Rd,并将帧级表达全部合并为: 空间注意力块输出获得后,可以进行双流融合; 步骤6、获取网络输出,在线性分类器中映射为分类结果。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人四川大学,其通讯地址为:610065 四川省成都市武侯区一环路南一段24号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励