恭喜浙江工业大学王蒙蒙获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜浙江工业大学申请的专利一种可学习低秩双线性行为感知方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120071445B 。
龙图腾网通过国家知识产权局官网在2025-07-01发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510547601.2,技术领域涉及:G06V40/20;该发明授权一种可学习低秩双线性行为感知方法是由王蒙蒙;徐梦;李宇龙;沈国江;孔祥杰;杜嘉欣;朱李楠;潘企弘设计研发完成,并于2025-04-28向国家知识产权局提交的专利申请。
本一种可学习低秩双线性行为感知方法在说明书摘要公布了:本发明涉及图像或视频识别领域,尤其涉及一种可学习低秩双线性行为感知方法,包括:(1)建立以图像大模型为基础加入视频时空建模迁移至视频任务的框架;(2)在框架内构建视频行为识别模型,包括:视频编码器、多尺度聚合器、文本编码器、多任务解码器;(3)构建一种大模型主分支冻结仅新加参数学习的训练机制,利用服务器对视频行为识别模型进行训练,通过优化目标函数,直至网络收敛,获取局部最优网络参数,得到训练好的视频行为识别模型;(4)将待识别的视频序列输入到训练好的视频行为识别模型中识别人类行为。本发明的有益效果在于:能高精度地识别视频中的人类行为,在多个动作识别数据集中达到了先进的性能。
本发明授权一种可学习低秩双线性行为感知方法在权利要求书中公布了:1.一种可学习低秩双线性行为感知方法,其特征在于包括以下步骤: (1)建立以图像大模型为基础加入视频时空建模迁移至视频任务的框架; (2)在框架内构建视频行为识别模型,包括: (2.1)建立用于时空建模和提取视频级特征的视频编码器;具体实施步骤包括: (2.1.1)每个图像大模型Transformer层由L个重复块组成,遵循PEFT范式,每个块均添加一个时空适配器; (2.1.2)针对时空适配器,给定特征,其中,T为采样帧数,L为令牌数,C1为特征通道数,R是形状为(T,L,C1)的实数矩阵集合; (2.1.3)引入可学习双线性融合机制,其表述为:,其中,是形状为(C1,C1)的可学习权重矩阵,是形状为(C1,C)的可学习投影矩阵,C为投影后的特征通道数; (2.1.4)引入多头处理,其中,符号[…]表示连接操作,H为头数,是为第h个头划分的给定特征的子空间表示,是第h个头形状为(C1H,C1H)的可学习权重矩阵,是第h个头形状为(C1H,CH)的可学习投影矩阵,CH为投影后的特征通道数; (2.1.5)引入低秩潜空间分解,使给定特征A、B在共享的低秩潜空间内执行可学习双线性融合,最后从潜空间投影到期望的输出维度,其过程表述为,其中,均为第h个头形状为(C1H,r)的可学习投影矩阵,r为投影后的潜空间维数且,是第h个头形状为(r²,CH)的可学习投影矩阵; (2.1.6)将给定原始输入特征Z、时空适配器全局时间增强所得特征、时空适配器局部时间差分建模所得特征、时空适配器双线性融合模块进行更深度的特征交互,最终的特征融合过程表述如下:,其中,为类令牌,为第t帧视频特征令牌; (2.2)建立用于聚合视频编码器中多级特征和增强特征的多尺度聚合器; (2.3)建立用于捕获语义信息和提取文本特征的文本编码器; (2.4)建立集成来自多尺度聚合器和文本编码器的特征并进行多模态学习的多任务解码器; (3)构建一种大模型主分支冻结仅新加参数学习的训练机制,利用服务器对视频行为识别模型进行训练,通过优化目标函数,直至网络收敛,获取局部最优网络参数,得到训练好的视频行为识别模型; (4)将待识别的视频序列输入到训练好的视频行为识别模型中识别人类行为。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人浙江工业大学,其通讯地址为:310012 浙江省杭州市拱墅区潮王路18号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。