重庆邮电大学林峰获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉重庆邮电大学申请的专利融合大模型的多模态行人指挥手势识别方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119360447B 。
龙图腾网通过国家知识产权局官网在2025-10-21发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411492294.4,技术领域涉及:G06V40/20;该发明授权融合大模型的多模态行人指挥手势识别方法是由林峰;陈炜乐;蒋建春设计研发完成,并于2024-10-24向国家知识产权局提交的专利申请。
本融合大模型的多模态行人指挥手势识别方法在说明书摘要公布了:本发明涉及一种融合大模型的多模态行人指挥手势识别方法,属于自动驾驶领域。其包括:收集行人数据集,并进行数据集划分;采用预训练的行人检测模型从数据集中提取人体关键点;通过目标追踪网络对提取的人体关键点信息进行处理,得到动态的关键点轨迹信息;建立用于识别手势的多模态动作识别模型,其至少包括骨架编码器和文本编码器;多部分对比学习损失训练优化多模态手势识别模型,得到识别结果。将训练好的模型安装至自动驾驶汽车上,对行人手势进行区分,准确判断行人的意图。本发明方法采用多模态框架,识别精度高、识别速度快。
本发明授权融合大模型的多模态行人指挥手势识别方法在权利要求书中公布了:1.一种融合大模型的多模态行人指挥手势识别方法,其特征在于:所述方法包括以下步骤: S1、收集多种场所、多个时间段的行人数据集,并进行数据集划分; S2、采用预训练的行人检测模型从数据集提取人体关键点,并在数据集中生成对应的文本提示; S3、通过目标追踪网络对提取的人体关键点信息进行处理,得到动态的关键点轨迹信息; S4、建立用于识别手势的多模态动作识别模型,其至少包括骨架编码器和文本编码器; S5、多部分对比学习损失训练优化多模态手势识别模型,得到识别结果; 在步骤S4中,多模态手势识别模型至少包括骨架编码器Es和文本编码器Et,其分别用于生成骨架特征和文本特征,其中, 骨架编码器Es采用图卷积网络作为骨干网络,其内部包括多个图形卷积层和多个多尺度时间卷积模块; 文本编码器Et采用基于Transformer架构的语言模型,其首先进行标准的分词处理,然后再经过Transformer模块进行处理,输出用于表示文本描述的特征向量; 在步骤S5中,Es使用交叉熵损失和多部分对比损失进行训练,并将部分文本描述作为额外指导,文本指导内容由GPT-4生成,全连接层连接对齐的骨架特征与文本特征,采用以下损失函数对模型进行训练: 其中,Lcls为交叉熵分类损失,S∈RB*3*N*T,B是批量大小,上标第二个数字是坐标号,N和T分别是关节号和序列长度,λ是一个可学习的权衡参数,T是LLM生成的文本描述; 动作描述采用带有一个骨架编码器Es和一个文本编码器Et的自然语言的监督下的骨骼语言对比学习,双编码器分别对骨架数据和操作描述进行编码,其中,双编码器通过在批处理中的两个方向上对比skeleton-text对来联合优化: 其中,s、t是骨架和文本的编码特征,simsi,ti是余弦相似度,τ是温度参数,B是批量大小; 在计算损失时,选择使用KL散度作为骨架与文本的对比损失: 其中,D是整个数据集,ys2t和yt2s地面实况相似性分数,负对的概率为0,正对的概率为1; 步骤S5包括以下步骤: S51、多部分对比学习:将骨骼划分为若干区域,并分别对每个区域的局部特征以及整体特征应用多部位对比损失,其中,部位特征通过关节池化的方式将同一分组内的关节特征进行聚合获得;骨骼划分后的区域包括:头部、手臂、躯干和腿脚,多部位对比损失的损失函数表示为: 其中,K是分组总数; S52、行人手势识别:在模型中预先录入N中行人手势,其包含手势对应的行人意图信息,再使用Transformer作为解码器,激活函数采用Softmax函数,输出当前时刻N种指挥动作类别的概率,概率最大的为当前指挥动作。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人重庆邮电大学,其通讯地址为:400065 重庆市南岸区黄桷垭崇文路2号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励