北京极佳视界科技有限公司朱政获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京极佳视界科技有限公司申请的专利视觉语言动作模型的训练方法、装置、设备和存储介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN121259341B 。
龙图腾网通过国家知识产权局官网在2026-04-17发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511369217.4,技术领域涉及:G06V10/42;该发明授权视觉语言动作模型的训练方法、装置、设备和存储介质是由朱政;王啸峰;黄冠;倪超骏;包笑一;吕金地设计研发完成,并于2025-09-24向国家知识产权局提交的专利申请。
本视觉语言动作模型的训练方法、装置、设备和存储介质在说明书摘要公布了:本公开提供了一种视觉语言动作模型的训练方法、装置、设备和存储介质,基于环境图像提取对应的二维视觉特征和四维视觉特征,对二维视觉特征、四维视觉特征、自然语言指令的语言特征以及状态数据的状态特征进行多模态特征融合,基于多模态融合特征进行动作预测和视觉特征重建,利用生成的多模态输出数据进行模型参数更新,在不增加额外的传感器、确保模型整体参数量较小的情况下,使模型具备提取时空动态信息的能力,可以提高视觉语言动作模型在动态环境中的时间和空间推理性能,从而可以在模型推理阶段精准控制执行器在动态环境中执行自然语言指令。
本发明授权视觉语言动作模型的训练方法、装置、设备和存储介质在权利要求书中公布了:1.一种视觉语言动作模型的训练方法,其特征在于,包括: 获取多模态输入数据,所述多模态输入数据包括目标场景的环境图像、自然语言指令和状态数据,所述状态数据表征执行器在所述目标场景中的位置和姿态; 将所述环境图像输入视觉语言动作模型中的视觉几何变换器,得到所述环境图像对应的二维视觉特征和具有时序信息的四维视觉特征; 对所述二维视觉特征、所述四维视觉特征、所述自然语言指令对应的语言特征以及所述状态数据对应的状态特征进行特征融合,得到多模态融合特征; 通过所述视觉语言动作模型对所述多模态融合特征进行动作预测和视觉特征重建,得到多模态输出数据,所述多模态输出数据包括预测动作数据噪声、预期轨迹、二维重建特征和四维重建特征,所述预测动作数据噪声用于生成控制所述执行器执行所述自然语言指令的动作数据,所述预期轨迹为所述执行器执行所述动作数据过程中的移动轨迹; 基于所述多模态输出数据对所述视觉语言动作模型进行训练; 其中,所述对所述二维视觉特征、所述四维视觉特征、所述自然语言指令对应的语言特征以及所述状态数据对应的状态特征进行特征融合,得到多模态融合特征,包括: 将所述二维视觉特征、所述四维视觉特征、所述语言特征以及所述状态特征拼接为键值对; 将所述键值对输入所述视觉语言动作模型中的跨模态变换器,通过所述跨模态变换器对融合令牌和所述键值对进行交叉注意力计算,得到第一融合特征和第二融合特征,其中,所述第一融合特征基于所述二维视觉特征、所述四维视觉特征和所述语言特征融合得到,所述第二融合特征基于所述二维视觉特征、所述四维视觉特征、所述语言特征以及所述状态特征融合得到; 所述通过所述视觉语言动作模型对所述多模态融合特征进行动作预测和视觉特征重建,得到多模态输出数据,包括: 将所述第一融合特征输入所述跨模态变换器进行动作预测,得到所述预测轨迹; 将所述第二融合特征输入所述视觉语言动作模型中的动作专家模块进行动作预测和视觉特征重建,得到所述预测动作数据噪声、所述二维重建特征和所述四维重建特征。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京极佳视界科技有限公司,其通讯地址为:102206 北京市昌平区能源东路1号院1号楼3层304-68(集群注册);或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励