中国科学技术大学查正军获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中国科学技术大学申请的专利一种基于第一人称视频的三维人-物体交互元素预测方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119625588B 。
龙图腾网通过国家知识产权局官网在2025-09-02发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411797971.3,技术领域涉及:G06V20/20;该发明授权一种基于第一人称视频的三维人-物体交互元素预测方法是由查正军;翟伟;曹洋;杨雨航设计研发完成,并于2024-12-09向国家知识产权局提交的专利申请。
本一种基于第一人称视频的三维人-物体交互元素预测方法在说明书摘要公布了:本发明公开了一种基于第一人称视角视频的三维人‑物体交互元素预测方法,其步骤包括:1、提取第一人称视频的特征、物体的点云特征和头部运动特征;2、计算物体点云的交互概念特征;3、计算主体交互意图特征;4、解码物体可供性、人体接触特征和交互语义;5、构建损失监督函数并训练。本发明综合考虑第一人称交互中的主体交互意图和客体交互概念之间的关联性,从而能准确预测第一人称视角下三维人‑物体交互元素。
本发明授权一种基于第一人称视频的三维人-物体交互元素预测方法在权利要求书中公布了:1.一种基于第一人称视角视频的三维人-物体交互元素预测方法,其特征在于,包括以下步骤: 步骤1、提取第一人称视频的特征、物体的点云特征和头部运动特征: 步骤1.1、提取第一人称视频的特征; 获取一个批次的第一人称视频,其中,代表第b个第一人称视频,代表一个批次的第一人称视频的数量,F代表每个第一人称视频的帧数,代表第一人称视频中每帧的通道数量,和分别代表第一人称视频中每帧的宽和长; 将第b个第一人称视频中的每一帧进行归一化处理后输入HRNet网络中,并得到第b个特征向量,其中,和分别为特征向量的宽和高,代表特征向量的通道数; 将在时序维度上进行一次自注意力计算后,得到第b个第一人称视频的特征; 步骤1.2、物体的点云特征; 获取同一个批次的物体点云数据,其中,代表第b个物体点云数据, o为每个物体点云数据中点的数量,代表物体点云数据的空间维度; 利用DGCNN网络提取的逐点特征; 步骤1.3、头部运动特征提取 获取同一个批次的头部运动数据,其中,代表第b个头部运动数据,12代表平移向量的3个维度和旋转向量的9个维度之和; 利用MLP层对进行编码,得到第b个头部运动特征; 步骤2、提取计算第b个物体点云数据的交互概念特征并按照空间维度切分后,得到第b个物体的可供性特征和第b个物体的交互语义特征; 步骤3、提取第b个第一人称视频中主体的交互意图特征并按照空间维度进行切分后,得到第b个主体的接触特征和第b个主体的交互语义特征; 步骤4、解码物体可供性特征、人体接触特征和交互语义特征; 步骤4.1、将和在特征维度上进行拼接后输入MLP层中进行映射,得到第b个交互语义类别,其中,M代表交互的类别数量; 步骤4.2、将经过MLP层的映射后,得到第b个人体接触顶点,其中,代表人体网格中顶点的数量; 步骤4.3、将作为查询向量Query,作为键值对,并经过交叉注意力计算后,再输入MLP层中进行映射,从而得到第b个物体可供性; 步骤5、构建总损失函数: 步骤6、利用梯度下降法对总损失函数进行优化,使得总损失函数收敛为止,从而得到从第一人称视角视频预测三维人-物体交互元素的最优模型,用于对输入的一人称视角视频进行预测,得到预测的人体接触顶点、物体可供性以及交互类别。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国科学技术大学,其通讯地址为:230026 安徽省合肥市包河区金寨路96号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。