Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 北京航空航天大学于茜获国家专利权

北京航空航天大学于茜获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉北京航空航天大学申请的专利一种基于视觉语言Transformer的端到端视频时空视觉定位系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN113849668B

龙图腾网通过国家知识产权局官网在2025-09-02发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202111100948.0,技术领域涉及:G06F16/483;该发明授权一种基于视觉语言Transformer的端到端视频时空视觉定位系统是由于茜设计研发完成,并于2021-09-18向国家知识产权局提交的专利申请。

一种基于视觉语言Transformer的端到端视频时空视觉定位系统在说明书摘要公布了:本发明公开了一种基于视觉语言Transformer的端到端视频时空视觉定位系统,包括,视觉信息编码模块、文字嵌入模块、时空视觉定位模块和时空轨迹生成模块;视觉信息编码模块和文字嵌入模块与时空视觉定位模块连接;时空视觉定位模块与时空轨迹生成模块连接;视觉信息编码模块将视频模块从视频帧中获取视觉特征;文字嵌入模块从查询文本中提取文本编码;时空视觉定位模块用于学习视觉特征和文本编码间的交互特征,并对检测目标进行空间定位和时间定位,得到检测框信息和时间起始终止信息;时空轨迹生成模块用于生成时空轨迹预测结果;通过本发明能够同时完成时间和空间上的视觉定位可以学习更好的特征表征,以达到更优的定位效果。

本发明授权一种基于视觉语言Transformer的端到端视频时空视觉定位系统在权利要求书中公布了:1.一种基于视觉语言Transformer的端到端视频时空视觉定位系统,其特征在于,包括,视觉信息编码模块、文字嵌入模块、时空视觉定位模块和时空轨迹生成模块;所述视觉信息编码模块和文字嵌入模块与时空视觉定位模块连接;所述时空视觉定位模块与时空轨迹生成模块连接;所述视觉信息编码模块用于从视频帧中获取检测目标的视觉特征;所述文字嵌入模块用于从查询文本中提取检测目标的文本编码;所述时空视觉定位模块用于学习所述视觉特征和所述文本编码间的交互特征,并对检测目标进行空间定位和时间定位,得到检测框信息和时间起始终止信息;所述时空轨迹生成模块用于将生成的检测框信息在时间域和空间域上结合,得到包含检测目标的时空轨迹块; 其中,所述时空视觉定位模块包括跨模态特征学习模块;所述跨模态特征学习模块获取文本编码和视觉特征,生成文本引导的视觉特征和视觉引导的文本特征;所述跨模态特征学习模块包括视觉分支模块;在所述视觉分支模块中构建时空组合分解模块保留空间信息; 所述时空组合分解模块包括时序池化模块、空间池化模块、组合模块、多头注意力模块、分解模块、复制模块和归一化模块; 时序池化模块用于采集视觉特征产生T×C的初步时序特征,其中T表示视频帧数,C表示特征图通道数,H表示高度,W表示宽度; 空间池化模块用于采集视觉特征产生形状为HW×C的初步空间特征, 组合模块用于将所述初步时序特征和初步空间特征在特征维度上连接,构成尺寸为T+HW×C的组合视觉特征; 多头注意力模块用于根据组合视觉特征和文本特征进行注意力运算,生成初步文本引导的视觉特征; 分解模块用于根据初步文本引导的视觉特征,生成文本引导的时序特征和文本引导的空间特征; 复制模块用于对所述文本引导的时序特征复制HW次,对所述文本引导的空间特征复制T次,得到尺寸为T×HW×C的复制时序特征和复制空间特征; 归一化模块用于对复制时序特征、复制空间特征和视觉输入特征进行相加后的结果进行归一化,生成中间视觉特征;最后一层的输出为文本引导的视觉特征。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京航空航天大学,其通讯地址为:100191 北京市海淀区学院路37号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。