Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 北京工业大学孙艳丰获国家专利权

北京工业大学孙艳丰获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉北京工业大学申请的专利基于多层注意力的视觉定位方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115984372B

龙图腾网通过国家知识产权局官网在2025-10-14发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211492369.X,技术领域涉及:G06T7/73;该发明授权基于多层注意力的视觉定位方法是由孙艳丰;张云茹;胡永利;姜华杰;尹宝才设计研发完成,并于2022-11-25向国家知识产权局提交的专利申请。

基于多层注意力的视觉定位方法在说明书摘要公布了:本发明公开了基于多层注意力的视觉定位方法,该方法基于三个模块实现:1属性注意模块:提取目标对象的细粒度的属性信息;2上下文注意模块:提取目标对象的周围环境信息;3匹配模块:结合上两个模块提取到的视觉信息与文本信息匹配找到目标对象。根据文本指导编码与文本语义信息一致的视觉信息来与文本更好的匹配,其包括局部注意力与全局注意力,局部注意力通过跨模态交互提取目标对象细粒度的属性信息;全局注意力通过建立文本为指导的图卷积模型抽取目标对象的上下文信息。两个注意力的结合可以全方位的抽取不同角度的视觉信息,来与文本信息更好的匹配。

本发明授权基于多层注意力的视觉定位方法在权利要求书中公布了:1.基于多层注意力的视觉定位方法,其特征在于,该方法基于三个模块实现:1属性注意模块:提取目标对象的细粒度的属性信息;2上下文注意模块:提取目标对象的周围环境信息;3匹配模块:结合上两个模块提取到的视觉信息与文本信息匹配找到目标对象; 属性注意模块侧重于学习目标对象内的细粒度属性信息;使用视觉引导的注意来提取与视觉相关的文本信息,并使用文本引导的注意来提取与语言相关的视觉信息,得到与文本信息相一致的视觉特征;包括特征提取、视觉引导注意和文本引导注意三个部分; 特征抽取的过程如下,首先使用目标检测器检测出图片中的所有目标对象使用ResNet提取每个候选对象的视觉特征其中对于文本r,使用双向LSTM提取文本特征其中是每个单词的特征;其中,K表示一张图片中所有实体的个数;om表示第m个实体;um表示图片中第m个实体的特征;Du×W×H表示um的维度,Du、W、H分别表示特征图um的通道数、宽、高;T表示文本单词的个数;ht表示第t个单词的特征向量;Dh表示特征向量ht的维度; 视觉引导注意使用视觉引导的注意来学习单词的注意权重,从而更新文本特征;首先,对特征um做平均池化得到实体om的特征向量pm,然后计算pm与每个单词特征的相似度: sm,t=L2NormWb1pm⊙L2NormWb2ht 其中,和为可训练参数,Db为公共空间的维数;⊙是点乘运算;L2Norm表示归一化操作;通过这种词级相似性,计算每个对象与文本单词之间的细粒度相似性,然后显著地构成可视化引导的语言嵌入zm: 其中,softmax函数定义于T个单词; 文本引导注意是学习与文本相关的视觉特征,其中更新后的文本特征zm与视觉特征图um中的每个位置相连,并通过多层感知器学习注意权重;这些公式表示为: 其中,为特征图um中具有坐标位置i,j的特征向量且i∈1,W,j∈1,H;[,]表示连接操作;为MLP的可训练参数;Dz为超参数;这样,我们就可以得到语义视觉特征,并将其定义为

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京工业大学,其通讯地址为:100025 北京市朝阳区平乐园100号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。