Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
专利交易 商标交易 积分商城 国际服务 IP管家助手 科技果 科技人才 会员权益 需求市场 关于龙图腾 更多
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 湖南师范大学周炫余获国家专利权

湖南师范大学周炫余获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉湖南师范大学申请的专利多模态信息交互的弱监督场景理解方法、系统及设备获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN121305053B

龙图腾网通过国家知识产权局官网在2026-03-20发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511875542.8,技术领域涉及:G06V10/25;该发明授权多模态信息交互的弱监督场景理解方法、系统及设备是由周炫余;彭明月;曹意宏;卢笑;黄树珍;张秀玲设计研发完成,并于2025-12-12向国家知识产权局提交的专利申请。

多模态信息交互的弱监督场景理解方法、系统及设备在说明书摘要公布了:本发明公开了一种多模态信息交互的弱监督场景理解方法、系统及设备,包括如下步骤:根据输入图像和指代表达式提取初始视觉特征与初始文本特征;将初始视觉特征与初始文本特征映射至共享语义空间,对初始文本特征和初始视觉特征进行相互感知与对齐,获得文本感知视觉特征与视觉感知文本特征;通过编码器对文本感知视觉特征进行增强;构建目标对象的查询文本特征,并与输入图像的查询视觉特征交互生成初始对象查询;将初始对象查询与增强后的文本感知视觉特征输入至解码器中,输出得到输入图像上的目标框;计算总损失,重复迭代训练。本发明充分挖掘利用指代表达式中的丰富语义信息,实现自然语言描述的语义解析对图像中目标对象的精准定位。

本发明授权多模态信息交互的弱监督场景理解方法、系统及设备在权利要求书中公布了:1.多模态信息交互的弱监督场景理解方法,其特征在于,包括如下步骤: S100、根据输入图像和指代表达式提取初始视觉特征与初始文本特征; S200、将初始视觉特征与初始文本特征映射至共享语义空间,对初始文本特征和初始视觉特征进行相互感知与对齐,获得文本感知视觉特征与视觉感知文本特征,包括如下子步骤: S201、首先使用两个可学习的线性变换矩阵分别对初始视觉特征与初始文本特征进行投影,得到投影视觉特征和投影文本特征: , 其中,fv和ft分别为初始视觉特征与初始文本特征,和分别为投影视觉特征与投影文本特征; S202、基于投影视觉特征与投影文本特征,通过计算余弦相似度构建跨模态注意力关联矩阵,用以捕获视觉特征与文本特征中每个文本标记与每个空间位置之间的细粒度相似性: , 其中,A表示跨模态注意力关联矩阵,表示sigmoid激活函数; S203、沿初始文本特征的维度对跨模态注意力关联矩阵A进行平均池化,生成空间注意力掩码,沿初始视觉特征的空间维度和对矩阵A进行平均池化,生成文本注意力掩码; S204、将空间注意力掩码与投影视觉特征进行逐元素乘法,获得文本感知视觉特征; 将文本注意力掩码与投影文本特征进行逐元素乘法,获得视觉感知文本特征; S300、通过编码器对文本感知视觉特征进行增强获得视觉特征序列; S400、基于CLIP模型构建目标对象的查询文本特征,并与输入图像的查询视觉特征交互生成初始对象查询; S500、将初始对象查询与增强后的文本感知视觉特征输入至解码器中,输出得到输入图像上的目标框; S600、计算总损失,并利用总损失进行反向传播以更新模型参数,更换输入图像和指代表达式重复上述步骤进行迭代训练,直至达到设定的迭代步数,获得迭代更新的模型参数用于图像-文本对的场景理解。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人湖南师范大学,其通讯地址为:410081 湖南省长沙市岳麓区麓山路36号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。