长春理工大学才华获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉长春理工大学申请的专利基于视觉细粒度语义驱动跨模态协同的指代表达分割方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN121190773B 。
龙图腾网通过国家知识产权局官网在2026-03-20发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511746734.9,技术领域涉及:G06V10/26;该发明授权基于视觉细粒度语义驱动跨模态协同的指代表达分割方法是由才华;李军龑;付强;马智勇;寇婷婷;蔺新博设计研发完成,并于2025-11-26向国家知识产权局提交的专利申请。
本基于视觉细粒度语义驱动跨模态协同的指代表达分割方法在说明书摘要公布了:本发明涉及计算机技术领域,特别是涉及一种基于视觉细粒度语义驱动跨模态协同的指代表达分割方法,遵循指代表达分割领域研究的基本范式,设计一种先进行图像细粒度视觉增强,再进行语义驱动跨模态协同,最后进行分割掩码预测的模型。依据输入图像,进行细粒度视觉理解的增强,增强对复杂空间位置的理解,将增强细粒度理解后的图像,再结合文本,进行语义驱动跨模态协同解码,然后用于最终的分割掩码预测,能够解决现有指代表达分割方法无法充分挖掘图像区域与相关语言描述之间的相关性,从而导致细粒度对齐不足、模型无法理解空间、位置等细粒度关联的问题。
本发明授权基于视觉细粒度语义驱动跨模态协同的指代表达分割方法在权利要求书中公布了:1.一种基于视觉细粒度语义驱动跨模态协同的指代表达分割方法,其特征在于,包括如下步骤: 步骤一,收集指代表达分割的数据集,构建图像文本对; 步骤二,设计指代表达分割模型架构,包括视觉编码器、文本编码器、细粒度视觉增强模块、语义驱动跨模态协同模块以及分割头; 步骤三,将图像文本对的图像信息和文本信息分别送入视觉编码器和文本编码器,得到图像特征和文本特征; 对于文本信息,首先进行基础清洗以去除无关符号,然后将文本分割为子词单元,再由BEIT-3提取文本特征;对于图像,由VIT视觉编码器提取特征,得到输入图像的图像特征; 步骤四,将图像特征送入动态查询细粒度增强模块,使用可学习的动态查询矩阵增强细粒视觉理解,得到增强后的图像特征; 动态查询矩阵首先随机初始化,然后将图像特征和动态查询矩阵进行跨模态注意力计算,生成每个区域对应的空间注意力图,动态查询矩阵的每个行向量对应一个区域的空间注意力分布,然后利用注意力图从图像特征中动态聚合每个区域的特征,得到增强后的图像特征; 对于BEIT-3输出的文本特征中CLS标记对应的具有全局语义特征的输出向量,使其经过线性层调整维度,然后与步骤三中所得的图像特征分别逐元素相加,然后送入动态查询细粒度增强模块,在具有全局语义特征的引导下面,增强模型对的细粒度视觉理解; 步骤五,将文本特征与图像特征进行拼接,得到拼接后的特征,再通过自注意力进行特征融合对齐,得到简单融合后的特征; 步骤六,通过全局注意力,将简单融合后的特征作为全局注意力的查询,增强后的图像特征作为全局注意力的键和值,得到深度融合后的特征; 步骤七,文本特征作为全局注意力的键和值,深度融合后的特征作为查询,经过前馈神经网络,得到语义驱动跨模态输出特征; 步骤八,将语义驱动跨模态输出特征与图像特征做对应位置的加权相加,输入到分割头得到分割掩码,完成指代表达中感兴趣目标的分割。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人长春理工大学,其通讯地址为:130000 吉林省长春市卫星路7089号长春理工大学;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励