湖南大学孙斌获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉湖南大学申请的专利一种实体引导的图像文本描述生成方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN121120865B 。
龙图腾网通过国家知识产权局官网在2026-02-17发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511658429.4,技术领域涉及:G06T11/60;该发明授权一种实体引导的图像文本描述生成方法是由孙斌;周迅;李希亮;李树涛设计研发完成,并于2025-11-13向国家知识产权局提交的专利申请。
本一种实体引导的图像文本描述生成方法在说明书摘要公布了:本发明公开了一种实体引导的图像文本描述生成方法,所述方法包括:利用序列生成范式,实现仅包含实体单词的有序序列生成,从而识别图像中的关键实体;根据视觉特征和实体特征余弦相似度为实体分配相应的权重,实现实体与视觉特征的自适应融合,获取基于上下文依赖关系融合的多模态表征;利用编码‑解码器从融合的多模态表征中提取多尺度特征并进行适应性聚集,用于生成准确的描述语句。本发明旨在利用显式的实体信息引导模型关注显著性视觉区域,实现实体信息与视觉特征的高效融合,利用多尺度特征聚合技术增强模型对图像语义的理解能力,从而生成更具针对性和表达力的图像描述。
本发明授权一种实体引导的图像文本描述生成方法在权利要求书中公布了:1.一种实体引导的图像文本描述生成方法,其特征在于,所述方法包括: 获取输入图像,利用视觉语言模型提取所述输入图像的全局视觉表征; 将所述全局视觉表征输入序列化的多实体生成器模块,生成仅包含实体单词的有序实体序列,实现输入图像中的关键实体识别; 将所述有序实体序列输入词嵌入编码器,得到实体特征向量E,计算所述全局视觉表征和所述实体特征向量E之间的余弦相似度,通过相似度关注的门控机制自适应调整实体特征向量E中每个实体的贡献权重,得到相似度权重计算后的实体特征向量; 对所述全局视觉表征进行前缀扩展处理,得到视觉条件前缀,将所述相似度权重计算后的实体特征向量进行平均池化运算后与视觉条件前缀进行元素级相加,得到多模态融合特征; 对已预测的描述语句中的单词进行词向量编码,并将得到的已预测单词嵌入编码向量注入掩码自注意力模块,获得上下文关注的文本表征,将所述多模态融合特征和所述上下文关注的文本表征联合输入到基于分层Transformer架构的解码器,进行适应性聚合,经过前馈神经网络和激活函数模块处理,逐步得到所述输入图像的文本描述; 所述序列化的多实体生成器模块包括: 将所述全局视觉表征经过线性变换映射为位置特定的视觉表征; 通过将已预测的实体单词执行词嵌入编码,获得预测实体的嵌入向量; 将所述预测实体的嵌入向量传入多头掩码自注意力模块,获得上下文关注的实体表征; 将所述上下文关注的实体表征和所述位置特定的视觉表征输入交叉注意力模块,交叉注意力模块的输出经过前馈神经网络和激活函数模块处理,预测下一个实体标记的概率分布,逐步生成仅包含实体单词的有序实体序列。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人湖南大学,其通讯地址为:410000 湖南省长沙市岳麓区麓山南路1号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励