Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 天津理工大学孙卓获国家专利权

天津理工大学孙卓获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉天津理工大学申请的专利一种基于文本检测和语义匹配的场景文本检索模型、方法及计算机设备获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115017266B

龙图腾网通过国家知识产权局官网在2025-06-06发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210716996.0,技术领域涉及:G06F16/38;该发明授权一种基于文本检测和语义匹配的场景文本检索模型、方法及计算机设备是由孙卓;张飞飞;徐常胜设计研发完成,并于2022-06-23向国家知识产权局提交的专利申请。

一种基于文本检测和语义匹配的场景文本检索模型、方法及计算机设备在说明书摘要公布了:本发明公开了一种基于文本检测和语义匹配的场景文本检索模型、方法及计算机设备,首先对原始图像进行预处理得到图像区域特征和图像中的文本信息即场景文本。将图像区域特征和图像描述文本输入特征学习模型中,学习图像与文本的映射关系。将图像描述文本和场景文本输入特征学习模型fastText中,学习图像描述文本和场景文本的映射关系。最终将上述两种映射关系进行融合得到针对场景文本的统一检索模型。本发明解决了现有跨模态检索模型在包含场景文本数据上准确率低的问题,能够有效地提高场景文本检索的准确率。

本发明授权一种基于文本检测和语义匹配的场景文本检索模型、方法及计算机设备在权利要求书中公布了:1.一种基于文本检测和语义匹配的场景文本检索模型,其特征在于,该模型通过以下步骤得到:S1,提取图像的区域特征和图像描述文本的单词级别特征,通过多层感知机将两个特征映射到共同的语义空间,得到图像特征V和文本特征E;S2,利用余弦相似度计算两者的相似度,通过三元组损失函数对模型进行优化训练,最终得到跨模态检索相似度Sc;S3,提取出图像中的文本信息即场景文本,并使用fastText提取出场景文本的单词特征O;S4,利用StanfordCoreNlp对图像描述文本进行处理,挑选出符合语义要求的单词并通过fastText提取出图像描述文本的单词特征P;S5,针对文本特征的不同层级特征,分别使用单词、句子级别的特征进行相似度计算,并利用堆叠交叉注意力机制进行计算,使模型建模场景文本和图像描述文本之间的语义关系,将三个相似度通过加权得到最终的场景文本和图像描述文本的相似度Ssum;所述S5的具体实现包括:S5-1,将输入的图像和图像描述文本,根据步骤S3和步骤S4得到场景文本和图像描述文本的单词特征O和P,将场景文本的单词特征进行平均融合,得到当前场景文本的句子级别表示Os: 将图像描述文本的单词特征进行平均融合,得到当前图像描述文本的句子级别表示Ps: 利用余弦相似度计算得到场景文本和图像描述文本之间句子级别的相似度,用Ss表示句子级别的相似度,表示为: S5-2,将输入的图像和图像描述文本,根据步骤S3和步骤S4得到场景文本和图像描述文本的单词特征O和P,通过将单词特征进行拼接构成场景文本和图像描述文本单词级别的特征,分别表示为Ow=[oi,...,ok],Pw=[pi,...,pl],Ow和Pw的大小分别为k*300和l*300的矩阵;构建k*l的余弦相似度矩阵St,矩阵中的每一个值表示oi和pj的余弦相似度,表示如下: 对St在场景文本维度求得每个单词与图像描述文本的最大相似度,得到长度为k的向量,再对向量进行平均操作,得到场景文本和图像描述文本之间单词级别的相似度Sw,表示为: S5-3,将输入的图片和图像描述文本,根据步骤S3和步骤S4得到场景文本和图像描述文本的单词特征O和P,通过使用堆叠交叉注意力机制计算得到两者之间的注意力相似度;具体如下:首先计算场景文本单词和图像描述文本单词之间的余弦相似度,表示为: 其中si,j表示为第i个场景文本单词和第j个图像描述文本单词之间的相似性;接着对得到的余弦相似性进行归一化处理,表示为: 对图像描述文本单词进行加权操作,得到新的图像描述文本特征表示,表示为: 其中αi,j表示为: 其中λ表示温度系数,αi,j表示注意力点乘操作时的注意力权重;经过注意力加权之后的和场景文本单词之间的相关性用两者的余弦相似度表示: 最终将所有的单词相似度进行平均操作,得到通过堆叠注意力机制计算得到的相似度Sa,表示为: S5-4,将三个相似度通过加权得到最终的场景文本和图像描述文本的相似度Ssum:Ssum=Ss+λ1Sw+λ2Sa其中λ1,λ2是平衡化参数;S6,融合S2和S5,得到一个基于文本检测和语义匹配的场景文本检索模型。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人天津理工大学,其通讯地址为:300384 天津市西青区宾水西道391号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。