合肥工业大学李永瑞获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉合肥工业大学申请的专利一种面向多语种文本图像的跨语种描述生成方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119516548B 。
龙图腾网通过国家知识产权局官网在2025-10-28发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411631533.X,技术领域涉及:G06V20/70;该发明授权一种面向多语种文本图像的跨语种描述生成方法是由李永瑞;高骏杰;吴慕遥;洪日昌设计研发完成,并于2024-11-15向国家知识产权局提交的专利申请。
本一种面向多语种文本图像的跨语种描述生成方法在说明书摘要公布了:本发明公开了一种面向多语种文本图像的跨语种描述生成方法,其步骤包括:1获取多语种的文本图像并进行描述语句的标注;2构建面向多语种文本图像的跨语种描述生成网络;3构造多模态文本纠错任务的数据集,对描述生成网络中的部分模块进行预训练;4基于多语种文本图像描述生成数据集对网络的所有模块进行训练;5利用训练好的跨语种描述生成网络对任意输入的多语种文本图像生成指定语种的描述语句。本发明可以在多语种的场景下,对输入的多语种自然场景文本图像进行深度理解,输出多语种文本图像指定语种的描述语句。
本发明授权一种面向多语种文本图像的跨语种描述生成方法在权利要求书中公布了:1.一种面向多语种文本图像的跨语种描述生成方法,其特征在于,包括以下步骤: 步骤1:获取多语种的文本图像并进行描述语句的标注,从而得到训练集,其中,表示多语种文本图像,表示对应的图像描述,且,表示中的第个字符,表示中的字符个数;表示对应的语种,表示对应的结构化知识的线性表示,且,表示中的第个字符,表示中的字符个数;表示中多语种文本图像的个数; 步骤2:构建面向多语种文本图像的跨语种描述生成网络,包括:多语种图文检测与识别模块,多语种文本信息编码模块,多语种视觉信息编码模块,多模态Transformer模块,知识抽取模块,语种嵌入模块、Transformer解码模块;并将中的每个样本输入中进行处理,包括:对进行裁剪,得到文本区域图像,并识别中的字符序列,得到文本识别结果;再对进行处理,输出文本特征表示矩阵;同时,对进行视觉特征的抽取,得到的视觉特征表示矩阵;对进行视觉特征的抽取,得到的视觉特征表示矩阵;然后,将、、分别输入多模态Transformer模块中,相应输出对应的语义增强后的特征编码、对应的语义增强后的特征编码、对应的语义增强后的特征编码;最后,将、、输入所述知识抽取模块中进行预测,得到解码后的字符概率序列,并用于构建总损失函数; 步骤3:构造多模态文本纠错任务的数据集,并用于对的多语种文本信息编码模块,多语种视觉信息编码模块,多模态Transformer模块进行预训练,得到预训练后的语种文本信息编码模块,预训练后的多语种视觉信息编码模块,预训练后的多模态Transformer模块; 步骤4:基于总损失函数,通过反向传播算法对多语种文本图像跨语种描述生成网络中的多语种图文检测与识别模块,预训练后的语种文本信息编码模块,预训练后的多语种视觉信息编码模块,预训练后的预训练的多模态Transformer模块,知识抽取模块,语种嵌入模块、Transformer解码模块进行训练,以更新网络参数,从而得到训练后的多语种文本图像跨语种描述生成模型; 步骤5:使用训练好的多语种文本图像跨语种描述生成模型,对在指定的语种类别下任意输入的多语种文本图像进行预测,从而得到在指定的语种类别下的描述语句。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人合肥工业大学,其通讯地址为:230009 安徽省合肥市包河区屯溪路193号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励