山东浪潮科学研究院有限公司陈其宾获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉山东浪潮科学研究院有限公司申请的专利基于多模态模型的关键信息提取方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN117275021B 。
龙图腾网通过国家知识产权局官网在2026-02-17发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202311147783.1,技术领域涉及:G06V30/413;该发明授权基于多模态模型的关键信息提取方法及系统是由陈其宾;魏子重;姜凯;李锐;陈兆亮设计研发完成,并于2023-09-07向国家知识产权局提交的专利申请。
本基于多模态模型的关键信息提取方法及系统在说明书摘要公布了:本发明公开了基于多模态模型的关键信息提取方法及系统,属于多模态模型及信息提取技术领域,本发明要解决的技术问题为如何将输入的文档图像映射到期望的结构化输出,提高模型准确率,采用的技术方案为:构建基于图像和文本的多模态模型;构建预训练文档图像数据集;预训练多模态模型;构建关键信息提取数据集;微调多模态模型;数据后处理。该系统包括构建模块一、构建模块二、预训练模块、构建模块三、微调模块及数据处理模块。
本发明授权基于多模态模型的关键信息提取方法及系统在权利要求书中公布了:1.一种基于多模态模型的关键信息提取方法,其特征在于,该方法具体如下: 构建基于图像和文本的多模态模型; 构建预训练文档图像数据集; 预训练多模态模型; 构建关键信息提取数据集; 微调多模态模型; 数据后处理; 其中,构建基于图像和文本的多模态模型具体如下: 多模态模型由基于Transformer的视觉编码器和文本解码器模块组成;其中,视觉编码器采用Swin Transformer模型,将输入的文档图像x∈RH×W×C转换成一组嵌入式向量{zi|zi∈Rd,1≤i≤n};其中,n表示特征映射大小或图像块的数目;d表示编码器的潜在向量的维度;Swin Transformer模型的输出{z}被馈送到文本解码器中;文本解码器采用BART模型,在给定{z}的情况下,文本解码器生成令牌序列其中,yi∈Rv表示第i个令牌的热向量;v表示令牌词汇表的大小;m表示超参数,使用预训练的多语言BART模型的权重初始化解码器模型权重; 微调多模态模型具体如下: 文档图像数据输入到多模态模型的视觉编码器与文本解码器,获取视觉解码器最后一层transformer block输出的所有输出序列的隐藏层状态的特征表示向量; 将所有输出序列的隐藏层状态的特征表示向量输入进额外的线性多分类器中进行分类,即可完成块序列分类; 分类后,对文本解码器进行训练以生成一个令牌序列,该令牌序列被转换成表示所需输出信息的JSON格式; 数据后处理具体如下: 将输出令牌序列转换为JSON格式,添加两个特殊标记[Start*]和[End*];其中,*表示要提取的每个字段; 若输出令牌序列的结构错误,将该字段视为丢失。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人山东浪潮科学研究院有限公司,其通讯地址为:250100 山东省济南市高新浪潮路1036号S02号楼;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励