上海工程技术大学胡建洋获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉上海工程技术大学申请的专利一种面向工业文档的多模态信息提炼方法和系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116796288B 。
龙图腾网通过国家知识产权局官网在2025-10-24发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310755089.1,技术领域涉及:G06F18/25;该发明授权一种面向工业文档的多模态信息提炼方法和系统是由胡建洋;高永彬;吴晨谋;方志军;熊玉洁;胡建鹏;李媛媛设计研发完成,并于2023-06-25向国家知识产权局提交的专利申请。
本一种面向工业文档的多模态信息提炼方法和系统在说明书摘要公布了:本发明提供一种面向工业文档的多模态信息提炼方法和系统;所述方法包括以下步骤:从工业文档中获取半结构化的第一文本信息和非结构化的第二文本信息;基于第一文本信息提取文本特征;基于第二文本信息提取图像特征;根据文本特征和图像特征获取多模态融合特征;基于多模态融合特征对工业文档进行整体观点提炼;本发明通过融合文本特征和图像特征,能够实现对工业文档的整体观点进行提炼,提高了观点提炼的准确率;整个过程中不需要额外的人工操作,降低了人工成本,提高了生产效率;此外,本发明提供的面向工业文档的多模态信息提炼方法,具有一定的迁移性,可以适用于不同垂直领域的工业文档,以解决工业文档抽取问题。
本发明授权一种面向工业文档的多模态信息提炼方法和系统在权利要求书中公布了:1.一种面向工业文档的多模态信息提炼方法,其特征在于,包括以下步骤: 从工业文档中获取半结构化的第一文本信息和非结构化的第二文本信息; 基于所述第一文本信息提取文本特征;所述基于第一文本信息提取文本特征包括:根据工业概念库优化实体关系抽取模型,以基于所述实体关系抽取模型对所述第一文本信息进行实体关系抽取,实现在实体关系抽取过程中,通过引入工业特化BERT基模型,将所述第一文本信息中的字符编码成所述文本特征; 基于所述第二文本信息提取图像特征;基于所述第二文本信息提取图像特征具体包括:采用CLIP视觉编码器,从而提取图像中与语言相关的视觉图像表征; 根据所述文本特征和所述图像特征获取多模态融合特征;具体包括: 多模态表征对齐映射:采用无监督学习的自组织映射算法,对CLIP模型所提取的图像表征,通过竞争性学习进行聚类,得到图像语义向量组,自组织网络以高斯分布初始化映射中节点的权值向量,对于某个图像特征,首先根据欧式距离函数计算实值向量和该映射节点的权值向量之间的相似度,将距离最小的节点归为最佳匹配单元,其会随着迭代次数和距离而降低;对于权值的更新公式为: ; 式中,表示步长,u表示最佳匹配单元,表示学习系数,表示神经元和在步长为下的邻近函数,训练后,将图像表征中相似的元素视为同一语义信息的表示,将实值向量的图像特征转化为多个相似语义信息的图像语义向量组,与此类似,对Bert模型提取的文本特征采用同一算法,将其投影到同一语义空间中,组成文本语义向量组; 多模态表征对齐融合:为了融合相似语义不同模态的特征,首先计算两种模态的特征向量组中的余弦距离,寻找相似度相似的模态特征,对于文本语义向量组中任意一个特征向量,计算与图像语义向量组中每一个特征向量之间的余弦距离,将余弦距离最小的特征向量视视为近似语义,并进行融合为,得到最终的多模态融合特征组,其公式表示如下: ; 式中,Sim*为相似度度量公式,对于任意一个与,当两者的相似度为所有向量组合中最高时,则进行特征融合; 基于所述多模态融合特征对所述工业文档进行整体观点提炼; 观点片段筛选:具体来说,给定文档某一章节z的多模态融合特征或文本特征,将其输入到Sigmoid分类器中进行计算,以确定是否含有对文档的观点; ; 其中,M为多模态融合特征,为文本特征,为句子包含对文档观点的概率; 设置为观点容忍度,将≤的句子视为可能代表文档观点的内容,将所有连续的观点句串联起来形成观点片段; 面向文档的观点抽取:给定观点片段u,直接列举出文档名称中所有跨度,选择与观点片段相关的最佳跨度作为观点片段u的目标论点,取文档名称大章节标题小章节标题中的跨度a,将观点片段u与跨度a共同作为模型的输入,输入到观点目标抽取BERT中编码,通过Sigmoid分类器得到跨度a作为观点片段u的得分,将得分最高的跨度作为观点片段u的目标论点。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人上海工程技术大学,其通讯地址为:201620 上海市松江区龙腾路333号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励