浪潮通用软件有限公司董丰莉获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉浪潮通用软件有限公司申请的专利一种基于多模态大语言模型的合同信息提取方法及设备获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN118734032B 。
龙图腾网通过国家知识产权局官网在2026-04-03发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202410716594.X,技术领域涉及:G06F18/213;该发明授权一种基于多模态大语言模型的合同信息提取方法及设备是由董丰莉;徐同明;马士中;丁军;郝坦宾;赵玉海;杨楠楠;史环环;高占卿设计研发完成,并于2024-06-04向国家知识产权局提交的专利申请。
本一种基于多模态大语言模型的合同信息提取方法及设备在说明书摘要公布了:本发明公开了一种基于多模态大语言模型的合同信息提取方法及设备,属于智慧合同技术领域,用于解决现有的合同信息提取方式受规则模板的限制,难以提取合同中的图表信息以及关键命名实体信息,存在遗漏问题,且提取流程不灵活的技术问题。方法包括:获取不同格式的合同数据并构建模型训练数据集;构建合同图片数据与合同文本数据的隐空间映射模型;通过模型训练数据集训练隐空间映射模型,并根据模型验证结果,获取通用文本数据编码器以及通用图片数据编码器;基于通用文本数据编码器以及通用图片数据编码器,构建合同提取大语言模型;通过模型训练数据集训练所述合同提取大语言模型,并验证信息提取的准确度。
本发明授权一种基于多模态大语言模型的合同信息提取方法及设备在权利要求书中公布了:1.一种基于多模态大语言模型的合同信息提取方法,其特征在于,所述方法包括: 获取不同格式的合同数据并构建模型训练数据集;其中,所述不同格式的合同数据包括合同图片数据以及合同文本数据;所述模型训练数据集包括第一数据集、第二数据集、第三数据集、第四数据集以及第五数据集; 构建合同图片数据与合同文本数据的隐空间映射模型,具体包括: 对合同图片数据进行Patch切分,并进行Patch编码及位置编码; 采用以自注意力机制为核心的TransformerEncode与前馈神经网络FFN,构建图片数据编码器,得到合同图片数据的隐空间特征向量; 对合同文本数据进行Token分词,并进行Token编码及位置编码; 采用包含预训练权重的文本编码器与前馈神经网络FFN,构建文本数据编码器,得到合同文本数据的隐空间特征向量; 根据所述图片数据编码器以及所述文本数据编码器,构建合同图片数据与合同文本数据的隐空间映射模型; 分别对图片数据编码器与文本数据编码器输出的隐空间特征向量进行L2正则化,得到余弦相似度公式:; 分别对图片数据编码器与文本数据编码器输出的隐空间特征向量进行2范式处理,得到Tanimoto系数公式:; 根据所述余弦相似度公式以及所述Tanimoto系数公式,得到所述隐空间映射模型的损失函数:;其中,为余弦相似度和Tanimoto系数的融合权重,; 通过所述模型训练数据集训练所述隐空间映射模型,并根据模型验证结果,获取通用文本数据编码器以及通用图片数据编码器; 基于所述通用文本数据编码器以及通用图片数据编码器,构建合同提取大语言模型,具体包括: 构建数据格式区分模块,用于对合同文本数据及合同图片数据进行划分,并调用所述通用文本数据编码器以及通用图片数据编码器; 基于通用文本数据编码器或通用图片数据编码器的输出向量,构建Prompt提示词编码器; 构建基座大语言模型,并通过低秩微调策略Lora模块对所述基座大语言模型进行微调,将所述基座大语言模型转化为适用于合同信息提取的专业模型; 构建后处理模块,用于处理图表任务; 将所述数据格式区分模块、所述通用文本数据编码器、所述通用图片数据编码器、所述Prompt提示词编码器、所述Lora模块、所述基座大语言模型以及所述后处理模块,组合为所述合同信息提取大语言模型; 通过所述模型训练数据集训练所述合同提取大语言模型,并验证信息提取的准确度。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人浪潮通用软件有限公司,其通讯地址为:250101 山东省济南市历下区浪潮路1036号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励