北京达道至简科技有限公司吴功照获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京达道至简科技有限公司申请的专利一种基于卷积神经网络的贷款用途文本分类方法和系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN118747216B 。
龙图腾网通过国家知识产权局官网在2026-03-24发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202410751372.1,技术领域涉及:G06F16/35;该发明授权一种基于卷积神经网络的贷款用途文本分类方法和系统是由吴功照;刘嘉龙;李佳明设计研发完成,并于2024-06-12向国家知识产权局提交的专利申请。
本一种基于卷积神经网络的贷款用途文本分类方法和系统在说明书摘要公布了:本发明公开一种基于卷积神经网络的贷款用途文本分类方法,包括:S1,建立基于文本卷积神经网络的绿色贷款识别文本分类模型,其中基于文本卷积神经网络的绿色贷款识别文本分类模型为端到端的文本分类模型,直接从原始文本中学习到绿色贷款的相关特征,并基于相关特征对绿色贷款用途文本进行识别;S2,根据基于文本卷积神经网络的绿色贷款识别文本分类模型对贷款用途文本进行是否为绿色贷款的识别。还公开了对应系统、电子设备及计算机可读存储介质,通过构建一个端到端的基于TextCNN的绿色贷款识别文本分类模型,直接从原始文本中学习到绿色贷款的相关特征,实现了对绿色贷款用途文本的高效、准确识别。
本发明授权一种基于卷积神经网络的贷款用途文本分类方法和系统在权利要求书中公布了:1.一种基于卷积神经网络的贷款用途文本分类方法,其特征在于,包括: S1,建立基于文本卷积神经网络的绿色贷款识别文本分类模型,其中所述基于文本卷积神经网络的绿色贷款识别文本分类模型为端到端的文本分类模型,直接从原始文本中学习到绿色贷款的相关特征,并基于所述相关特征对绿色贷款用途文本进行识别; S2,基于所述基于文本卷积神经网络的绿色贷款识别文本分类模型对贷款用途文本进行是否为绿色贷款的识别; 所述S1包括: S11,收集贷款数据,并基于所述贷款数据生成用于建立所述基于文本卷积神经网络的绿色贷款识别文本分类模型所需的数据集; S12,基于训练数据集训练文本卷积神经网络模型,以自动提取模拟贷款用途文本中能够进行绿色贷款识别的特征;其中,所述文本卷积神经网络模型是一种NLP模型; S13,将所述NLP模型与策略模型融合形成最终的基于文本卷积神经网络的绿色贷款识别文本分类模型,根据最终的基于文本卷积神经网络的绿色贷款识别文本分类模型的输出结果制定具体的认绿规则; 所述S11包括: 1收集来自银行和监管机构的实际贷款数据;所述实际贷款数据包括银行数据与监管数据,数据分为两种,一种是绿色贷款数据,一种是非绿色贷款数据,绿色贷款数据来源于监管机构,非绿色数据来源于监管机构所监管的银行,在这一渠道获取到的数据通过清洗去重后交给业务人员进行人工贴标,根据国家标准《绿色产业指导目录2019年版》以上贷款用途会被分为212个分类,其中非绿数据单独算一个分类,其余绿色数据被细分为211个分类; 2基于生成式人工智能大模型依靠自身学习推理能力参考《绿色产业指导目录2019年版》生成的相关贷款数据;大模型生成数据的方式包括: A.在阿里云百炼大模型平台创建一个大模型实例并将《绿色产业指导目录2019年版》上传到企业知识库中,以便后续大模型能够读取其中的内容; B.获取该大模型实例的api接口并撰写相应的promot提示词来调用大模型生成绿色贷款数据; C.编写程序调用大模型接口生成数据上边的dic为变量化的目录名字由编写的程序循环填充每次获得一定数目的某个分类目录下数据就保存到本地; D.最后对生成的数据进行数据质量探查清洗,包括去除空值、去除重复值和去除冗余索引值,人工检验生成的数据内容是否符合《绿色产业指导目录2019年版》中的规定; 3基于所述实际贷款数据和所述相关贷款数据构建模拟贷款用途文本数据集; 4对所述模拟贷款用途文本进行人工标注以建立标注数据集; 所述S12包括: 1数据清洗:对所述标注数据集中的所有数据进行清洗,包括去除重复记录、修正错误信息、处理缺失值,以确保数据质量;随后,对所述模拟贷款用途文本进行分词处理,并利用搜狗与预训练词向量将文本映射成数值向量,即转变为数值型特征,以便模型能够进行学习; 2基于清洗后的所述标注数据集中的所有数据以及由监管机构和银行反馈的数据进行人工数据挖掘生成认绿关键词与非绿关键词词表; 3设置所述文本卷积神经网络模型的两个基本层架构以实现整个识绿模型,所述两个基本层架构包括:文本分类层和策略层,其中所述文本分类层由NLP文本分类模型构成,以进行模拟贷款用途文本的初步分类对标与识绿;所述策略层由所述策略模型构成,基于设定准入规则构建,包括正向策略层与负向策略层,用于进行模拟贷款用途文本的精确对标与识绿,其中,所述文本分类层和策略层互相取长补短,策略层作为自然语言处理NLP模型的有力补充,与文本分类层一起构成完备的识绿模型,所述整个识绿模型的链路是先由NLP模型进行文本分类,再经由策略层对NLP模型的输出结果施加策略精确微调; 4基于清洗后的所述标注数据集及两个基本层架构中的所述文本分类层对所述基于文本卷积神经网络的绿色贷款识别文本分类模型进行训练生成所述NLP模型;基于所述认绿关键词与非绿关键词词表以及两个基本层架构中的所述策略层生成策略模型; 所述基于清洗后的所述标注数据集及两个基本层架构中的所述文本分类层对所述基于文本卷积神经网络的绿色贷款识别文本分类模型进行训练生成所述NLP模型包括: 数据集拆分:将所述标注数据集分为训练集和测试集,其中所述训练集用于模型学习,所述测试集用于评估模型的泛化能力和性能; 模型训练:基于训练集中的数据训练所述基于文本卷积神经网络的绿色贷款识别文本分类模型,其中所述基于文本卷积神经网络的绿色贷款识别文本分类模型通过卷积层自动提取文本特征,并通过池化层降维,最后通过全连接层和输出层进行分类;在训练过程中,模型的权重通过反向传播算法不断调整,以最小化损失函数; 模型评估:基于所述测试集中的数据评估所述基于文本卷积神经网络的绿色贷款识别文本分类模型的性能,所述评估基于准确率、召回率、F1分数与计算topn分类对标准确率与绿色鉴定准确率的指标衡量所述基于文本卷积神经网络的绿色贷款识别文本分类模型的分类效果; 所述基于所述认绿关键词与非绿关键词词表以及两个基本层架构中的所述策略层生成策略模型包括: 构建策略模型所需的两个层次构成,所述两个层次构成分别为认绿策略层和非绿策略层; 基于关键词策略方法和准入策略方法构建所述策略模型所需的两个层次;其中,所述关键词策略方法是指“如果贷款用途有a这个词那么他被分类到b这一分类下”的逻辑判断程序,所述关键词来源于银行与监管机构所提供的数据,由业务人员挖掘其中存在的有价值的关键词,并由技术人员以正则表达式的形式做成策略模型中的各个模块;所述准入策略方法为一票否据式策略; 其中,所述认绿策略层与认绿策略对应,所述认绿策略包括基于两种认绿关键词认定为绿色;其中,第一种认绿关键词来源于真实的银行与监管数据;第二种认绿关键词来源于国家标准中的文书; 所述非绿策略层与非绿策略对应,所述非绿策略包括两种;其中第一种非绿策略为:如果文本的长度将标点符号去除后小于等于四,则直接定为非绿;第二种非绿策略为非绿关键词策略,其中非绿关键词来源于银行与监管机构所提供的贷款数据,在多条贷款记录中频繁出现的模式就被保留成为非绿策略,符合该模式的贷款用途会被认定为非绿; 所述S13的所述将所述NLP模型与所述策略模型融合形成最终的基于文本卷积神经网络的绿色贷款识别文本分类模型包括: 设定模型融合规则:所述NLP模型与所述策略模型会分别输出两组分类结果,从而定义两个模型融合的方式;利用策略模型结果覆盖NLP模型结果的可能性分类列,如果策略模型分类结果为空值,则保留NLP模型的分类结果;如果策略模型分类结果不为空值,则保留策略模型的分类结果; 所述S2包括: S21,进行应用式开发,创建可供后端系统调用的接口,将训练好的模型封装为绿色识别模型服务,实现与现有贷款处理系统的无缝集成; S22,获取贷款处理系统的实时贷款数据并转换为贷款用途文本; S23,基于所述基于文本卷积神经网络的绿色贷款识别文本分类模型形成识别链路,对贷款用途文本进行是否为绿色贷款的识别,包括: 1前端填报贷款用途入库,后端将贷款用途所对应的id传给模型接口; 2模型查询数据库中的贷款用途对应的数据作为模型输入,模型输出每一个贷款用途对应的分类结果,然后将分类结果写入数据库; 3后端读取数据库中的分类结果,将所述分类结果返回给前端,完成整个识别链路。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京达道至简科技有限公司,其通讯地址为:101100 北京市通州区贡院街1号院1号楼二层206-114室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励