北京快确信息科技有限公司袁阳平获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京快确信息科技有限公司申请的专利一种文本解析方法、装置、电子设备及存储介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114398870B 。
龙图腾网通过国家知识产权局官网在2025-12-23发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210039450.6,技术领域涉及:G06F40/205;该发明授权一种文本解析方法、装置、电子设备及存储介质是由袁阳平;李文灏;邹鸿岳;周靖宇设计研发完成,并于2022-01-13向国家知识产权局提交的专利申请。
本一种文本解析方法、装置、电子设备及存储介质在说明书摘要公布了:本发明公开了一种文本解析方法、装置、电子设备及存储介质,包括:获取待解析的文本,对文本进行预处理后获取文本中的字符和词汇;通过共享预训练编码层对字符和词汇进行编码,生成字词编码结果;对字词编码结果中的实体进行抽取,生成文本实体集;根据文本实体集进行预训练后,生成目标向量集,对目标向量集进行最大值池化操作后,生成第一向量;对字词编码结果进行最大值池化操作后,生成第二向量;将第一向量和第二向量拼接后,输入全连接层和Softmax函数,得到文本的分类结果。本发明将解析抽取任务的特征融合进分类任务中,解决质押回购任务中的高阶推理问题,在质押回购的文本的解析和文本分类的联合任务中,提高整体的准确率。
本发明授权一种文本解析方法、装置、电子设备及存储介质在权利要求书中公布了:1.一种文本解析方法,其特征在于,所述方法包括: 获取待解析的文本,对文本进行预处理后获取文本中的字符和词汇; 通过共享预训练编码层对字符和词汇进行编码,生成字词编码结果; 对字词编码结果中的实体进行抽取,生成文本实体集; 根据文本实体集进行预训练后,生成目标向量集,对目标向量集进行最大值池化操作后,生成第一向量; 对字词编码结果进行最大值池化操作后,生成第二向量; 将第一向量和第二向量拼接后,输入全连接层和Softmax函数,得到文本的分类结果; 所述通过共享预训练编码层对字符和词汇进行编码,生成字词编码结果,包括: 对字符进行特征编码,生成每个字对应的字向量; 对词汇进行特征编码后,生成每个词汇对应的词向量; 对字向量和词向量进行联合建模,生成字词编码结果; 所述对字向量和词向量进行联合建模,生成字词编码结果,包括: 根据词向量,将词向量输入图注意力网络层后,构建三类不同的图,分别记为图C、图T和图L; 获取图C、图T和图L对应的邻接矩阵,并分别记为邻接矩阵AC、邻接矩阵AT和邻接矩阵AL; 对邻接矩阵AC、邻接矩阵AT和邻接矩阵AL进行特征学习后,将学习后特征结果对应的记为特征GATAC、特征GATAT和特征GATAL; 将特征GATAC、特征GATAT和特征GATAL与字向量进行拼接,生成字词编码结果; 所述对字词编码结果中的实体进行抽取,生成文本实体集,包括: 通过CRF模型对字词编码结果中的实体进行抽取,生成解析后的序列标注结果,将所述序列标注结果记为文本实体集; 所述根据文本实体集进行预训练后,生成目标向量集,对目标向量集进行最大值池化操作后,生成第一向量,包括: 对文本实体集以设定的间隔进行拼接,生成文本序列; 根据Bert预训练模型对文本序列进行编码,生成目标向量集; 对目标向量集进行最大值池化操作后,生成第一向量; 其中,图C捕捉‘词包含字符’的关联关系,图T捕捉‘字符-词的语义过渡关系’,图L捕捉‘字符-词的晶格关联关系’; 所述共享预训练编码层的注意力网络中,引入数据集先验知识Vj,对节点特征进行优化,公式为:,其中,表示点i的输出特征;表示拼接操作;表示激活函数;表示i的邻接顶点;表示点i和点j之间的注意力权重;表示线性变换矩阵,表示点j的输入特征,质押回购领域文本的通用先验规律。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京快确信息科技有限公司,其通讯地址为:100000 北京市西城区阜成门外大街31号4层411D;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励