中科紫东信息技术(北京)有限公司李刚获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中科紫东信息技术(北京)有限公司申请的专利基于主题相关的异构图神经网络跨语言文本分类方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115730232B 。
龙图腾网通过国家知识产权局官网在2025-08-19发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211316576.X,技术领域涉及:G06F16/353;该发明授权基于主题相关的异构图神经网络跨语言文本分类方法是由李刚;李雄设计研发完成,并于2022-10-26向国家知识产权局提交的专利申请。
本基于主题相关的异构图神经网络跨语言文本分类方法在说明书摘要公布了:本发明公开一种基于主题相关的异构图神经网络跨语言文本分类方法,属于文本分类技术领域,包括:步骤1.获取训练集;步骤2.文本预处理;步骤3.构建主题相关词概率模型;步骤4.构建跨语言异构图;步骤5.对节点进行编码;步骤6.在图卷积网络上进行分类预测。本发明通过将异构图卷积网络应用于跨语言文本分类,利用主题相关词概率模型与图卷积网络相结合的方法进行跨语言文本分类;本发明提高源文档的翻译概率,在一定程度上提高了文本分类的准确性;本发明只需少数的标注文档,就可以实现较强的分类功能,并学习词和文档节点的嵌入;本发明很好的解决了神经网络机器翻译所需训练预料不足的问题。
本发明授权基于主题相关的异构图神经网络跨语言文本分类方法在权利要求书中公布了:1.一种基于主题相关的异构图神经网络跨语言文本分类方法,其特征在于:该方法具体过程如下: 步骤1.获取训练集 获取到原始Web网页数据,并将Web页面转化成为纯净统一的文本格式和元数据格式; 步骤2.文本预处理 步骤3.构建主题相关词概率模型 使用E[countEe|F]记录预期单词出现次数作为特征,E为源语音文档F的一个翻译; 步骤4.构建跨语言异构图 基于生成对抗神经网络的机器翻译并利用上述步骤3构建的主题相关词概率模型,将源文档具有代表性的词语进行翻译,将不同语言的源文档进行相同形式的表示,将来自不同语言的源文档和所筛选的特征单词表示为图结点来构建异构图,从两个方向使用生成对抗神经网络机器翻译方法翻译文档,并在图中定义两类边; 步骤5.对节点进行编码 构建好所述的跨语言异构图后,利用BERT模型对所有节点进行编码,将句子压缩成序列,并获取序列第一个令牌特殊分类嵌入的隐藏状态,将其作为分类任务的聚合序列表示,用于后续的分类任务,同时使用多标签映射将输出的文本中各个字词融合了全文语义的信息按照不同的词性、相似文档以及翻译文档将文本输入到不同子图中; 步骤6.在图卷积网络上进行分类预测 对每一层由不同类型边分隔的子图进行图卷积,通过隐藏层表示所有的单词和文本,将所有文本信息通过隐藏层聚合在一起,在异构图卷积网络上,计算每个节点的高阶表示和聚合信息: 是仅包含τ型边的对称归一化邻接矩阵的子矩阵,是每个节点τ型相邻节点的特征矩阵,是可训练参数,σ·表示非线性激活函数; 最后使用两个图卷积层来聚集二阶邻域内的信息,然后对文档节点应用线性变换来获得预测;通过与标记文档相连的相似边和翻译边对文档分类进行预测。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中科紫东信息技术(北京)有限公司,其通讯地址为:101100 北京市通州区滨惠北一街3号院1号楼1层1-8-88;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。