东北大学赵宇海获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉东北大学申请的专利基于自监督双粒度多图学习的文本分类方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116401361B 。
龙图腾网通过国家知识产权局官网在2025-07-18发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310038679.2,技术领域涉及:G06F16/35;该发明授权基于自监督双粒度多图学习的文本分类方法是由赵宇海;王梅霞;王业江;印莹设计研发完成,并于2023-01-13向国家知识产权局提交的专利申请。
本基于自监督双粒度多图学习的文本分类方法在说明书摘要公布了:本发明提供一种基于自监督双粒度多图学习的文本分类方法,涉及文本分类技术领域。该方法首先获得原始文本数据集与对应的标签集,并对原始文本数据集进行数据预处理,得到多图数据集;再利用增强编码器对图数据进行增强,并使用图编码器学习增强后的图表示;然后将多头自注意力机制作用于图表示,学习图包中各个图之间的上下文信息,生成包级图,并利用包编码器通过包级图学习包表示;再通过图‑图的学习机制同时学习图表示和包表示,并设计包级对比损失和图级对比损失作为损失函数,自监督地学习包表示和图表示;最后对待分类的文本分类任务利用学习到的包表示和图表示,在粗粒度和细粒度上对待分类的文本同时进行标签预测,实现文本分类。
本发明授权基于自监督双粒度多图学习的文本分类方法在权利要求书中公布了:1.一种基于自监督双粒度多图学习的文本分类方法,其特征在于:包括以下步骤: 步骤1:获得原始文本数据集与对应的标签集; 步骤2:对原始文本数据集进行数据预处理,得到原始文本数据集对应的多图数据结构即图包,形成多图数据集; 步骤3:利用增强编码器对图数据进行增强,并使用图编码器学习增强后的图表示; 步骤4:将多头自注意力机制作用于图表示,学习图包中各个图之间的上下文信息,包含上下文信息的图表示基于相似性进行连接,生成包级图,并利用包编码器通过包级图学习包表示; 采用图生成的方式,以图包中每个图作为节点,图之间的包含上下文信息的图表示之间的相关性作为边的权重,每个图的图表示为节点属性值,基于阈值构成图包的包级图,则包级图的生成方法如下公式所示: 其中,I[·]是指示函数,当[·]中的内容大于0时结果为1,否则为0;μ是阈值,用于去掉图之间相关性较低的边,是余弦相似度,用于衡量图包中任意两个图之间的相似性,是基于阈值和余弦相似度所生成的图i和图j之间的权重值,作为包级图的邻接矩阵;所生成的包级图,以图包中每个图为节点,以图表示为节点属性,为邻接矩阵构成,即生成的包级图 为了基于所生成的包级图获得包含包中图之间全局结构关系的多图包的向量表示,设置了包编码器,如下公式所示: 其中,是经过包编码器所生成的包表示,fnorm是正则化函数,用于对数据进行正则化;fbenc是一个可学习的函数,使用图卷积算子来更新每一层的节点表示,fbenc表示为其中,Wl是可学习的权重矩阵,σ是激活函数,初始时H0是包级图中所有节点的属性集;fp是池化函数,用于通过学习到的节点表示求均值得到图表示;Hl表示增强后的图中所有节点在神经网络第l层中的节点表示,每一层的节点表示通过函数fgenc基于上一层的节点表示进行更新;表示添加了自连接之后的邻接矩阵,A是邻接矩阵,I是单位阵,是由得到的度矩阵; 步骤5:通过图-图的学习机制同时学习图表示和包表示,并有效保留图包中图之间的上下文信息和全局结构关系; 步骤6:设计包级对比损失和图级对比损失作为损失函数,在保证包级不变性和图级不变性的前提下,自监督地学习包表示和图表示; 步骤7:对待分类的文本分类任务利用步骤6中学习到的包表示和图表示,在粗粒度和细粒度上对待分类的文本同时进行标签预测,实现文本分类。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人东北大学,其通讯地址为:110819 辽宁省沈阳市和平区文化路三号巷11号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。