杭州电子科技大学姚远获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉杭州电子科技大学申请的专利一种基于胶囊网络的科学数据资产多标签文本分类方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120316257B 。
龙图腾网通过国家知识产权局官网在2026-05-01发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510329312.5,技术领域涉及:G06F16/353;该发明授权一种基于胶囊网络的科学数据资产多标签文本分类方法是由姚远;李忠亮;孙曜;彭斐平;郝润宇设计研发完成,并于2025-03-20向国家知识产权局提交的专利申请。
本一种基于胶囊网络的科学数据资产多标签文本分类方法在说明书摘要公布了:本发明公开了一种基于胶囊网络的科学数据资产多标签文本分类方法,该方法首先对学术论文数据集进行预处理得到文本数据。其次对于文本数据,通过多级层次胶囊网络模型M‑CapsNet的混合特征模块tAL‑HPYP,进行特征提取和融合。然后将融合后的特征传递到多级层次胶囊网络模型的主干网络M‑Capsj模块,输出分类预测向量传递到子解码器网络中,同时利用改进的铰链损失动态调整全局损失。最后将各子解码器网络的分类结果连接到最终的解码器网络,汇总所有输出标签得到最终预测分类的多标签。本发明能够从科学数据文本中提取深层次、多维度的多标签特征,提升多标签文本分类任务的效果。
本发明授权一种基于胶囊网络的科学数据资产多标签文本分类方法在权利要求书中公布了:1.一种基于胶囊网络的科学数据资产多标签文本分类方法,其特征在于,包括以下步骤: 步骤一,对学术论文数据集进行预处理,得到文本数据; 步骤二,对于文本数据,通过多级层次胶囊网络模型M-CapsNet的混合特征模块tAL-HPYP,进行特征提取和特征融合,具体实现过程如下: 步骤2.1、tAL-HPYP模块采用ALBERT-base预训练模型进行语义特征提取,采用HPYP模型进行主题特征提取,具体实现如下: ALBERT的输入为词嵌入、段嵌入以及位置嵌入的总和,经过多层Transformer编码器输出每个词对应的语义特征向量:将预处理后得到的摘要文本序列,n为摘要的句子长度,表示摘要中第i个词,将其与标题文本序列,m为标题长度,为标题中第i个词,添加[SEP]分隔符进行拼接得到,对进行词嵌入得到,对进行段嵌入得到,对进行位置嵌入得到,最终利用公式,得到对应词嵌入、段嵌入和位置嵌入的三种编码的和E,将其输入到ALBERT中,在每一层Transformer编码器中,通过多头自注意力机制增强文本序列的语义表达,再通过前馈神经网络将注意力结果映射到语义空间,通过Gelu非线性激活函数增强模型的非线性表达能力;从ALBERT最后一层的CLS标签中获取每个文本块Di的语义特征向量;对于每个文本块Di,从ALBERT最后一层的标记中获取每个单词的语义特征向量;重复这个操作经过多层编码器的处理得到文本块级语义特征向量和词级语义特征向量; tAL-HPYP模块采用HPYP模型进行主题特征提取,HPYP模型是Pitman-Yor过程PYP的层次化,是PYP节点网络,概率向量上的所有分布都是由PYP建模的,D表示数据集的文本块数量,i表示文本块的序号,表示文本块级主题分布,每个对应一个文本块的主题,其公式为,i=1,...,D;词汇方面,对于每个单词的主题,为子节点,K表示该文本块中的单词数量,j表示单词的序号,表示单词主题分布,单词级主题分布是给定父节点γ的PYP分布,其公式为,j=1,...,K;所有和分别为折扣参数和浓度参数,分别得到文本块级主题特征向量和单词级主题特征向量; 所述得到文本块级主题特征向量和单词级主题特征向量过程为: HPYP模型概率向量上的所有分布都是由PYP建模的,具有生成过程的优势,在根层级上,μ和以PYP的形式分布: 变量μ是HPYP中主题的根节点,而是单词的根节点,μ、的基分布是连续分布或具有无限样本的离散分布;根据数据集的词汇量选择γ的离散均匀分布,,其中|ν|是AAPD数据集中所有单词词汇的集合; 对于HPYP的主题,ν是μ的子节点,遵循给定ν的PYP,该PYP作为其基分布: 文本块级主题特征向量提取:表示文本块级主题分布即文本块级主题特征向量,每个对应一个文本块的主题: ,i=1,...,D 词级主题特征向量提取:对于每个单词的主题,表示单词主题分布即词级主题特征向量,单词级主题分布是给定父节点γ的PYP分布: ,j=1,...,K 以上所有的和分别是折扣参数和浓度参数; 步骤2.2、将语义特征向量和主题特征向量通过多级层次胶囊网络模型M-CapsNet的混合特征模块tAL-HPYP的特征融合功能进行特征融合; 所述特征融合包括,进行文本块级信息融合策略、词级信息融合策略、混合信息融合策略,将作为多级层次胶囊网络的输入; 所述步骤2.2具体实现过程为: 文本块级信息融合策略:按行连接文本块级主题特征向量和文本块级语义特征向量; 词级信息融合策略:按列连接文本块中每个单词的词级主题特征向量和词级语义特征向量;这两种向量的维度相同; 混合信息融合策略:按列连接每个单词的词级主题特征向量、文本块级主题特征向量、文本块级语义特征向量和词级语义特征向量,四种向量的维度一致; 步骤三,将融合后的特征传递到多级层次胶囊网络模型M-CapsNet的主干网络M-Capsj模块,输出分类预测向量传递到子解码器网络中; 步骤四,将各个子解码器网络的分类结果连接到最终的解码器网络,所有解码器网络均使用三层结构,采用sigmoid函数作为输出函数,汇总所有输出的标签得到最终预测分类的多标签。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人杭州电子科技大学,其通讯地址为:310018 浙江省杭州市钱塘区白杨街道2号大街1158号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励