恭喜广西大学;南宁学院刘柏霆获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜广西大学;南宁学院申请的专利基于TextRank与注意力机制的长文本分类方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115599915B 。
龙图腾网通过国家知识产权局官网在2025-06-10发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211280953.9,技术领域涉及:G06F16/355;该发明授权基于TextRank与注意力机制的长文本分类方法是由刘柏霆;管卫利设计研发完成,并于2022-10-19向国家知识产权局提交的专利申请。
本基于TextRank与注意力机制的长文本分类方法在说明书摘要公布了:基于TextRank与注意力机制的长文本分类方法,包括以下步骤;将长文本序列输入TextRank层计算出长文本的关键句序列与关键词序列,选出关键句序列中权重最高的句子作为该文本的关键句,对长文本序列进行数据预处理操作;将经过TextRank层处理后的文本序列输入WordEmbedding层生成词向量表示;将长文本向量输入BiGRU层中,BiGRU将结合文本的上下文提取其特征信息;结合文本的关键句对文本向量进行注意力计算,得出文本向量里对应关键句的注意力分数,根据注意力分数更新文本特征向量;将更新后的文本特征向量输入到Linear与Softmax层得出分类结果。本发明能够对于较长的文本会根据文中词语的重要程度裁剪文本,提高了每段文本的质量。
本发明授权基于TextRank与注意力机制的长文本分类方法在权利要求书中公布了:1.基于TextRank与注意力机制的长文本分类方法,其特征在于,包括以下步骤;Step1:将长文本序列输入TextRank层,TextRank模型将计算出权重在[0-1]范围内的长文本关键句序列与关键词序列,句子和词语的权重越接近1则重要系数越大,而后选出关键句序列中权重最接近1的句子作为该文本的关键句,对长文本序列进行数据预处理操作,按照设置好的样本统一长度裁剪或填充每条文本,对于较长的文本将其权重较低的关键词裁剪掉,对于较短的文本在其尾部填充上权重较高的关键词;Step2:将经过TextRank层处理后的文本序列输入WordEmbedding层生成词向量表示;Step3:将长文本向量输入BiGRU层中,BiGRU将结合文本的上下文提取其特征信息;Step4:结合文本的关键句对文本向量进行注意力计算,得出文本向量里对应关键句的注意力分数,根据注意力分数更新文本特征向量;Step5:将更新后的文本特征向量输入到Linear与Softmax层得出分类结果;所述BiGRU是双向的GRU,将文本序列正向输入GRU得出正向特征,将文本序列反向输入GRU得出反向特征,结合正向特征与反向特征作为文本序列的整体上下文特征;将正向输出与反向输出相加作为长文本的内容向量H,公式如下: 将关键句输入BiGRU中,将所有隐藏层的最后时间步输出相加作为关键句的总结向量,公式如下: 其中num_layers为隐藏层层数,hi为第i层的最后时间步输出,将Ksen与H一起输入Attention层;所述Attention层根据长文本中内容的重要程度为其分配权重值,将关键句与注意力机制相结合;将关键句向量Ksen作为注意力机制的Query,将长文本内容向量H作为注意力机制的Key与Value,计算公式如下: 其中d为收敛因子,通常为词向量维度,Q与KT相乘得出文本向量相对于关键句的分数矩阵,除以收敛因子后通过softmax函数归一化得到文本向量权重矩阵,通过权重矩阵更新文本向量V得到向量C,将向量C输入最后一层得出分类结果。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人广西大学;南宁学院,其通讯地址为:530004 广西壮族自治区南宁市西乡塘区大学东路100号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。