华能煤炭技术研究有限公司;北京信息科技大学汪义龙获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉华能煤炭技术研究有限公司;北京信息科技大学申请的专利一种基于分层注意力机制和BERT的长文本处理方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115952802B 。
龙图腾网通过国家知识产权局官网在2025-11-18发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211001912.1,技术领域涉及:G06F40/30;该发明授权一种基于分层注意力机制和BERT的长文本处理方法是由汪义龙;吕学强;李宣东;游新冬;王耀辉;韩晶;王昀;孙晓虎;孙武;郝强;李慧;张倍宁;伏瑞林;刘鸿利;高智慧设计研发完成,并于2022-08-21向国家知识产权局提交的专利申请。
本一种基于分层注意力机制和BERT的长文本处理方法在说明书摘要公布了:本发明公开了一种基于分层注意力机制和BERT的长文本处理方法,特别涉及针对BERT模型处理长文本获得文本向量,提升现有基于切分等方式处理长文本会产生信息丢失的不足,包括以下步骤:将文本按句子切分成多段内容;将每句话以[CLS]句子[SEP]的形式传入BERT预训练语言模型,获取最后一层隐藏层向量以及[CLS]对应向量;使用词注意力机制获得句子向量;针对所有句子进行步骤二处理,获得原文所有句子的句子向量并拼接,以[SCLS]向量的形式传入transformer模型,获取最后一层隐藏层向量以及[SCLS]对应向量;使用句注意力机制获得文本向量;训练检索网络模型并更新参数,在测试集上提取文本特征并进行测试。本发明可获得更好的处理长文本,能够更为有效的提升长文本分类准确性,并且复杂度更低。
本发明授权一种基于分层注意力机制和BERT的长文本处理方法在权利要求书中公布了:1.一种基于分层注意力机制和BERT的长文本处理方法,其特征在于,包括以下步骤: 步骤一、将原文文本按句子切分成多段内容,每一段长文本可以表示为多个句子的集合,即D=sen1,...,seni,...,senn,D表示文本,seni表示文本的第i个句子,1、2…n表示文本包含n个句子; 步骤二、将每句话以[CLS]句子[SEP]的形式传入预训练语言模型BERT,其中[CLS]为BERT模型的句首标记;获取最后一层隐藏层向量以及[CLS]对应向量,具体通过公式HCLS,HWi1,...,HWim=Bertseni,θ计算,其中,HCLS表示BERT输出的[CLS]对应向量,θ表示Bert模型的参数,HWi1,...,HWim表示句子i的第1、2...m个词对应向量; 步骤三、针对获取的最后一层隐藏层向量以及[CLS]对应向量,使用词注意力机制获得句子向量,具体通过公式w=HCLSHWi1,...,HWimT计算[CLS]对应向量和词向量的相似矩阵,weight=softmaxw计算每个词向量的权重,通过W_Att=weightHWi1,...,HWim得到经过词注意力计算的句向量; 步骤四、针对所有句子进行步骤二处理,获得原文所有句子的句子向量并拼接,并在所有句子向量表示前拼接一个随机初始化的[SCLS]对应向量,其中[SCLS]为引入的文本级标记;以[SCLS]对应向量的形式传入transformer模型,获取最后一层隐藏层向量以及[SCLS]对应向量,具体通过公式HSCLS,HS1,...,HSn=TSSCLS,S1,...,Sn计算,其中,HSCLS表示Transformer编码器输出的[SCLS]向量,HS1,...,HSn表示Transformer编码器输出的句子1、2…n的向量; 步骤五、针对获取的transformer模型最后一层隐藏层向量以及[SCLS]对应向量,使用句注意力机制获得文本向量,通过引入[SCLS]标记并与Transformer模型交互,动态捕获句间全局关系,具体通过公式w_s=HSCLSHS1,...,HSnT计算[SCLS]和句向量的相似矩阵,weight_s=softmaxw_s计算每个句向量的权重向量,通过S_Att=weight_sHS1,...,HSn得到经过句注意力计算的文本向量; 步骤六、根据训练数据训练检索网络模型并更新参数,然后在测试集上提取文本特征并进行测试。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人华能煤炭技术研究有限公司;北京信息科技大学,其通讯地址为:100070 北京市丰台区南四环西路188号17区8号楼3层301室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励