哈尔滨工业大学赵铁军获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉哈尔滨工业大学申请的专利一种基于主题信息的新闻文本摘要获取方法、装置、获取器和存储介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115114428B 。
龙图腾网通过国家知识产权局官网在2025-08-19发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210673842.8,技术领域涉及:G06F16/34;该发明授权一种基于主题信息的新闻文本摘要获取方法、装置、获取器和存储介质是由赵铁军;郭常江;徐冰;曹海龙;杨沐昀;朱聪慧设计研发完成,并于2022-06-15向国家知识产权局提交的专利申请。
本一种基于主题信息的新闻文本摘要获取方法、装置、获取器和存储介质在说明书摘要公布了:一种基于主题信息的新闻文本摘要获取方法、装置、获取器和存储介质,涉及自然语言处理技术领域。解决了现有生成式文本摘要技术在生成的时候并没有主动地去关注这些潜在的主题信息,导致在生成过程中失去部分重要信息的问题。所述方法包括:对新闻文本进行清理,去除所述新闻文本中无用的符号和信息;利用公开语料库进行主题模型的训练,获取主题语义矩阵;根据获取的主题语义矩阵结合深度学习神经网络建立新闻文本的专用生成式摘要模型,并利用公开数据集训练模型,获取数据集训练模型;将新闻文本的清洗步骤中处理的文本输入至数据集训练模型,利用主题信息进行指导摘要生成,获得摘要结果。本发明应用于新闻信息处理技术领域。
本发明授权一种基于主题信息的新闻文本摘要获取方法、装置、获取器和存储介质在权利要求书中公布了:1.一种基于主题信息的新闻文本摘要获取方法,其特征在于,所述方法包括: 新闻文本的清洗步骤:对新闻文本进行清理,去除所述新闻文本中无用的符号和信息; 主题语义矩阵获取的步骤:利用公开语料库进行主题模型的训练,获取主题语义矩阵; 建立数据集训练模型的步骤:根据获取的主题语义矩阵结合深度学习神经网络建立新闻文本的专用生成式摘要模型,并利用公开数据集训练模型,获取数据集训练模型; 获取摘要的步骤:将新闻文本的清洗步骤中处理的文本输入至数据集训练模型,利用主题信息进行指导摘要生成,获得文本摘要; 所述的数据集训练模型包括: 新闻文本编码器、解码器、历史信息覆盖机制和指针生成机制; 所述新闻文本编码器包括: 词嵌入层和一层双向LSTM长短期记忆网络; 所述词嵌入层和一层双向LSTM长短期记忆网络结合注意力机制获得每个时刻的语义表示向量: 所述公开语料库中的每一个分词经过Embedding层映射,得到向量Embeddingi,其中i表示该句子中的第i个词; 所述向量Embeddingi输入到一层双向LSTM中,得到第i个词对应的前向向量和后向向量的语义表示,将所述前向向量和后向向量拼接在一起获取所述第i个词在解码时刻为t时的向量: , 根据所述向量获取每个时刻的语义表示向量: , , , 其中,,,均表示所述注意力层的可学习参数,表示t时刻解码器的输出结果,表示注意力运算结果,表示注意力分数,N表示编码器接收的输入长度; 所述解码器包括:Embedding层、一层单向LSTM和两层全连接层; 所述解码器将前一时刻的到的单词映射为向量,将所述向量和前一时刻新闻文本语义向量拼接得到当前时刻t的输入: 将t时刻的输入输入到解码器的一层单向LSTM长短期记忆网络中,得到所述t时刻的隐向量;利用所述隐向量和拼接,经过两层全连接层获得当前时刻的词分布: , 其中,为第一层全连接层,为第二层全连接层; 根据当前时刻的词分布选择概率最大的词作为当前时刻的解码结果; 所述指针生成机制为: , , 其中,,,,均为生成指针的网络层的可训练参数,表示当前时刻的词分布,表示指针生成层得到的指针,取值范围是[0,1]; 将所获的主题语义矩阵的参数加载到公开数据集训练模型中,使用一个可训练的参数变量接收,在模型解码的时刻t,使用注意力机制计算当前的语义和主题语义矩阵中的所有主题的相似度,并根据该相似度计算得到当前时刻待解码的主题语义向量: , , 其中,是当前时刻的语义表示,为主题注意力计算记过,为当前t时刻的主题向量表示,为主题语义矩阵的转置; 解码器引入主题语义矩阵的信息,解码器在解码的时候需要考虑当前的主题语义信息,因此解码器的输入会多一个主题语义表示,计算公式为: ; 指针生成机制引入主题语义矩阵的信息,同解码器变动原因一致,指针生成公式变动为: 。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人哈尔滨工业大学,其通讯地址为:150001 黑龙江省哈尔滨市南岗区西大直街92号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。