浙江工业大学程振波获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉浙江工业大学申请的专利一种结构化文档标题的自动构建方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119645996B 。
龙图腾网通过国家知识产权局官网在2025-11-04发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411621730.3,技术领域涉及:G06F16/22;该发明授权一种结构化文档标题的自动构建方法是由程振波;陈启后;肖刚;周狄挺;陈雨欣设计研发完成,并于2024-11-14向国家知识产权局提交的专利申请。
本一种结构化文档标题的自动构建方法在说明书摘要公布了:本发明提出了一种结构化文档标题的自动构建方法,能为具有长上下文的结构化文档自动生成标题。该方法包括以下步骤:第一步,通过基于层次注意力网络的摘要生成模块,利用文档的结构信息和内容特征生成结构化文档的摘要;第二步,使用基于双向编码器和自回归解码器的文本生成模型,从摘要中生成关键词,并通过关键词筛选机制优选关键词;第三步,利用交叉注意力机制分析筛选后的关键词与摘要之间的相互作用,生成融合关键词特征与文档内容的特征表示;第四步,根据特征表示自动构建结构化文档标题。整个流程自动化完成,且能获得与结构化文档内容相关的标题。
本发明授权一种结构化文档标题的自动构建方法在权利要求书中公布了:1.一种结构化文档标题的自动构建方法,其特征在于,能够为具有长上下文的结构化文档自动生成标题,包括以下步骤: 步骤1,生成结构化文档的摘要:训练一个能生成结构化文档摘要X的摘要生成模型;步骤1的具体过程如下: 步骤1.1,对文档进行分层编码,分别计算词级、句子级的元素重要性权重,以有效提取对摘要生成具有影响的内容元素; 步骤1.2,构建摘要生成的神经网络模型,神经网络模型以步骤1.1得到的各层级各元素的重要性权重来对词级、句子级、段落级编码器的输出进行加权求和计算得到上下文向量,并根据上下文向量和隐藏状态采用序列到序列的解码器生成文档的摘要; 步骤1.3,使用交叉熵损失函数,通过误差反向传播算法对摘要生成模型进行训练,优化模型参数,使生成的摘要接近真实摘要X,实现对结构化文档摘要的自动生成; 步骤2,生成结构化文档的关键词:先训练一个文本生成模型,之后使用文本生成模型从摘要X中生成关键词序列;步骤2的具体过程如下: 步骤2.1,训练关键词生成模块中的关键词生成模型:采用基于双向编码和自回归解码的方法作为关键词生成的基础模型;训练过程中,输入为步骤1中生成的摘要文本X,输出为目标关键词序列Y; 步骤2.2,生成初步关键词序列:将步骤1中生成的摘要X输入已训练好的关键词生成模型,利用模型的解码器生成初步的关键词序列;初步关键词序列的生成过程中,通过逐步预测每个关键词,直到生成结束符号或达到预设的关键词数量限制; 步骤2.3,使用自动生成关键词序列对用户手工输入的关键词集合进行优化筛选,得到最终的筛选后的关键词集合; 步骤3,标题生成:构建摘要与关键词的交互表示,通过所述交互表示生成最终的标题步骤3的具体过程如下: 步骤3.1,将步骤2生成的关键词通过词嵌入模型转换为向量,形成查询数组K;同时,将摘要X分割成句子后,将每个词转换为词向量,并结合位置和类型信息,得到综合嵌入表示,随后通过自编码器生成潜在表示数组; 步骤3.2,分析查询数组K与潜在表示数组之间的关系,计算注意力得分,并根据注意力得分生成融合关键词和摘要内容的特征表示,即输出数组OutputArray; 步骤3.3,将步骤3.2中得到的输出数组通过嵌入层转换为适合解码任务的形式;随后,嵌入后的数组被输入到基于预定义结构的解码模块中,解码模块通过逐步生成标题序列,每一步生成的单词概率通过相应的计算方法得出;在训练过程中,采用交叉熵损失函数优化模型参数,使生成的标题与真实标题尽可能接近;最终,标题生成模块输出自动生成的结构化文档标题。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人浙江工业大学,其通讯地址为:310006 浙江省杭州市拱墅区朝晖六区潮王路18号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励