西北工业大学郭斌获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉西北工业大学申请的专利一种融合视觉情境的富语义对话生成方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115964467B 。
龙图腾网通过国家知识产权局官网在2025-08-12发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310000268.4,技术领域涉及:G06F16/3329;该发明授权一种融合视觉情境的富语义对话生成方法是由郭斌;曾亚庭;王豪设计研发完成,并于2023-01-02向国家知识产权局提交的专利申请。
本一种融合视觉情境的富语义对话生成方法在说明书摘要公布了:本发明公开了一种融合视觉情境的富语义对话生成方法,收集具有挑战性的视听场景感知数据集对模型进行训练,整体模型在Transformer的基础上设计并实现了多步交叉模态注意力机制,细粒度捕捉时空维度上的不同模态间异构语义关联,而后将多模态特征表示联合构建成时空图结构并使用图卷积网络进行跨模态学习推理,最后解码生成符合当前情境,内容丰富准确的对话回复。本发明通过多模态数据的融合和跨模态交互捕捉多角度细粒度渐进式特征交互和模态间语义关联,实现视觉‑语言跨模态语义对齐,提升模型语义理解和推理能力,最终生成信息丰富且高质量的回复。
本发明授权一种融合视觉情境的富语义对话生成方法在权利要求书中公布了:1.一种融合视觉情境的富语义对话生成方法,其特征在于,包括以下步骤: 步骤1:收集视频对话相关开源数据集,并对数据进行预处理,划分训练集、验证集与测试集; 步骤2:数据预处理; 视频内容中存在四种类型的多模态特征表示,即视频静态特征、视频动态特征、当前问题特征和历史对话与总结信息拼接的文本特征;进行特征提取时加入位置编码,得到最终模型的输入表示,如下: 其中PEpos,2i代表句子序列中第pos个单词的第2i个维度上的值,PEpos,2i+1代表句子序列中第pos个单词的第2i+1个维度上的值; 步骤3:模型构建; 1首先构建基于编解码架构的对话系统,通过对视频中的帧信息使用预训练模型进行特征提取,获取到静态和动态的视频语义信息,然后将其与对话文本内容分别进行编码,并建模细粒度的模态内上下文语义信息; 2使用基于交叉模态的多步注意力机制进行多模态数据的融合和跨模态交互,捕捉多角度细粒度渐进式特征交互和模态间语义关联,实现视觉-语言跨模态语义对齐; 3将多模态特征表示联合构建成时空图结构,基于动态时空场景进行图推理得到跨模态融合特征后,解码生成对话回复; 步骤4:编码阶段; 对于编码部分,使用4个标准Transformer编码器,对不同模态输入特征进行语义编码,包括视频静态特征、视频动态特征、历史对话与视频摘要特征和当前问题特征;其中,同属文本模态的历史对话与视频摘要特征和当前问题特征所使用的编码器将共享权重; 首先通过多头注意力模块根据上下文对句子序列中的单词向量进行更新,如下: MultiHeadQ,K,V=Concathead1,head2,...headhWO headi=AttentionQWi Q,KWi K,VWi V 其中Q,K,V分别由三个不同的权重矩阵Wi Q、Wi K、Wi V与模型输入向量相乘得到,三个权重矩阵维度均为dk,headi代表多头注意力机制中的一个注意力头; 然后经过前馈神经网络层得到编码阶段的输出,如下: FFNZ=max0,Z,W1+b1W2+b2 其中Z代表多头注意力层的输出内容,W1、W2分别表示前馈神经网络的学习权重;b1、b2分别表示偏置; 编码阶段中的多头注意力层和前馈神经网络层后都附加有残差连接和层归一化过程,如下: SubLayeroutput=LayerNormx+SubLayerx 其中SubLayer指多头注意力层或前馈神经网络层,x表示输入; 步骤5:多步交叉模态注意机制; 将注意力机制从单步扩展到多步,在不同的注意力计算中,查询向量依次来源于其中一个模态类型数据,其余三个模态类型数据分别用于计算键向量和值向量,实现其中一个特征维度与其余三个维度之间的交叉注意;对于每一次的注意力机制计算,采用重复两次反复交互的策略,以三组六次的交叉模态注意力计算,多步交叉注意计算的具体更新和操作公式如下: at=softmaxqLMt-1T Mt←at⊙Mt-1Wt+bt 其中,at表示Mt-1的注意权重,T为步数,←表示更新操作,Wt和bt是线性FC层的可学习参数;q表示查询向量,L表示其余模态向量; 同理计算当前模态与其余模态之间的相互作用,将所有计算得到的相互作用进行拼接后经过线形层映射到同一维度,最后与当前模态特征相加,得到与其他模态的融合更新后的当前模态特征表示; 步骤6:跨模态推理; 采用图卷积网络GCN进行跨模态推理工作,在先前的特征表示和融合步骤中得到语言模态和视觉模态的交叉嵌入特征,对该特征构建无向异构图,即一个包含所有视觉和语言向量的异构输入矩阵,在异构图中进行基于图的对齐,得到基于语义相似度加权的跨模态对齐邻接矩阵,进一步使用GCN在图上执行关系推理;具体为,通过图中相邻节点和自身节点的线性变换进行节点值的更新,图中边的权值由对齐的邻接矩阵指定,将一层GCN表示如下: Xf=AfXf-1Wf 其中Xf是GCN第f层的隐藏特征,Af是由Xf-1中节点特征的点积相似度计算出的邻接矩阵,Wf是可学习的权重矩阵; 步骤7:解码阶段; 解码部分的输入经过多头掩码注意力机制和相同结构的编-解码注意力机制,最后经过前馈神经网络层生成最终的回复序列;解码阶段每个子层后同样附加有残差连接和层归一化过程;使用最小化生成序列的负对数似然函数损失来学习模型的参数,得到多轮对话内容生成模型,如下: 其中t1,...,ti分别代表生成句子序列中的第i个单词,DKL表示KL散度,pti|t1,...,ti-1,x表示当前时刻生成单词的概率,n表示最大生成长度。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人西北工业大学,其通讯地址为:710072 陕西省西安市友谊西路;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。