Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
专利交易 积分商城 国际服务 IP管家助手 科技果 科技人才 商标交易 会员权益 需求市场 关于龙图腾 更多
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 杭州电子科技大学余宙获国家专利权

杭州电子科技大学余宙获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉杭州电子科技大学申请的专利一种多源异构知识联合增强的视觉知识推理问答方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN117010500B

龙图腾网通过国家知识产权局官网在2026-03-06发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310836128.0,技术领域涉及:G06N5/04;该发明授权一种多源异构知识联合增强的视觉知识推理问答方法是由余宙;李立权;俞俊设计研发完成,并于2023-07-10向国家知识产权局提交的专利申请。

一种多源异构知识联合增强的视觉知识推理问答方法在说明书摘要公布了:本发明公开了一种多源异构知识联合增强的视觉知识推理问答方法。首先使用多模态模型生成图像的文本描述和问题的候选答案作为多源异构知识检索的辅助信息,提高检索到的知识的质量。具体检索了四种异构知识:维基百科知识、相关网页文本知识、相关网页图像知识和大规模语言模型知识。多源异构知识相互补充,共同为视觉问答系统的性能提升做出贡献。基于多源异构知识,训练异构知识融合推理模型,提升了问答模型回答的质量和准确率,使得问答模型可以回答需要外部知识的问题,扩大了问答模型的应用场景。

本发明授权一种多源异构知识联合增强的视觉知识推理问答方法在权利要求书中公布了:1.一种多源异构知识联合增强的视觉知识推理问答方法,其特征在于,包括如下步骤: 步骤1:生成图像的文本描述; 对输入的图像进行预处理, 从图像中提取特征表示;特征表示,表示图像中的关键信息;图像文本描述生成模块根据条件决定生成序列的长度; 步骤2:生成问题的候选答案; 使用图像和问题编码器分别获取图像特征和问题特征,基于注意力机制进行图像和问题特征的融合,获取问题回答生成器的输入; 通过问题回答生成器,使用融合后的特征作为输入,生成与问题相关的答案; 问题回答生成器将输入的特征映射到一个答案的概率分布上;根据生成的答案概率分布,选择概率最高的答案作为最终的问题候选答案; 步骤3:检索相关的维基百科知识; 准备维基百科的数据集; 基于步骤1和步骤2生成的图像文本描述和候选答案,构建维基百科检索器模块的输入,维基百科检索器模块将对该输入进行处理并转换成向量表示,并计算输入向量与维基百科文档向量之间的相似度得分; 根据相似度得分,对维基百科文档进行排序,以确定哪些文档与查询最相关,相似度得分越高的文档排名越靠前; 选择相似度最高的top-K文档作为相关的维基百科知识; 步骤4:检索相关的网页文本知识; 基于步骤1和步骤2生成的图像文本描述和候选答案,构建文本搜索引擎的查询输入; 使用文本搜索引擎检索相关的网页片段;通过网页片段解析脚本从HTML网页中解析出纯网页文本知识;通过网页片段过滤脚本过滤文本知识,形成过滤后的文本知识; 获取了预处理后的网页片段文本后,使用文本编码器对其进行编码,获取网页片段文本特征用同样的方法编码图像文本描述和问题的拼接字符串,获取特征fcq;计算特征和fcq之间的余弦相似度,得到相似度 选择相关性最高的top-K2个网页片段文本作为相关的网页文本知识; 步骤5:检索相关的网页图像知识; 基于步骤1和步骤2生成的图像文本描述和候选答案,构建图像搜索引擎的查询输入;使用图像搜索引擎检索相关的包含图像文本描述的图像,通过网页图像解析脚本从HTML网页中解析出全部的图像和对应的图像描述; 获取了网页图像后,分别使用图像编码器和文本编码器对图像和图像文本描述进行编码,获取网页图像特征向量和网页图像文本描述特征向量通过同样方法,获取输入图像的特征向量fm和输入图像的文本描述特征向量fc;计算fm和之间的相似度fc和之间的相似度最终网页图像的相关性分数如下: 最后选择相关性最高的top-K3个图像作为相关的网页图像知识; 步骤6:获取大规模语言模型知识; 基于步骤1和步骤2生成的图像文本描述和候选答案,构建大规模语言模型的输入;大规模语言模型知识由输出的答案lans和解释lexp构成; 步骤7:基于四种异构知识,训练异构知识融合推理模型; 异构知识融合推理模型由双向多模态编码器和自回归文本解码器组成; 模型的训练数据基于需要外部知识的视觉问答数据集,每一个训练样本由图像、问题和答案组成,针对每一个训练样本,依据步骤1到步骤6的方法检索训练样本相关的多源异构知识,形成最终的训练样本; 模型的输入包括视觉输入和文本输入:对图像和检索到的网页图像进行处理,使用视觉特征抽取模型获取图像特征和相关网页图像的特征作为异构知识融合推理模型的视觉输入;异构知识融合推理模型的文本输入如下:维基百科知识:网页文本知识:大语言模型知识:{lans,lexp},{Question}; 模型按照如下损失函数进行训练,直至模型收敛; 其中v指输入的图像视觉特征,x指输入的文本,y指生成的答案。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人杭州电子科技大学,其通讯地址为:310018 浙江省杭州市钱塘区白杨街道2号大街1158号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。