中国电子科技集团公司第五十二研究所矫健获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中国电子科技集团公司第五十二研究所申请的专利一种基于跨模态模型的深度语义理解方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116680578B 。
龙图腾网通过国家知识产权局官网在2025-08-19发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310445651.0,技术领域涉及:G06F18/22;该发明授权一种基于跨模态模型的深度语义理解方法是由矫健;祝中科;程球;白善今;李平设计研发完成,并于2023-04-19向国家知识产权局提交的专利申请。
本一种基于跨模态模型的深度语义理解方法在说明书摘要公布了:本发明公开了一种基于跨模态模型的深度语义理解方法,包括调用WIT数据集对文本编码器和图像编码器进行预训练;调用数据集对音频特征提取子网络进行预训练;调用数据集对预训练的文本编码器、图像编码器和音频特征提取子网络进行迁移训练,得到权重迁移学习后的跨模态模型;调用数据集和数据集对权重迁移学习后的跨模态模型中的音频特征提取子网络进行优化训练,得到权重优化后的跨模态模型;运行权重优化后的跨模态模型,输出多源数据集中文本数据、图像数据和音频数据之间的关联信息,完成对多源数据集的深度语义理解。本发明解决了当前多源数据智能检测识别算法未有效利用多种模态数据、分析结果安全性、稳定性差的问题。
本发明授权一种基于跨模态模型的深度语义理解方法在权利要求书中公布了:1.一种基于跨模态模型的深度语义理解方法,其特征在于,所述跨模态模型包括文本编码器、图像编码器和音频特征提取子网络,所述基于跨模态模型的深度语义理解方法,包括: 调用WIT数据集对文本编码器和图像编码器进行预训练; 调用ImageNet数据集对音频特征提取子网络进行预训练; 调用AudioSet数据集对预训练的文本编码器、图像编码器和音频特征提取子网络进行迁移训练,得到权重迁移学习后的跨模态模型; 调用ESC-50数据集和AudioSet数据集对权重迁移学习后的跨模态模型中的音频特征提取子网络进行优化训练,得到权重优化后的跨模态模型; 运行权重优化后的跨模态模型,输出多源数据集中文本数据、图像数据和音频数据之间的关联信息,完成对多源数据集的深度语义理解; 其中,所述调用AudioSet数据集对预训练的文本编码器、图像编码器和音频特征提取子网络进行迁移训练,包括: 将AudioSet数据集中的音频数据通过短时傅里叶变换转换为频谱图; 将所述频谱图根据频带映射到三个输入通道上,得到三通道图像; 取AudioSet数据集中的一个音频文本对,以音频文本对中音频数据的三通道图像作为输入,以音频文本中文本数据作为标签,对预训练后的音频特征提取子网络进行扩展训练; 将扩展训练后的音频特征提取子网络,联合预训练后的文本编码器和图像编码器作为待训练的跨模态模型,取AudioSet数据集中的音频文本图像对,以音频文本图像对对跨模态模型进行迁移训练; 其中,所述调用ESC-50数据集和AudioSet数据集对权重迁移学习后的跨模态模型中的音频特征提取子网络进行优化训练,包括: 取ESC-50数据集中的音频文本对,冻结跨模态模型中文本编码器和图像编码器的权重,以音频文本对训练跨模态模型,调整音频特征提取子网络的权重; 取AudioSet数据集中的音频文本对,冻结跨模态模型中图像编码器的权重,以音频文本对训练跨模态模型,调整音频特征提取子网络和文本编码器的权重。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国电子科技集团公司第五十二研究所,其通讯地址为:311121 浙江省杭州市余杭区爱橙街198号B楼;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。