Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 中国石油大学(华东)李莉获国家专利权

中国石油大学(华东)李莉获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉中国石油大学(华东)申请的专利基于多模态信息融合的水下图像字幕生成方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120281862B

龙图腾网通过国家知识产权局官网在2025-09-23发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510405514.3,技术领域涉及:H04N5/278;该发明授权基于多模态信息融合的水下图像字幕生成方法及系统是由李莉;李环宇;任鹏;王正楷设计研发完成,并于2025-04-02向国家知识产权局提交的专利申请。

基于多模态信息融合的水下图像字幕生成方法及系统在说明书摘要公布了:本发明公开了基于多模态信息融合的水下图像字幕生成方法及系统,首先,通过FasterR‑CNN提取水下图像的多尺度图像特征,包括全图特征和区域特征,捕获水下图像的场景和显著目标信息。随后,利用CLIP模型生成与水下图像内容相关的文本词嵌入编码,并通过K均值进行多级聚类提取层级化的文本特征,进一步分析文本信息的层级结构。接着,采用基于多头注意力机制的融合方法,有效地将图像特征和文本特征进行融合,增强模型对水下图像的理解能力。最后,融合后的多模态特征输入到基于Transformer的图像字幕生成器中,生成与图像内容和上下文相关的水下图像字幕。该方法能够有效地提升水下图像字幕生成的准确性与鲁棒性,具有较强的实际应用价值。

本发明授权基于多模态信息融合的水下图像字幕生成方法及系统在权利要求书中公布了:1.一种基于多模态信息融合的水下图像字幕生成方法,其特征在于,所述方法包括: 多尺度的图像特征提取:获取水下图像,使用更快速的基于区域的卷积神经网络FasterR-CNN提取多尺度图像特征,包括全图特征和区域特征; 层级化的文本特征提取:利用基于对比学习的语言图像预训练CLIP模型进行文本词嵌入编码,获得与图像内容关联的语义信息,采用K均值聚类进行分层文本特征提取,分析数据分布,提取不同层级的文本特征; 多模态信息融合:构建基于多头注意力机制的多模态信息融合方法,将不同尺度的图像特征和文本特征进行有效融合,得到融合特征; 字幕生成:基于融合特征,使用预设的Transformer的水下图像字幕生成器,为水下图像生成表达图像内容并且上下文关联的图像字幕; 所述文本特征提取阶段,具体包括: 基于CLIP的词嵌入编码: 将水下图像字幕数据集标注的文本进行分词和统计,构建相应的词库,词库中的词汇通过预训练的CLIP模型进行词嵌入编码,生成与图像内容相关的词向量,词向量的形状为[N×512],其中N表示词库中的词汇数量,512是CLIP模型输出的词嵌入向量的维度; 生成文本聚类特征: 使用K均值算法对CLIP生成的词嵌入向量进行聚类,首先,进行低级别聚类,将所有词汇的词向量进行聚类,得到低级别聚类中心;该聚类结果的形状为[N1×512],其中N1表示低级别聚类中心的数量; 生成高级别聚类: 基于低级别聚类中心的向量集,进行高级别聚类;对低级别聚类中心向量进行进一步聚类,得到高级别聚类中心,聚类结果的形状为[N2×512],其中N2表示高级别聚类中心的数量; 层级化聚类中心的文本特征表示: 聚类中心表示了与其相似的样本,因此每个聚类中心作为这些词的分类特征,增强文本语义的表达,低级别聚类中心代表了更细致的语义类别,而高级别聚类中心则代表了更抽象的、广泛的类别; 信息融合: 将低级别聚类和高级别聚类的文本特征逐级与水下图像的特征进行融合,为后续的图像字幕生成任务提供丰富的语义支持;通过上述步骤,CLIP生成的词嵌入和基于K均值算法的两级聚类方法有效地提取了水下图像字幕的层级化的文本特征,增强了文本和图像之间的多模态信息关联; 所述多模态信息融合阶段,具体包括: 假设在水下图像字幕生成模型的时间步长t处,全图特征Ft和区域特征Rt=[r1,r2,…,rn],通过目标检测提取,然后将它们连接起来形成一个组合的图像表示,这个组合表示为Vt,其中Vt聚合了多尺度的图像信息,定义为: Vt=[Ft,Rt].3 在多头注意力模块中,通过对图像信息Vt和第j级文本聚类模块的输出,表示提取的文本特征向量Cj,应用注意力机制实现特征融合,注意力权值计算为: 其中Wq和Wk是自注意力机制中实现线性维度变换的查询和键值矩阵,参数dk是WkCj的维数,参数αt表示注意力权重,量化了组合的全图特征和区域特征的Vt与文本聚类特征Cj之间的相关性; 接下来,使用以下公式计算加权文本聚类特征: 式中表示加权文本聚类特征,Wv表示线性变换矩阵; 随后,和Vt进行残差连接,然后进行层归一化,公式为: 其中,函数LayerNorm·表示层归一化操作,基于所有样本的可学习参数进行缩放和偏移,Xt是层归一化操作的输出,层归一化通过对每批内的激活函数输出值进行归一化来稳定输出分布,从而加速训练过程,增强模型的泛化能力; Xt送入前馈神经网络,然后与自身相加,并执行层归一化进行归一化; Fusionvt=LayerNormXt+FFNXt,7 其中Fusionvt为图像和文本信息融合的特征,函数FFN·代表两层的前馈网络运算,是对自注意力机制的补充,增强模型的表达能力;最后将输出的融合特征Fusionvt送到基于Transformer的水下图像字幕生成器中,以预测句子序列中的下一个单词; 通过两级聚类,得到了两组聚类中心的文本特征向量,在信息融合的过程中,按照全局注意力机制融合模式对它们进行逐级顺序组合,得到一个融合更多特征信息的向量,采用了层级化的信息融合策略,较高级别的文本聚类特征与前一层的图像特征融合,主要集中于识别单词的主要类别,较低级别的文本聚类特征在后面的层融合,表达更具象的信息,最终得到图像和文本的融合特征; 所述字幕生成阶段的模型训练,具体包括: 假设水下图像字幕生成模型生成图像I的描述y为: y=y1,y2,...,yT8 其中yi为生成的第i个单词,T为描述的长度; 水下图像字幕生成器的训练过程包括交叉熵优化和图像描述文本与参考值相似性的评价指标CIDEr的优化两个阶段;在交叉熵优化阶段,使用交叉熵损失函数对模型预测词序列的能力进行量化,其定义为: 其中yt为时刻t生成器的输出,y1:t-1为时刻t之前生成器的输出,给定水下图像字幕生成模型参数θ,符号pθ表示生成器的输出为yt,而前面的单词为y1:t-1的概率分布; 通过最小化交叉熵损失训练生成器,生成与参考语句相似的句子,当交叉熵优化达到一定程度,出现过拟合或者训练停滞时,进一步应用强化学习技术直接优化生成文本的评价参数CIDEr的数值; 采用自批判序列训练SCST方法,基于预期奖励对模型进行优化,强化学习的损失函数定义为: 其中奖励函数r·为CIDEr参数值,用来衡量模型生成的描述与参考文本之间的一致性,通过最大化CIDEr参数的数学期望,进一步提高了模型生成高质量水下图像字幕的能力。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国石油大学(华东),其通讯地址为:266580 山东省青岛市黄岛区长江西路66号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。