中国科学院合肥物质科学研究院陈雷获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中国科学院合肥物质科学研究院申请的专利一种基于多模态自监督Transformer架构的害虫识别方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116702035B 。
龙图腾网通过国家知识产权局官网在2025-08-12发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310655361.9,技术领域涉及:G06F18/241;该发明授权一种基于多模态自监督Transformer架构的害虫识别方法是由陈雷;张引硕;袁媛;祝晶萍设计研发完成,并于2023-06-02向国家知识产权局提交的专利申请。
本一种基于多模态自监督Transformer架构的害虫识别方法在说明书摘要公布了:本发明公开了一种基于多模态自监督Transformer架构的害虫识别方法,基于构建图像编码器和文本编码器提取图像特征和文本特征应用于害虫识别,包括以下步骤:构建图像编码器,基于对比学习的方式训练PSM改进的ViT模型,提取图像特征;构建文本编码器,基于Albert模型处理害虫的自然语言描述信息,并输出文本特征;将得到的图像特征和文本特征进行特征融合,得到最终的害虫特征,并进行分类。本发明通过利用自监督学习、细粒度识别、多模态信息来改进Transformer架构,不仅能够降低模型对于数据量的依赖,而且能够提高细粒度害虫识别的性能。与现有图像识别方法相比,在小样本数据集条件下,将注意力集中到害虫图像的细分区域,识别准确率高。
本发明授权一种基于多模态自监督Transformer架构的害虫识别方法在权利要求书中公布了:1.一种基于多模态自监督Transformer架构的害虫识别方法,其特征在于,基于构建图像编码器和文本编码器提取图像特征和文本特征应用于害虫识别,包括以下步骤: 步骤一、构建图像编码器,基于对比学习的方式训练PSM改进的ViT模型,提取图像特征,其具体步骤包括: 获取害虫图像; 对输入害虫图像进行两种不同的随机转换并生成一组视图集合V,所述视图集合V包含两个全局视图和,以及若干个较小分辨率的局部视图,并将所有视图都通过学生网络传递,而全局视图通过教师网络传递; 其中学生网络是根据教师网络的输出训练得到的,两者网络的结构相同,参数不同,分别用和表示; 对于输入图像,两个网络输出维上的概率分布,表示为和;概率是通过使用softmax函数对网络的输出进行归一化得到的,表达式为: 其中,为概率分布的维度,为的第几个维度,0,是用于控制输出分布锐度的温度系数,设定一个固定的教师网络,我们通过最小化交叉熵损失,学生网络的参数,来学习匹配这些分布;表达式为: 其中,log,参数是通过随机梯度下降最小化上述公式得到的; 采用基于PSM改进的ViT模型,提取细微差异的区域特征,并将最后一个Transformer层作为特征层的输入,用以利用注意力信息; 设定ViT模型有M个自注意头,则最后一层输入的隐藏特征记为: ; 上述各层的注意力权重为: 通过递归地对所有层的原始注意力权重进行矩阵乘法来整合之前各层的注意权重: 再根据中的M个不同的注意头,选择最大值 , ,…, 的索引,并将这些位置作为模型的索引,用以提取中相应的标记; 最后,将选择的标记与分类标记连接起来作为最后一个TransformerLayer的输入,表示为: ; 步骤二、构建文本编码器,基于Albert模型处理害虫的自然语言描述信息,并输出文本特征; 步骤三、将得到的图像特征和文本特征进行特征融合,得到最终的害虫特征,并进行分类,其具体步骤包括: 将害虫图像送入图像编码器,得到大小为的图像特征; 再将其对应的文本描述信息送入文本编码器,得到大小为的文本特征; 再将得到的图像特征和文本特征拼接,得到大小为的害虫特征,将其送入线性层进行分类,作为最终的预测类别。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国科学院合肥物质科学研究院,其通讯地址为:230031 安徽省合肥市蜀山区蜀山湖路350号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。