安徽农业大学丁文荣获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉安徽农业大学申请的专利一种基于多模态融合技术的复杂场景下苹果果实检测方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119851264B 。
龙图腾网通过国家知识产权局官网在2025-08-26发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411921967.3,技术领域涉及:G06V20/68;该发明授权一种基于多模态融合技术的复杂场景下苹果果实检测方法是由丁文荣;蒋婷婷;宋旭婷;杨帅;辜丽川设计研发完成,并于2024-12-25向国家知识产权局提交的专利申请。
本一种基于多模态融合技术的复杂场景下苹果果实检测方法在说明书摘要公布了:本发明公开了一种基于多模态融合技术的复杂场景下苹果果实检测方法,包括:1、构建数据集;2、可见光图像与红外光图像特征融合;3、对融合得到的可见光图像特征进行掩码并与视觉特征进行融合;4、将融合后的视觉特征与文本特征融合;5、对可见光图像特征进行过滤;6、将可见光图像特征与文本特征输入到词‑区域相似度计算中;7、结合Soft‑NMS和Focal‑EIOU选取最优目标框。本发明将红外光图像、可见光图像、文本三种模态进行特征融合,综合考虑了不同模态的互补优势。并且利用软非极大值抑制Soft‑NMS和Focal‑EIOU来选取最优目标框,有效提高了复杂条件下苹果果实的检测精度。
本发明授权一种基于多模态融合技术的复杂场景下苹果果实检测方法在权利要求书中公布了:1.一种基于多模态融合技术的复杂场景下苹果果实检测方法,其特征在于,是按如下步骤进行: 步骤1、构建数据集: 步骤1.1、利用深度相机采集果园中苹果的可见光图像和红外光图像,相应得到苹果的可见光图像数据集和苹果的红外光图像数据集,其中,表示第类苹果中第张可见光图像,表示第类苹果中第张红外光图像,表示类别数,表示每一类苹果的图像总数; 步骤1.2、利用标注工具对苹果的可见光图像进行类别标注,得到苹果的可见光图像数据集的标注集,其中,表示的类别标注,且,其中,表示的第个苹果果实,为中苹果果实的总数,表示中第个苹果果实的真实标签,表示中第个苹果果实的标签框,且,表示的中心点坐标,表示的宽和高; 步骤2、将第c类苹果的可见光图像数据集输入到模型中进行提取,得到第c类苹果的可见光视觉信息,从而得到苹果的可见光视觉信息集;其中,表示第类苹果的可见光图像集合中第个视觉,表示每类苹果中的可见光视觉总数; 步骤3、构建文本提示符,并利用预训练语言模型对所述文本提示符进行文本嵌入,生成文本向量,其中,表示第c类苹果的文本; 步骤4、对中的任一类苹果的文本进行掩码,得到带掩码的文本信息,其中,表示被掩码的某类苹果的文本; 步骤5、构建苹果果实检测网络,并对、和进行处理,得到候选边界框集、及其匹配分数集,其中,表示第类苹果中第个可见光图像中第个苹果果实的第个候选框;表示的匹配分数; 步骤5.1、将和分别输入到可见光图像编码器和红外光图像编码器中进行特征提取,相应得到苹果的可见光图像特征集以及红外光图像特征集,其中,表示第类苹果中第张可见光图像的特征,表示第类苹果中第张红外光图像的特征; 可见光图像编码器利用式1得到可见光融合特征集; 1 式1中,表示第类苹果中第个可见光图像的融合特征,表示激活函数,、、分别为的查询向量、的键向量的权重、的值向量的权重,为的维度; 步骤5.2、将输入到图像编码器中进行特征提取,得到可见光视觉特征集,其中,表示第类苹果的第个可见光视觉特征; 步骤5.3、创建一个与的大小相同的全1的掩码矩阵,并通过式2和式3对和进行范数归一化处理,从而得到得到归一化后的可见光图像特征集和归一化后的可见光视觉特征集; 2 3 式2和式3中,表示归一化后第类苹果中第个可见光图像向量,表示归一化后第类苹果中第个可见光视觉向量; 步骤5.4、通过式4计算和之间的相似度距离矩阵,其中,表示第类苹果中第个可见光图像向量和第个视觉向量之间的距离; 4 步骤5.5、利用式5和式6分别计算的均值和标准差; 5 6 步骤5.6、利用式7计算的距离阈值: 7 式7中,为4个超参数,为距离的上四分位数;表示距离矩阵中所有元素的最小值,表示距离矩阵中所有元素的最大值; 步骤5.7、将与进行比较,记录中小于的索引位置,从而将掩码矩阵中相应的索引位置设置为0,并得到处理后的掩码矩阵; 将处理后的掩码矩阵与进行点积,得到第类苹果中第个带有掩码的图像特征,从而得到掩码后的可见光图像特征; 步骤5.8、通过式8和式9分别对与进行线性映射,得到的查询向量,的键向量和的值向量; 8 9 式8和式9中,为查询的映射函数,为键、值的映射函数,为线性变换函数; 步骤5.9、通过式10得到融合视觉特征=,其中,表示第类苹果的第个可见光视觉融合特征; 10 式10中,为全连接层,为的维度; 步骤5.10、利用式11得到第类苹果的第个二次融合后的可见光视觉特征; 11 式11中,为多头注意力机制函数; 步骤5.11、利用式12得到苹果的文本特征: 12 式12中,为归一化函数; 步骤5.12、通过式13得到过滤后的可见光图像特征,其中,为第类苹果中第个过滤后的可见光图像特征; 13 步骤5.13、利用式14生成与的相似度得分,从而得到匹配分数; 14 步骤5.14、根据,利用生成候选边界框集,其中,表示第类苹果中第个可见光图像中第个苹果果实的第个候选框; 步骤5.15、利用式15计算原始匹配分数: 15 式15中,为余弦相似度函数; 步骤5.16、利用式16计算的匹配分数,从而得到所有候选框的匹配分数集: 16 步骤6、构建苹果果实检测网络的总损失函数; 步骤7、利用梯度下降法对所述苹果果实检测网络进行训练,并计算以更新网络参数,当训练迭代次数达到设定的次数或者收敛时,训练停止,从而得到最优苹果果实检测模型; 步骤8、获取目标可见光图像和文本提示符后,输入到所述最优苹果果实检测模型中进行处理,得到所有预测框的匹配分数,其中,表示目标可见光图像中第类苹果中第个可见光图像中第个苹果果实的第个预测框,表示的匹配分数,为目标可见光图像中预测框总数; 利用软非极大值抑制算法对进行处理,得到候选框的分数排序,从而选择最高分数的候选框作为目标图像的果实检测结果。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人安徽农业大学,其通讯地址为:230036 安徽省合肥市长江西路130号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。