厦门四信通信科技有限公司彭府获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉厦门四信通信科技有限公司申请的专利基于多模态语言模型的结构化目标检测方法、装置及设备获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120580514B 。
龙图腾网通过国家知识产权局官网在2025-10-24发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511072265.7,技术领域涉及:G06V10/764;该发明授权基于多模态语言模型的结构化目标检测方法、装置及设备是由彭府;蓝发财;王文荣;陈珏;王志强设计研发完成,并于2025-08-01向国家知识产权局提交的专利申请。
本基于多模态语言模型的结构化目标检测方法、装置及设备在说明书摘要公布了:本发明提供的基于多模态语言模型的结构化目标检测方法、装置及设备,涉及目标检测技术领域。本发明将获取的图像数据与提示词输入多模态语言模型;多模态语言模型包括视觉编码器、交叉注意力模块与解码器;通过视觉编码器对图像数据进行特征提取;基于提示词与特征提取后的数据在交叉注意力模块进行多模态交互;其中,交叉注意力模块插入有Adapter模块,以实现图像与语言信息的融合;对交叉注意力模块的查询向量和值向量的权重进行低秩微调更新,其余模型权重保持冻结;通过解码器推理输出若干个至少包含目标类型及其边界框坐标的目标token组序列。本发明无需额外的目标检测模块,通过改进的多模态语言模型,可一次性生成多个目标的完整结构信息。
本发明授权基于多模态语言模型的结构化目标检测方法、装置及设备在权利要求书中公布了:1.一种基于多模态语言模型的结构化目标检测方法,其特征在于,包括: S1,将获取的图像数据与提示词输入多模态语言模型;其中,所述多模态语言模型包括视觉编码器、交叉注意力模块与解码器; S2,通过所述视觉编码器对所述图像数据进行特征提取; S3,基于所述提示词与特征提取后的数据在所述交叉注意力模块进行多模态交互,以进行图像与语言信息的融合;其中,所述交叉注意力模块插入有Adapter模块; S4,对所述交叉注意力模块的查询向量和值向量的权重进行低秩微调更新,其余模型权重保持冻结; S5,通过所述解码器一次性推理输出若干个至少包含目标类型及其边界框坐标的目标token组序列;其中,所述解码器设有组边界预测模块,以在解码阶段自动识别每个目标token组的边界,实现目标之间的结构隔离; 其中,所述组边界预测模块的表达式为: ; 其中,为第t步的预测值;为第t步token的隐藏状态;表示归一化函数;为的权重; 当大于设定的阈值时,表示该目标token为结构组边界; 还包括:采用结构控制联合损失函数进行模型训练;所述结构控制联合损失函数表示为: ; ; ; 其中,为生成损失函数;为类别token的监督损失,用于约束模型对目标类型的token预测准确性;为边界框坐标token的监督损失,采用交叉熵损失函数,用于约束模型对边界框坐标对应token的预测准确性; 为组边界预测损失函数,用于优化组边界预测模块对目标token组边界的识别能力,确保模型能准确区分不同目标token组;其公式为: ; 其中,为生成的token序列总长度;为第t步token的边界标签;为边界组预测模块预测的第t步token为边界的概率; 为组一致性损失函数,用于约束同一目标token组内类别与坐标的语义一致性;为类别token的平均表示;为坐标token的聚合表示;为余弦相似度函数,用于衡量与的语义相似度; 为终止token位置的监督损失;、、分别为、、对应的权重,用于平衡各损失项的影响。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人厦门四信通信科技有限公司,其通讯地址为:361021 福建省厦门市火炬高新区软件园创新大厦C区3F-A129;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励