北京航空航天大学游令非获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京航空航天大学申请的专利一种基于大模型的空中时敏目标识别方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119888534B 。
龙图腾网通过国家知识产权局官网在2025-08-15发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411949200.1,技术领域涉及:G06V20/17;该发明授权一种基于大模型的空中时敏目标识别方法是由游令非;高星海;常创业;王卓奇;郭志奇;刘清漪设计研发完成,并于2024-12-27向国家知识产权局提交的专利申请。
本一种基于大模型的空中时敏目标识别方法在说明书摘要公布了:本发明公开了一种基于大模型的空中时敏目标识别方法,属于图像处理与识别领域;具体为:对同一型号的飞机在不同时间点的飞行轨迹进行采集,获取包含空中时敏目标的图像数据和文本数据;然后,对图像进行预处理,利用CLIP模型将图像转换为视觉特征向量,获取编码后的图像特征。接着,对文本进行预处理,得到自然语言描述;并设计定义规则,将自然语言描述划分为多类型语义,进而通过设计语义提示合并器实施有机融合,输入到CLIP模型得到全局语义提示特征。最后,将每帧图像的全局语义提示特征作为查询向量,编码后的图像特征作为键和值向量,通过增强图像特征,最终有效识别出时敏目标。本发明提升了获取了具备强描述性和分辨性的目标。
本发明授权一种基于大模型的空中时敏目标识别方法在权利要求书中公布了:1.一种基于大模型的空中时敏目标识别方法,其特征在于,具体步骤如下: 步骤一:针对多个不同型号的飞机对空中时敏目标进行识别的场景中,对同一个型号的飞机在不同时间点的飞行轨迹进行采集,获取每个型号飞机对应的包含目标的图像数据和文本数据; 步骤二:对同一型号飞机的每个飞行轨迹视频对应的图像数据分别进行预处理; 步骤三:利用CLIP模型的图像编码器,将预处理后的每个视频的图像分别转换为一组视觉特征向量,获取各视频编码后的图像特征; 步骤四:对同一型号飞机的文本数据进行预处理,得到各文本列表的自然语言描述; 步骤五:设计自然语言描述的定义规则,将所有文本列表对应的自然语言描述划分为三种语义类型: 1类别描述语义,直接利用CLIP模型的文本编码器提取的文本列表对应类别相关的语义提示; 2视觉感知语义,采用离散语义提示编码器提取视觉感知的离散语义提示和连续语义提示编码器提取视觉感知的连续语义提示; 3高阶知识语义,采用离散语义提示编码器提取高阶知识的离散语义提示和连续语义提示编码器提取高阶知识的连续语义提示; 步骤六:设计语义提示合并器,将所有文本列表对应的多类型语义进行有机融合,输入到CLIP模型的文本编码器得到最终全局语义提示特征; 步骤七:将每个视频的全局语义提示特征作为查询向量,编码后的图像特征作为键和值向量,通过跨模态注意力机制获得增强图像特征,并汇总所有区域视觉信息,获取具备强描述性和分辨性的目标样本特征描述,最终有效识别出视频中的时敏目标类别; 具体过程为: 首先,针对当前视频的第i帧,其文本列表对应的全局语义提示特征为wi,其编码后的图像特征为Xi;该帧的增强图像特征为: 其中CrossAttention·指交叉注意力,LN是层归一化,xcls表示输入图像的[CLS]标记的特征;X为将视频对应的图像数据嵌入到视觉tokens序列得到的视频序列; 然后,将该视频下所有帧的增强图像特征计算平均值,获得平均图像特征作为全局图像特征; 接着,通过计算归一化的余弦相似度,计算第i帧编码后图像特征Xi属于全局图像特征的概率: 其中τ是一个可学习的温度参数,sim·代表余弦相似度; 最后,利用概率优化余弦相似度,使得该帧编码后图像特征Xi和正确的文本特征之间的相似度最大化,其他类别的相似度最小化; 具体优化为最小化交叉熵损失: 其中是yi为第i帧图像的独热编码。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京航空航天大学,其通讯地址为:100191 北京市海淀区学院路37号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。