Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 北京理工大学刘福祥获国家专利权

北京理工大学刘福祥获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉北京理工大学申请的专利一种基于改进Swin Transformer的视听目标分割方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120198837B

龙图腾网通过国家知识产权局官网在2025-11-18发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510326670.0,技术领域涉及:G06V20/40;该发明授权一种基于改进Swin Transformer的视听目标分割方法是由刘福祥;李函璐;胡智强;李磊设计研发完成,并于2025-03-19向国家知识产权局提交的专利申请。

一种基于改进Swin Transformer的视听目标分割方法在说明书摘要公布了:本发明公开了一种基于改进SwinTransformer的视听目标分割方法,涉及语音识别技术领域。改进SwinTransformer是基于滑窗多头自注意力变换机制的深度神经网络,增强了特征提取网络的全局建模能力以及长距离语义信息的获取效率,改善了底层特征提取能力和高级语义信息的抽象效果;本发明应用语音编码器以及视觉编码器将语音特征和视觉特征映射到统一语义空间,然后通过AFI模块进行模态之间的语义关联以及特征对齐;本发明提出了多模态融合,即将语音识别与视频处理相结合,能够实现多模态信息融合,从而提高整体的系统性能和鲁棒性,不仅可以提供丰富的上下文信息,还能够提升系统的精度和实时处理能力,为各类应用场景提供更优质的解决方案。

本发明授权一种基于改进Swin Transformer的视听目标分割方法在权利要求书中公布了:1.一种基于改进SwinTransformer分割网络的视听目标识别方法,其特征在于,包括以下步骤: S1、将视频帧特征信息输入图像尺寸自适应模块,提取图片特征信息; S2、将音频信息输入至卷积模块中,提取音频特征信息; S3、将经过S1处理的图像输入一系列滑窗自注意力变换模块中进一步提取和处理特征,再利用图像尺寸自适应模块将输出的特征图尺寸还原; S4、利用层级编码器在每阶段通过下采样生成不同深度的特征图,并且记录其每个编码阶段中特征以及原图像分辨率特征; S5、将S2、S4中获得的音频特征信息和图像特征信息输入到AFI模块中进行特征对齐,引入音频特征信息指导分割以建立时序音频与视频帧像素间的联系,经过AFI模块的视频帧特征期望在与音频对应匹配的区域被增强; S6、将S4中所输出的图像特征信息输入解码器中,对图像进行上采样后,将其还原至输入尺寸的特征图; S7、使用特征融合技术将S5中经AFI模块融合音频后采样特征以及S6中经解码上采样后的特征进行融合; S8、融合完成后,利用S1、S3中操作对融合后的特征进行处理; S9、将S8中输出的特征图输入分割头中,对每个像素进行分类,将像素分为预先确定的类别,得到语义分割识别结果,利用融合损失函数对识别结果进行计算,反向传播改进网络参数。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京理工大学,其通讯地址为:100081 北京市海淀区中关村南大街5号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。