武汉大学王晓晨获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉武汉大学申请的专利一种卷积循环神经网络的多声源检测与定位方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119335478B 。
龙图腾网通过国家知识产权局官网在2025-09-09发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411369175.X,技术领域涉及:G01S5/20;该发明授权一种卷积循环神经网络的多声源检测与定位方法及系统是由王晓晨;肖宇航;胡瑞敏;吴玉林设计研发完成,并于2024-09-29向国家知识产权局提交的专利申请。
本一种卷积循环神经网络的多声源检测与定位方法及系统在说明书摘要公布了:本发明提出了一种卷积循环神经网络的多声源检测与定位方法及系统。本发明提取多声道音频的幅度与相位特征,使用嵌入层为每帧音频生成位置编码,将特征与位置编码共同输入神经网络,并在网络结构中使用卷积神经网络依据通道间特征,学习声源类别的区分和声源定位,卷积层间使用多组空洞空间金字塔池化从不同尺度提取特征,使用空间转换器网络保持卷积神经网络的平移不变性,使用基于注意力机制的门控循环单元学习上下文信息,依据先前帧的信息辅助预测当前帧的声源位置,使用全局平均池化处理获取全局特征,全局特征与位置编码组合输入并行的全连接层,输出声音事件预测结果和到达方向预测结果。本发明实现了多个声源同时发声的分别定位,对混响和低信噪比环境具有鲁棒性。
本发明授权一种卷积循环神经网络的多声源检测与定位方法及系统在权利要求书中公布了:1.一种卷积循环神经网络的多声源检测与定位方法,其特征在于,包括以下步骤: 步骤1:输入多组多声道音频,将每组多声道音频进行离散傅里叶变换,获得每组多声道音频的频谱,标记每组多声道音频每帧音频声音的事件类型的真实值、到达方向的真实,将每组多声道音频进行音频特征信息提取,得到每组多声道音频的幅度特征序列、相位特征序列,将每组多声道音频的特征幅度、每组多声道音频的相位特征通过首尾拼接,得到每组多声道音频的特征序列; 步骤2:通过正余弦交替位置编码计算每组多声道音频每帧音频在每组多声道音频的相对位置,以构建每组多声道音频的位置编码序列; 步骤3:构建多声源检测与定位网络,输入每组多声道音频每帧音频声音,通过多声源检测与定位网络进行事件类型、到达方向预测,得到每组多声道音频多帧音频的事件类型的预测值构建每组多声道音频的声音事件类型预测结果序列、每组多声道音频多帧音频的到达方向的预测值构建每组多声道音频的到达方向预测结果序列,结合每组多声道音频的声音事件类型真实结果序列、声音事件类型预测结果序列构建二元交叉损失,结合每组多声道音频的到达方向真实结果序列、到达方向预测结果序列构建均方误差损失,加权构建加权损失函数模型,通过自适应矩估计算法优化训练得到优化后多声源检测与定位网络; 步骤4:采集实时多声道音频,输入至优化后多声源检测与定位网络进行事件类型、到达方向预测,得到实时多声道音频的预测事件类型、预测到达方向。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人武汉大学,其通讯地址为:430072 湖北省武汉市武昌区八一路299号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励