浙江大学潘昶皓获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉浙江大学申请的专利一种基于多模态信息的空间音频播放系统评价方法和装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120873494B 。
龙图腾网通过国家知识产权局官网在2025-12-05发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511367272.X,技术领域涉及:G06F18/20;该发明授权一种基于多模态信息的空间音频播放系统评价方法和装置是由潘昶皓;郭文祥;赵洲设计研发完成,并于2025-09-24向国家知识产权局提交的专利申请。
本一种基于多模态信息的空间音频播放系统评价方法和装置在说明书摘要公布了:本发明公开了一种基于多模态信息的空间音频播放系统评价方法和装置,属于空间音频理解领域。获取多场景下的训练集,利用空间音频编码器,提取声学与空间线索,捕捉细粒度的感知模式来实现空间音频表征,生成空间音频嵌入特征和编码后的条件嵌入特征;基于空间音频嵌入特征完成第一阶段训练;再由声音‑视觉协同编码器对播放环境全景图像空间特征、空间音频嵌入特征和编码后的条件嵌入特征进行声音‑视觉协同编码,得到视觉音频联合嵌入特征;基于视觉音频联合嵌入特征完成第二阶段训练。本发明可用于有效指导室内场景下空间音频播放系统的质量优化,解决了现有技术中对空间音频播放系统的声场、声像感知维度评价不足的问题。
本发明授权一种基于多模态信息的空间音频播放系统评价方法和装置在权利要求书中公布了:1.一种基于多模态信息的空间音频播放系统评价方法,其特征在于,包括以下步骤: 1获取在空间音频播放环境下录制的双声道立体声音频、播放环境全景图像、客观感知标注和多维度的主观评测分数,构建训练数据集;所述的客观感知标注包含声音事件、声源方位和声源距离; 2从双声道立体声音频中提取初始频谱特征,由空间音频编码器对所述初始频谱特征进行空间编码,在所述空间编码的过程中,先利用频率混合专家模型生成空间音频隐变量,再拼接初始化的条件嵌入特征后输入非自回归变压器,生成空间音频嵌入特征和编码后的条件嵌入特征;所述条件嵌入特征包含三个特征向量; 3一阶段训练:基于空间音频嵌入特征执行空间音频客观感知任务,以客观感知标注作为训练目标,训练空间音频编码器; 4从播放环境全景图像中提取播放环境全景图像空间特征,由声音-视觉协同编码器对所述播放环境全景图像空间特征、经过一阶段训练后的空间音频嵌入特征和编码后的条件嵌入特征进行声音-视觉协同编码,得到视觉音频联合嵌入特征; 5二阶段训练:基于视觉音频联合嵌入特征执行空间音频分数评测任务,以多维度的主观评测分数作为训练目标,训练声音-视觉协同编码器; 6获取来自待评价的空间音频播放系统的双声道立体声音频和播放环境全景图像,利用训练后的模型预测多维度的主观评测分数。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人浙江大学,其通讯地址为:310058 浙江省杭州市西湖区余杭塘路866号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励