Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 国际商业机器公司张阳获国家专利权

国际商业机器公司张阳获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉国际商业机器公司申请的专利从视频生成同步的声音获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114787920B

龙图腾网通过国家知识产权局官网在2025-08-19发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202180007102.4,技术领域涉及:G10L25/57;该发明授权从视频生成同步的声音是由张阳;淦创;王大阔设计研发完成,并于2021-01-11向国家知识产权局提交的专利申请。

从视频生成同步的声音在说明书摘要公布了:本文的实施例描述了当训练机器学习ML系统时使用的音频转发正则化器和信息瓶颈。音频转发正则化器接收音频训练数据,并识别训练数据中的视觉不相关声音和视觉相关声音。通过控制信息瓶颈,音频转发正则化器将主要涉及视觉不相关声音的数据转发到生成器,同时滤除视觉相关声音。生成器还从视觉编码器接收关于视觉对象的数据,该数据是从视觉训练数据导出的。由此,当被训练时,生成器接收关于视觉对象的数据和关于视觉不相关声音的数据但几乎没有或没有关于视觉相关声音的数据。由此,在执行阶段期间,生成器可生成与视觉对象相关的声音,而不将视觉不相关声音添加到视频。

本发明授权从视频生成同步的声音在权利要求书中公布了:1.一种用于识别视觉相关声音的方法,所述方法包括: 在包括第一ML模型的视觉编码器处接收视觉训练数据; 使用所述第一ML模型识别与所述视觉训练数据中的视觉对象相对应的数据; 在包括第二ML模型的音频转发正则化器处接收与所述视觉训练数据同步的音频训练数据,其中所述音频训练数据包括均与包括所述视觉对象的所述视觉训练数据中的相同帧同步的视觉相关声音和视觉不相关声音,其中所述视觉相关声音对应于所述视觉对象,但所述视觉不相关声音由在所述相同帧中不可见的音频源生成; 使用信息瓶颈从所述第二ML模型的输出中滤除与所述视觉相关声音对应的数据,使得与所述视觉不相关声音对应的数据主要从所述信息瓶颈输出;以及 使用对应于所述视觉对象的数据和从所述信息瓶颈接收的对应于所述视觉不相关声音的数据来训练所述第一ML模型和所述第二ML模型下游的第三ML模型。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人国际商业机器公司,其通讯地址为:美国纽约;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。