无锡未来镜显示科技有限公司张俭获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉无锡未来镜显示科技有限公司申请的专利基于智能图像处理的字幕匹配显示方法和系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119992530B 。
龙图腾网通过国家知识产权局官网在2025-09-02发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510076610.8,技术领域涉及:G06V20/62;该发明授权基于智能图像处理的字幕匹配显示方法和系统是由张俭;姚超;曹心远设计研发完成,并于2025-01-17向国家知识产权局提交的专利申请。
本基于智能图像处理的字幕匹配显示方法和系统在说明书摘要公布了:本发明提供一种基于智能图像处理的字幕匹配显示方法和系统,涉及计算机技术领域,所述方法包括:将待处理视频进行解析,获得视频图像;通过图像信息处理模型,对视频图像进行处理,获得口型信息和表情信息;通过文本识别模型,对音频文件进行处理,确定文本信息;确定音频子文件对应的视频图像;根据音频子文件、口型信息和表情信息,确定文本的像素值;根据音频子文件和表情信息,确定文本的显示尺寸;根据文本的像素值和显示尺寸,获得显示信息,从而获得字幕。根据本发明,可基于口型信息和表情信息来确定字幕的文本信息中的重点,从而对字幕设置特定的像素值和显示尺寸,以突出字幕中的重点文本,便于观看者进行观看和了解,提升显示效果。
本发明授权基于智能图像处理的字幕匹配显示方法和系统在权利要求书中公布了:1.一种基于智能图像处理的字幕匹配显示方法,其特征在于,包括: 将待处理视频进行解析,获得多个视频图像; 通过图像信息处理模型,对所述视频图像中的目标对象所在区域进行处理,获得所述目标对象的口型信息和表情信息; 通过文本识别模型,对待处理视频对应的音频文件进行处理,确定音频文件对应的文本信息; 对待处理视频对应的音频文件进行处理,获得与文本信息中每个文本的发音对应的音频子文件,并确定与每个音频子文件对应的视频图像; 根据所述音频子文件、视频图像中目标对象的口型信息和表情信息,确定字幕中与所述音频子文件对应的文本的像素值; 根据所述音频子文件和视频图像中目标对象的表情信息,确定字幕中与所述音频子文件对应的文本的显示尺寸; 根据所述文本的像素值和所述显示尺寸,获得与所述音频子文件对应的文本在视频图像中的显示信息; 根据各个文本的显示信息,获得待处理视频的字幕; 根据所述音频子文件、视频图像中目标对象的口型信息和表情信息,确定字幕中与所述音频子文件对应的文本的像素值,包括: 确定音频子文件对应的多个视频图像的时间戳; 根据所述时间戳,确定所述音频子文件中第i个视频图像的时间戳至第i+1个视频图像的时间戳之间的时间段内的音频片段; 通过音频处理模型,确定所述音频片段的文本发音信息,其中,所述文本发音信息用于表示所述音频片段对应的文本的发音特征; 通过口型发音预测模型,确定所述口型信息的口型发音信息,其中,所述口型发音信息用于表示基于所述口型信息能够发出的声音的发音特征; 对所述音频片段进行频谱分析,确定音频片段的频谱信息; 根据所述文本发音信息、所述口型发音信息、所述频谱信息和所述表情信息,确定第i个视频图像的字幕中与所述音频子文件对应的文本的像素值; 所述口型发音预测模型的训练步骤包括: 获取多个试验人员进行多种发音时的第一样本视频; 获取第一样本视频的多个第一图像,并通过图像信息处理模型获取第一图像中试验人员的第一样本口型信息; 根据第一图像的时间戳对第一样本视频对应的音频文件进行分割,获得样本音频片段,并通过音频处理模型对样本音频片段进行处理,得到样本文本发音信息; 根据所述口型发音预测模型,对第一样本口型信息进行处理,获得样本口型发音信息; 对样本音频片段进行频谱分析,获得第一样本频谱信息; 根据所述第一样本频谱信息,获得参考发音信息; 根据所述样本文本发音信息、所述样本口型发音信息和所述参考发音信息,确定口型发音预测模型、音频处理模型和图像信息处理模型的第一综合损失函数; 根据所述第一综合损失函数,对口型发音预测模型、音频处理模型和图像信息处理模型进行训练,获得训练后的口型发音预测模型、训练后的音频处理模型和训练后的图像信息处理模型。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人无锡未来镜显示科技有限公司,其通讯地址为:214125 江苏省无锡市无锡经济开发区金融三街6号2208室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。