Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 奥视(天津)科技有限公司朱利人获国家专利权

奥视(天津)科技有限公司朱利人获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉奥视(天津)科技有限公司申请的专利一种导播视角辅助切换方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120343179B

龙图腾网通过国家知识产权局官网在2025-11-28发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510812420.8,技术领域涉及:H04N5/262;该发明授权一种导播视角辅助切换方法是由朱利人设计研发完成,并于2025-06-18向国家知识产权局提交的专利申请。

一种导播视角辅助切换方法在说明书摘要公布了:本发明提供了一种导播视角辅助切换方法,所述方法包括:收集视频、音频数据后进行预处理,并存储至一个数据集中;针对数据集中的视频数据,应用卷积神经网络提取视频特征信息,针对数据集中的音频数据,应用LSTM网络并结合Mel频谱系数与短时傅里叶变换提取音频特征信息;使用视频特征信息与音频特征信息训练决策神经网络,并使用历史导播台数据和人工标注的最佳切换节点对决策神经网络进行优化;使用训练后的决策神经网络接收实时的视频、音频数据,用以辅助导播视角的切换。

本发明授权一种导播视角辅助切换方法在权利要求书中公布了:1.一种导播视角辅助切换方法,其特征在于,所述方法包括: 收集视频、音频数据后进行预处理,并存储至一个数据集中; 针对数据集中的视频数据,应用卷积神经网络提取视频特征信息; 针对数据集中的音频数据,应用LSTM网络并结合Mel频谱系数与短时傅里叶变换提取音频特征信息; 使用视频特征信息与音频特征信息训练决策神经网络,并使用历史导播台数据和人工标注的最佳切换节点对决策神经网络进行优化; 使用训练后的决策神经网络接收实时的视频、音频数据,用以辅助导播视角的切换; 其中,所述针对数据集中的音频数据,应用LSTM网络并结合Mel频谱系数与短时傅里叶变换提取音频特征信息具体包括: 从麦克风或音频文件中获取原始音频信号,通过高通滤波器对原始音频信号进行预加重处理,以增强高频成分,并将音频信号分成一系列重叠的短时帧; 在对每个音频帧进行傅里叶变换之前,应用一个窗函数来减少频谱泄漏,每帧的样本数为N,窗函数为: ; 将窗函数应用到每个帧xn上,得到; 其中,N为每个帧的样本数,n为当前样本的索引,范围从0到N−1,wn为汉明窗函数的值,xn为原始音频信号帧中的第n个样本,xwn为加窗后的信号帧中的第n个样本; 对加窗后的信号进行短时傅里叶变换以得到频谱,对于每一帧,计算: ; 并计算每个频率分量的功率谱:; 其中,Xk为信号帧经过FFT变换后的第k个频率分量的复数值,K为频率分量的索引,范围从0到N−1,Pk为第k个频率分量的功率谱密度,J为虚数单位,满足j2=−1; 将频谱通过Mel滤波器组,Mel频率刻度通过以下公式转换: ; 滤波器的中心频率和带宽根据Mel刻度确定,假设有M个滤波器,滤波器输出的能量为: ; 其中,f为实际频率,以赫兹为单位;Melf为将实际频率f转换为Mel频率刻度;M为Mel滤波器的数量;Sm为第m个Mel滤波器输出的能量;kmin和kmax为对于每个滤波器m,在频谱中定义的有效频率分量范围;Hmk为第m个Mel滤波器在第k个频率分量处的增益; 计算每个Mel滤波器输出的对数能量第m个Mel滤波器输出的对数能量:; 对Mel频谱能量应用离散余弦变换DCT以得到MFCCs,选择前L个系数作为MFCCs,通常L取12或13: ; 其中,MFCCl为第l个MFCC系数;L为提取的MFCC系数的数量,通常为12或13;m为Mel滤波器的索引;为DCT基函数的值; 对MFCCs特征进行归一化处理,通常使用均值归一化或Z-score标准化,以提高鲁棒性,将归一化后的MFCCs序列输入到LSTM网络,LSTM会处理整个序列,捕获时间依赖性和上下文信息; 所述应用卷积神经网络提取视频特征信息的过程包括: 将视频数据分解为连续的帧序列,对每帧进行标准化处理,通过多层卷积操作叠加,提取得到每一帧的特征图像,并通过最大池化平均池化方法,降低特征图像的维度,得到关键特征; 将关键特征输入全连接层中识别得到每一帧内的人物位置、面部表情、肢体动作信息,并通过分类器识别特定的情绪及动作类别; 将视频数据分解为连续的帧数据的过程中,为每一帧添加对应的时间戳,结合时间戳与人物位置信息制作得到人物移动轨迹; 所述应用LSTM网络并结合Mel频谱系数与短时傅里叶变换提取音频特征信息的过程包括: 将音频信号进行采样和量化,并进行分帧处理; 对每个音频帧进行STFT处理得到频域表示,将STFT频谱转换为Mel频谱,对Mel频谱应用离散余弦变换,提取得到MFCCs特征序列; 将提取的MFCCs特征序列输入至LSTM网络中,得到携有时序特征的音频特征数据; 所述使用视频特征信息与音频特征信息训练决策神经网络的过程包括: 将视频特征和音频特征进行拼接,并对齐视频和音频特征的时序,形成联合特征向量,将联合特征向量输入至构建的决策神经网络中,对决策神经网络进行训练; 使用交叉熵损失函数对模型的预测结果进行评估并使用Adam算法更新决策神经网络中的权重,直至交叉熵损失函数的结果满足业务需要; 所述决策神经网络的输入层包括:视频输入层,每个摄像机的视频特征作为输入;音频输入层,音频特征作为输入; 所述决策神经网络的隐藏层包括: A第一隐藏层,视频特征包括边缘、颜色直方图,音频特征包括频谱强度,其中; 神经元1,接收视频帧中的像素移动数据,计算其运动矢量,识别快速移动区域,输出运动强度特征; 神经元2,接收音频信号的频谱数据,识别音频信号中的高频强度变化,输出音频强度特征; 神经元3,使用卷积核扫描视频帧,识别重要物体的边缘,输出边缘特征用于识别; B第二隐藏层,接收来自第一隐藏层的运动强度、音频强度、边缘特征; 神经元4,结合运动强度和音频强度特征,使用阈值判断是否发生了重要事件,输出事件标记0或1; 神经元5,接收边缘特征和运动强度特征,判断特定区域是否有显著活动,输出区域活跃标记; 神经元6,检查音频强度与视频运动之间的时间同步性,输出同步性标记,帮助判断事件的实时性; C第三隐藏层接收事件标记、区域活跃标记、同步性标记; 神经元7,接收事件标记和区域活跃标记,根据事件类型分配视角切换的优先级,输出优先级评分; 神经元8,接收优先级评分和同步性标记,根据评分选择最合适的摄像机视角,输出视角选择指令; 神经元9,接收视角选择指令,判断当前选择是否符合预期,输出调整信号以优化未来选择; 所述决策神经网络的输出层包括:输出神经元,每个神经元对应一个摄像机视角,输出为该视角的选择概率。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人奥视(天津)科技有限公司,其通讯地址为:301700 天津市武清区京津科技谷产业园和园道89号27号楼;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。