深圳市玥芯通科技有限公司杨波获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉深圳市玥芯通科技有限公司申请的专利智能交互控制单元的智能场景识别方法及设备获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119475251B 。
龙图腾网通过国家知识产权局官网在2025-10-21发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510054476.1,技术领域涉及:G06F18/25;该发明授权智能交互控制单元的智能场景识别方法及设备是由杨波;姜赛;毛飞;况君禄;石常和设计研发完成,并于2025-01-14向国家知识产权局提交的专利申请。
本智能交互控制单元的智能场景识别方法及设备在说明书摘要公布了:本发明涉及智能场景识别技术领域,公开了一种智能交互控制单元的智能场景识别方法及设备,该方法包括:对数字机顶盒中智能交互控制单元的操作序列、视频内容和音频数据进行采集和预处理,得到标准多模态数据集;将标准多模态数据集输入多分支深度神经网络模型,通过并行处理提取时序、视觉和音频特征,得到融合场景特征向量;对融合场景特征向量进行降维和语义映射,得到压缩语义特征向量;将压缩语义特征向量与预定义场景查询向量进行相似度计算,得到场景匹配分数;基于场景匹配分数,综合多个子分类器的输出,得到目标场景分类结果,本发明能够在资源受限的数字机顶盒上高效运行,实现实时场景识别。
本发明授权智能交互控制单元的智能场景识别方法及设备在权利要求书中公布了:1.一种智能交互控制单元的智能场景识别方法,其特征在于,所述方法包括: 对数字机顶盒中智能交互控制单元的操作序列、视频内容和音频数据进行采集和预处理,得到标准多模态数据集;具体包括:对智能交互控制单元的遥控器按键操作进行实时捕获,得到原始操作序列数据,并对所述原始操作序列数据进行滑动时间窗口分割,得到标准化的操作特征序列;从数字机顶盒的视频输出端口采集原始视频流,并对所述原始视频流进行多尺度图像分割,得到标准化的视频内容特征;从数字机顶盒的音频输出端口采集原始音频流,并对所述原始音频流进行时频域联合分析,得到标准化的音频内容特征;将所述标准化的操作特征序列、所述标准化的视频内容特征和所述标准化的音频内容特征在时间维度上进行对齐,得到标准多模态数据集; 将所述标准多模态数据集输入多分支深度神经网络模型,通过并行处理提取时序、视觉和音频特征,得到融合场景特征向量;具体包括:将所述标准多模态数据集分为操作序列数据子集、视频内容数据子集和音频数据子集;对所述操作序列数据子集进行时序特征提取,通过长短时记忆网络处理,所述长短时记忆网络包含3个隐藏层,每层128个神经元,使用tanh激活函数,得到操作序列时序特征;对所述视频内容数据子集进行视觉特征提取,通过残差网络处理,所述残差网络包含50个卷积层,每个残差块使用ReLU激活函数和批归一化,最后一层使用全局平均池化,得到视频内容视觉特征;对所述音频数据子集进行音频特征提取,通过一维卷积神经网络处理,所述一维卷积神经网络包含4个卷积层,每层使用ELU激活函数和最大池化,最后一层使用全局最大池化,得到音频内容特征;将所述操作序列时序特征、所述视频内容视觉特征和所述音频内容特征连接,形成多模态特征向量;对所述多模态特征向量通过注意力机制进行特征重要性加权,所述注意力机制包含一个双层前馈神经网络,使用softmax函数计算每个特征的权重,得到加权后的多模态特征;将所述加权后的多模态特征输入跨模态融合网络,所述跨模态融合网络包含3个全连接层,每层使用LeakyReLU激活函数和Dropout正则化,得到初步融合特征;对所述初步融合特征应用自适应特征聚合算法,通过动态阈值筛选和非线性变换,得到融合场景特征向量; 采用变分自编码器对所述融合场景特征向量进行降维和语义映射,得到压缩语义特征向量;具体包括:将所述融合场景特征向量输入变分自编码器的编码器网络,所述编码器网络包含3个全连接层,每层使用LeakyReLU激活函数,得到中间特征表示;将所述中间特征表示输入第一全连接层,所述第一全连接层使用线性激活函数,得到原始均值向量,并对所述原始均值向量应用批归一化处理,将特征分布标准化,得到标准化均值向量;将所述中间特征表示输入第二全连接层,所述第二全连接层使用Softplus激活函数,得到原始对数方差向量,并对所述原始对数方差向量应用指数函数变换,将对数方差转换为方差,得到方差向量;基于所述标准化均值向量的维度,生成与之维度相同的随机噪声向量,所述随机噪声向量服从标准正态分布,并将所述随机噪声向量与所述方差向量的平方根相乘,得到缩放后的噪声向量;将所述缩放后的噪声向量与所述标准化均值向量相加,得到初始潜在变量样本,并对所述初始潜在变量样本应用球面投影函数,将样本点投影到单位超球面上,得到潜在变量样本;将所述潜在变量样本输入变分自编码器的解码器网络,所述解码器网络包含3个全连接层,每层使用ReLU激活函数,得到重构特征向量;计算所述重构特征向量与所述融合场景特征向量之间的重构误差,同时计算潜在变量的KL散度,得到总体损失函数值;基于所述总体损失函数值生成调整后的潜在变量样本,将所述调整后的潜在变量样本通过球面投影操作,将高维空间中的点映射到单位超球面上,得到归一化的语义特征,并对所述归一化的语义特征进行特征空间变换,得到压缩语义特征向量; 将所述压缩语义特征向量与预定义场景查询向量进行相似度计算,通过注意力机制得到场景匹配分数;具体包括:对预先定义的场景类别进行文本编码,得到初始场景查询向量集合,并对所述初始场景查询向量集合进行场景特征增强,得到增强后的场景查询向量集合;对所述压缩语义特征向量和所述增强后的场景查询向量集合进行维度对齐操作,得到对齐后的特征向量,并计算所述对齐后的特征向量之间的余弦相似度,得到初始相似度矩阵;将所述初始相似度矩阵输入多头注意力机制进行处理,得到注意力加权后的相似度矩阵,并对所述注意力加权后的相似度矩阵进行非线性变换,得到场景匹配概率分布;基于所述场景匹配概率分布,选取K个最高概率的场景匹配结果,并对选取的K个场景匹配结果进行加权求和,得到场景匹配分数; 基于所述场景匹配分数,采用集成学习方法综合多个子分类器的输出,得到目标场景分类结果;具体包括:对所述场景匹配分数进行归一化处理,得到归一化场景匹配分数,并基于所述归一化场景匹配分数构建特征向量;将所述特征向量输入随机森林分类器,所述随机森林分类器包含100棵决策树,每棵树的最大深度为10,得到第一子分类结果;将所述特征向量输入支持向量机分类器,所述支持向量机分类器使用径向基函数核,惩罚参数C设为1.0,得到第二子分类结果;对所述特征向量应用梯度提升决策树算法,所述梯度提升决策树算法包含200个弱学习器,学习率设为0.1,得到第三子分类结果;将所述第一子分类结果、所述第二子分类结果和所述第三子分类结果进行编码,得到编码后的子分类结果集,并对所述编码后的子分类结果集应用Dempster-Shafer证据理论,计算每个类别的信度区间,得到融合后的证据矩阵;基于所述融合后的证据矩阵,选择最优类别,得到初步场景类别,并对所述初步场景类别进行马尔可夫平滑,得到目标场景分类结果。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人深圳市玥芯通科技有限公司,其通讯地址为:518000 广东省深圳市龙华区大浪街道陶元社区南科创元谷2栋201;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励