广州炫视智能科技有限公司刘辉获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉广州炫视智能科技有限公司申请的专利智慧显示终端多模态交互方法及其系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120315594B 。
龙图腾网通过国家知识产权局官网在2025-11-21发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510782695.1,技术领域涉及:G06F3/01;该发明授权智慧显示终端多模态交互方法及其系统是由刘辉;黄建生设计研发完成,并于2025-06-12向国家知识产权局提交的专利申请。
本智慧显示终端多模态交互方法及其系统在说明书摘要公布了:本发明涉及显示终端交互技术领域,具体地说,涉及智慧显示终端多模态交互方法及其系统。包括多模块采集单元,多模块采集单元用于采集视觉、语音和文本数据;模态特征提取单元用于从视觉、语音、文本中提取关键语义特征,差异化融合单元基于各模态的权重系数动态分配融合系数,采用差异化融合策略针对不同输入模态组合,选择最优融合逻辑;多模块响应单元用于输出多模态内容,通过终端设备进行输出显示。通过差异化融合策略识别当前可用模态组合,调度最优融合子模块,实现了运行时动态调用不同融合逻辑,按模态可用性动态选取不同融合子模块并在运行时切换,避免了通用融合带来的资源浪费与精度下降的问题。
本发明授权智慧显示终端多模态交互方法及其系统在权利要求书中公布了:1.智慧显示终端多模态交互系统,其特征在于,包括: 多模块采集单元1,所述多模块采集单元1用于采集视觉、语音和文本数据; 模态特征提取单元2,所述模态特征提取单元2用于从视觉、语音、文本中提取关键语义特征,并基于LightGBM分类器综合各模态置信度,得到各模态的权重系数; 差异化融合单元3,所述差异化融合单元3基于各模态的权重系数动态分配融合系数,采用差异化融合策略针对不同输入模态组合,选择最优融合逻辑; 其中,差异化融合单元3包括模态组合识别模块31、策略融合模块32和差异化融合子模块33; 所述模态组合识别模块31用于接收并判断当前的模态特征向量组合以及各模态的权重系数;模态特征向量包括视觉特征向量、语音特征向量和文本特征向量; 策略融合模块32基于差异化融合策略将模态特征向量组合送入差异化融合子模块33,并在差异化融合子模块中嵌入门控单元生成动态权重,最终生成融合特征向量;差异化融合子模块33包括三模态融合子模块、视觉语音融合子模块、视觉文本融合子模块和语音文本融合子模块; 其中,差异化融合策略具体为: 当模态特征向量包括视觉特征向量、语音特征向量和文本特征向量时,调用三模态融合子模块,并由三模态融合子模块生成三模态融合特征向量; 其中,三模态融合子模块涉及的具体融合步骤为: 对视觉特征向量、语音特征向量和文本特征向量进行低级特征对齐,保证视觉帧序列与语音流的时间戳对齐,并使用动态时间规整算法补偿传输延迟,计算视觉、语音、文本的最优时空匹配路径; 将视觉特征向量、语音特征向量和文本特征向量拼接为联合特征,将联合特征作为门控单元的输入,通过Softmax函数生成归一化权重; 最后通过多模态Transformer生成三模态融合特征向量; 其中,通过门控单元动态分配权重,当三种模态都可用时,差异化融合子模块会先把三路特征拼在一起,输入到一个小的门控网络,该网络通过Softmax输出动态权重、和,最终得到融合后的三模态融合特征向量; 当模态特征向量包括视觉特征向量和语音特征向量时,调用视觉语音融合子模块,同时引入环境噪声和光照条件特征,由所述视觉语音融合子模块生成视觉语音融合特征向量; 其中,视觉语音融合子模块涉及的具体融合步骤为: 利用分段线性DTW算法计算视觉特征向量和语音特征向量的最优匹配路径,以对齐时间戳,将对齐后的视觉特征和语言特征进行拼接为视觉语音融合特征,将视觉语音融合特征作为门控单元的输入,同时引入环境噪声和光照条件特征,并通过Sigmoid函数生成动态权重; 最后进行加权重排序得到视觉语音融合特征向量; 当模态特征向量包括视觉特征向量和文本特征向量时,调用视觉文本融合子模块,并基于门控单元动态调整融合权重,通过计算生成文本与原始文本的相似度修正门控单元生成的动态融合权重,最终由所述视觉文本融合子模块生成视觉文本融合特征向量; 其中,视觉文本融合子模块涉及的具体融合步骤为: 使用VL-T5模型将视觉特征转成结构化文本描述,对生成的结构化文本描述做文本编码,得到生成文本向量,同时,对原始文本进行编码,得到原始文本向量,计算生成文本向量与原始文本向量的相似性,并设定冲突判断阈值: 计算生成文本与原始文本的n-gram重叠分数,得到表面相似度; 通过BERT模型计算生成文本与原始文本的语义向量余弦相似度; 设定冲突判断阈值,用于识别视觉与文本模态之间的冲突检测,从而判断是否触发告警并启动冲突消解机制: 基于视觉综合置信度特征、文本综合置信度特征和冲突检测结果,对门控权重进行分场景修正,其中,原始动态权重; 根据冲突类型与模态置信度差异,定义修正函数: 式中,表示修正后的视觉门控权重,用于最终融合时视觉分量的权重;表示修正后的生成文本门控权重;表示修正后的原始文本门控权重,直接由归一化约束计算得出;表示生成文本权重的修正函数,接受三个输入,输出一个标量≥0,用于放大或衰减原始生成文本权重;表示视觉权重的修正函数,接受三个输入,输出一个标量≥0,用于放大或衰减原始视觉权重;表示冲突类型枚举; 将原始动态权重通过函数进行归一化,最后将修正后的视觉权重和生成文本权重按最优权重线性组合;通过LayerNorm和Dropout输出得到视觉文本融合特征向量; 式中,表示融合后的视觉文本特征向量,表示视觉特征向量; 当模态特征向量包括语音特征向量和文本特征向量时,调用语音文本融合子模块,由所述语音文本融合子模块生成语音文本融合特征向量; 其中,语音文本融合子模块涉及的具体融合步骤为: 采用NER模型分别提取音频信号和文本输入中的时间、地点、人物实体集合,构建实体对齐矩阵; 对音频信号提取MFCC特征序列,对文本进行词向量得到序列,并将MFCC特征序列和文本嵌入矩阵在特征维度上拼接,得到多模态特征序列 将多模态特征序列作为门控单元的输入,并通过Sigmoid生成权重g,生成动态融合特征 将动态融合特征作为双向LSTM编码器的输入,并对隐藏态序列做最大池化,生成定长融合向量 经LayerNorm和Dropout输出得到语音文本融合特征向量 多模块响应单元4,所述多模块响应单元4用于输出多模态内容,通过终端设备进行输出显示。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人广州炫视智能科技有限公司,其通讯地址为:510000 广东省广州市番禺区东环街东星路95号东星大厦708;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励