北京探境科技有限公司郎芬玲获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京探境科技有限公司申请的专利一种基于语音和视线的多模态免唤醒系统及方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114999458B 。
龙图腾网通过国家知识产权局官网在2025-09-16发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210381839.9,技术领域涉及:G10L15/02;该发明授权一种基于语音和视线的多模态免唤醒系统及方法是由郎芬玲设计研发完成,并于2022-04-12向国家知识产权局提交的专利申请。
本一种基于语音和视线的多模态免唤醒系统及方法在说明书摘要公布了:本发明公开了一种基于语音和视线的多模态免唤醒系统及方法,该系统包括:采集模块、计算模块和响应模块;所述采集模块用于采集语音信号与视频信号,并将所述语音信号与所述视频信号传输给所述计算模块;所述计算模块用于对所述语音信号与所述视频信号进行预处理,将预处理后的所述语音信号与所述视频信号输入语音视线多模态识别模型,生成语音识别结果与视线识别结果;所述响应模块用于获取所述语音识别结果与所述视线识别结果,基于所述语音识别结果与所述视线识别结果进行响应。本系统避免了设备误唤醒给用户带来困扰,提高了用户体验。
本发明授权一种基于语音和视线的多模态免唤醒系统及方法在权利要求书中公布了:1.一种基于语音和视线的多模态免唤醒系统,其特征在于,包括:采集模块、计算模块和响应模块; 所述采集模块用于采集语音信号与视频信号,并将所述语音信号与所述视频信号传输给所述计算模块; 所述计算模块用于对所述语音信号与所述视频信号进行预处理,将预处理后的所述语音信号与所述视频信号输入多模态识别模型,生成语音识别结果与视线识别结果; 所述响应模块用于获取所述语音识别结果与所述视线识别结果,基于所述语音识别结果与所述视线识别结果进行响应; 所述计算模块,包括:第一编码子模块、第二编码子模块和识别子模块; 所述第一编码子模块用于提取所述语音信号中的声学特征,并对所述声学特征进行编码,生成语音时序特征; 所述第二编码子模块用于提取所述视频信号中的视线特征,并对所述视线特征进行编码,生成视频时序特征; 所述识别子模块用于将所述语音时序特征与所述视频时序特征输入所述多模态识别模型,输出语音识别结果与视线识别结果;其中,对多模态识别模型进行训练的训练过程为:将预先采集存储的语音信号输入TokenEmbedding进行编码,编码为每帧的特征信息v1,v2…V6;将预先采集存储的视频信号输入TokenEmbedding进行编码,编码为每帧的特征信息I1,I2…I6,将v1,v2…V6与I1,I2…I6输入transformerEncoder网络,基于语音信号与视频信号的时间序列对已经编码后的特征信息进行位置编码,经过transformerEncoder网络后,将经过位置编码后的特征信息输入FC,利用语音全连接网络FC1,输出label1,利用视线全连接网络FC2,输出label2,其中,label1与label2可以为语音输出向量值与视频输出向量值;基于语音输出向量值、视频输出向量值与真值标签计算分类损失函数,基于分类损失函数,利用批量梯度下降更新多模态识别模型参数,直至分类损失函数曲线收敛,完成多模态识别模型的训练; 所述响应模块,具体用于: 将所述语音识别结果与预设语音命令进行比较,所述视线识别结果与预设视线命令进行比较,当所述语音结果与所述预设语音命令相符且所述视线识别结果与所述预设视线命令相符时进行响应。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京探境科技有限公司,其通讯地址为:100094 北京市朝阳区望京宏泰西街博泰大厦5层;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。