南京邮电大学戴熠辰获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉南京邮电大学申请的专利一种基于耳机惯性传感器的汉语失声人群唇语实时识读方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119691468B 。
龙图腾网通过国家知识产权局官网在2025-06-27发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510194575.X,技术领域涉及:G06F18/22;该发明授权一种基于耳机惯性传感器的汉语失声人群唇语实时识读方法是由戴熠辰;高铭;周湛博;郭政鑫;肖甫设计研发完成,并于2025-02-21向国家知识产权局提交的专利申请。
本一种基于耳机惯性传感器的汉语失声人群唇语实时识读方法在说明书摘要公布了:本发明公开了一种基于耳机惯性传感器的汉语失声人群唇语实时识读方法,属于唇语翻译技术领域;方法为:获取惯性数据;利用轻量级方法分割出音节惯性数据;利用一致性方法融合加速度计音节惯性数据和陀螺仪音节惯性数据;利用动态时间规整距离DTW方法识别音节惯性数据;利用汉语的上下文信息完善和纠正字符的选择。本发明通过转换器实现惯性数据的扩充,并对数据进行处理,消除噪声数据;基于归一化最小均方算法NLMS,将干净的清晰度相关信号与受说话人干扰影响的清晰度相关信号分离,实现对耳机扬声器在音频播放过程中产生的振动影响的消除;抑制了用户和设备之间多样性的影响,保证实时唇语翻译的正确率和准确率。
本发明授权一种基于耳机惯性传感器的汉语失声人群唇语实时识读方法在权利要求书中公布了:1.一种基于耳机惯性传感器的汉语失声人群唇语实时识读方法,其特征在于:该方法包括以下步骤: 步骤S1:获取注册阶段惯性数据集,并对惯性数据集进行扩充; 步骤S1-1:使用耳机惯性传感器采集到的惯性数据; 步骤S1-2:构建转换器模型,利用转换器模型修改源用户与无声发音用户的惯性数据,实现惯性数据的扩充; 所述转换器模型包括用于识别个体特征的ID编码器EID、用于提取内容向量的内容编码器ECV以及用于惯性数据的身份和内容相结合的解码器D,ID编码器EID包括两层特征维度大小为768的长短期记忆网络单元LSTM以及一个全连接层,全连接层将长短期记忆网络单元LSTM的输出结果转换成最终的预测结果;ID编码器EID的输入数据为从目标有言语障碍的用户收集的变量IDT,CVT,IMUT,其中,IDT表示唇语使用人群的用户标识,CVT为从唇语使用人群收集到的唇语内容向量,IMUT表示从唇语使用人群收集到的与发声相关的惯性读数; 所述内容编码器ECV包括三个卷积核大小为5*1的卷积层以及两层特征维度为32的双向长短期记忆网络BLSTM,内容编码器ECV输入为从源用户收集的变量IDS,CVS,IMUS,其中,IDS表示发音功能正常人群的用户标识,CVS为从正常人群收集到的说话内容向量,IMUS表示从正常人群收集到的与发音相关的惯性读数; 所述解码器D包括concatenate层、三个卷积核大小为5*1的第一卷积层、三层特征维度大小为512的长短期记忆网络单元LSTM、四个卷积核大小为5*1的第二卷积层以及一个卷积核大小为5*1的第三卷积层,concatenate层将ID编码器和内容编码器的输出连接在一起,合并不同的IMU数据源; 三个卷积核大小为5*1的第一卷积层、三层特征维度大小为512的长短期记忆网络单元LSTM用于调整特征的数量并进行特征的组合; 四个卷积核大小为5*1的第二卷积层用于提取特征,一个卷积核大小为5*1的第三卷积层用于最后的输出调整; 所述步骤S1-2中利用转换器模型修改源用户与无声发音的惯性数据,实现惯性数据的扩充,具体操作为: 将源用户收集的具有变量特质的惯性数据表示为IDS,CVS,IMUS,无声发音用户收集的具有变量特质的惯性数据表示为IDT,CVT,IMUT; 源用户IDS1和源用户IDS2口述相同的内容CVS,ID编码器EID预训练提取特征IDS1,内容编码器ECV从语谱图IMUS1和特征IDS1的串联特征中构建信息瓶颈; 解码器D在损失函数下遵循AutoVC原则,即: 其中,为生成谱图;IMUS2为真实谱图;为期望值,表示损失函数L是在所有训练样本上的平均损失;λ为正则化参数,用于平衡损失函数中两部分的权重,控制着正则化项对总损失的贡献程度; 真实谱图IMUS2和生成谱图之间具有高的相似性,利用Griffin-Lim算法从谱图中估计出惯性数据的信号; 步骤S2:采用去噪技术获取无误差的惯性数据; 步骤S3:利用轻量级方法分割出音节惯性数据; 所述音节惯性数据包括加速度计音节惯性数据和陀螺仪音节惯性数据; 步骤S4:利用一致性方法融合加速度计音节惯性数据和陀螺仪音节惯性数据; 步骤S5:根据用户预先注册的参考数据利用动态时间规整距离DTW方法识别音节惯性数据; 步骤S6:利用汉语的上下文信息完善和纠正字符的选择。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人南京邮电大学,其通讯地址为:210046 江苏省南京市栖霞区文苑路9号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。