成都大学赵莉获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉成都大学申请的专利基于语音识别的英语口语发音矫正辅助系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120412648B 。
龙图腾网通过国家知识产权局官网在2025-09-09发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510906500.X,技术领域涉及:G10L25/51;该发明授权基于语音识别的英语口语发音矫正辅助系统是由赵莉;张学梅;龙艳华;杨亚婷;许立红设计研发完成,并于2025-07-02向国家知识产权局提交的专利申请。
本基于语音识别的英语口语发音矫正辅助系统在说明书摘要公布了:本发明涉及智能语音识别领域,具体是基于语音识别的英语口语发音矫正辅助系统,包括数据采集模块、语音识别模块、发音分析模块和发音矫正模块;本发明采用一种基于维度融合与特征简化的视觉动作特征提取方法,捕捉嘴唇的动态动作和细微变化,准确识别标准发音的唇部动作的细节特征已经对应的文本语义,在降维的基础上增加通道数量,捕捉更深刻更细致的唇部视觉信息,为发音矫正提供更为准确的唇部动作指导;本发明通过语义特征引导对唇部动作的理解与识别,引入多头自注意力机制对语义特征进行优化,捕捉唇部动作与语音文本之间的关联关系,并添加对应的位置编码,使模型理解唇部动作中口语文本发音的顺序,实现更精确的唇部动作指导。
本发明授权基于语音识别的英语口语发音矫正辅助系统在权利要求书中公布了:1.基于语音识别的英语口语发音矫正辅助系统,其特征在于:包括数据采集模块、语音识别模块、发音分析模块和发音矫正模块; 所述数据采集模块,采集英语口语发音的标准发音的音频,采集英语口语发音的标准发音的唇部发音视频; 所述语音识别模块,采用语音识别模型将标准发音的音频转化为语音文本; 所述发音分析模块,通过一种基于文本引导的跨模态特征融合提取方法提取发音视频的唇部动作特征,对唇部动作特征进行激活分类并添加唇部动作描述标签,并对对应的标准发音的音频进行音频特征提取,得到标准发音的口语发音-语音文本-唇部动作描述的联合分析结果; 所述一种基于文本引导的跨模态特征融合提取方法,具体包括以下步骤: 步骤S1:基于多头自注意力机制优化的语义特征提取,对语音文本进行基于多头自注意力机制优化的语义特征提取得到语义特征,具体包括以下步骤: 步骤S11:基于自注意力机制的上下文文本特征提取,对语音文本进行基于自注意力机制的上下文文本特征提取,得到文本特征: ; 式中,代表自注意力机制对语音文本进行编码所得的查询向量、键向量和值向量,代表预设的关键维度,代表相对位置偏差参数,即代表文本特征; 步骤S12:多头自注意力机制优化,对文本特征进行多头自注意力机制优化,得到优化文本特征: ; ; 式中,代表多头自注意力机制的头部,、、与分别代表预设的投影参数矩阵,代表拼接操作,即代表优化文本特征; 步骤S13:位置编码嵌入,对语音文本中所有词语所对应的优化文本特征进行位置编码嵌入,得到语义特征,其中位置编码计算方式如下: ; 式中,代表词语在语音文本中的位置,代表该词语对应的优化文本特征的维度,代表预设的嵌入维度,代表语音文本中处词语所对应的位置编码; 步骤S2:基于维度融合与特征简化的视觉动作特征提取,采用一种基于维度融合与特征简化的视觉动作特征提取方法提取发音视频的优化视觉特征,具体包括以下步骤: 步骤S21:卷积特征提取,采用一种基于维度转置与重塑的视觉特征提取方法提取发音视频的卷积特征,具体包括以下步骤: 步骤S211:视频输入,将发音视频进行输入,并得到其维度(BZ,C,L,H,W),分别代表发音视频的批次大小、通道数、视频长度、视频高度和视频宽度; 步骤S212:维度转置,对发音视频中的第一维和第二维进行交换,得到转置视频; 步骤S213:重塑,将转置视频的维度进行重塑,得到重塑视频,其维度维(BZ×L,C,H,W); 步骤S214:3D卷积,对重塑视频进行基于3D卷积的卷积特征提取,得到卷积特征; 步骤S22:特征降维,使用LinearEmbedding层对卷积特征进行降维,得到降维特征; 步骤S23:特征优化,对降维特征进行基于多级密集层与SwinTransformer模块的联合优化处理,得到优化视觉特征,具体包括以下步骤: 步骤S231:基于多层2D卷积的密集层处理,对降维特征进行三层的BN-ReLU-2DConv处理,得到密集优化卷积特征,其中每层的2DConv层的卷积核大小分别为1×1、3×3与1×1; 步骤S232:SwinTransformer模块处理,使用SwinTransformer模块对降维特征处理,得到高效优化卷积特征; 步骤S233:特征融合,对密集优化卷积特征与高效优化卷积特征进行补丁合并处理,得到初级优化卷积特征; 步骤S234:多层优化,重复n次步骤S231-步骤S233,得到优化视觉特征; 步骤S3:跨模态特征融合,对语义特征进行缩放,使之与优化视觉特征对齐,随后进行特征融合,得到唇部动作特征; 所述发音矫正模块,采集需要进行矫正发音的音频以及对应的语音文本并设置矫正阈值,提取需要进行矫正发音音频的音频特征,并与标准发音的音频特征进行相似度比对,当相似度高于矫正阈值时,则不进行矫正辅助,若相似度低于矫正阈值,则为其提供对应的唇部动作描述对其进行矫正指导。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人成都大学,其通讯地址为:610100 四川省成都市龙泉驿区成洛大道2025号成都大学;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。