南京大学冯桂焕获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉南京大学申请的专利一种结合声调信息的中文唇语识别方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119810914B 。
龙图腾网通过国家知识产权局官网在2025-10-24发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411872081.4,技术领域涉及:G06V40/20;该发明授权一种结合声调信息的中文唇语识别方法是由冯桂焕;张欣宇;单心源;何青云;陆钇廷;倪奕晨设计研发完成,并于2024-12-18向国家知识产权局提交的专利申请。
本一种结合声调信息的中文唇语识别方法在说明书摘要公布了:本发明公开了一种结合声调信息的中文唇语识别方法,属于唇语识别领域,该方法包括以下步骤:获取用户输入,其中,所述用户输入包括声调信息和嘴部动作视频;对所述用户输入进行预处理得到预处理数据;构建多模态中文唇读模型,将所述预处理数据输入所述多模态中文唇读模型得到唇语识别结果。本发明结合声调信息与唇读识别技术,通过深入分析视觉信息并结合语言学知识,构建包含声调信息的唇读识别模型,提高识别准确性。
本发明授权一种结合声调信息的中文唇语识别方法在权利要求书中公布了:1.一种结合声调信息的中文唇语识别方法,其特征在于,包括: 获取用户输入,其中,所述用户输入包括声调信息和嘴部动作视频; 对所述用户输入进行预处理得到预处理数据; 构建多模态中文唇读模型,将所述预处理数据输入所述多模态中文唇读模型得到唇语识别结果; 获取用户输入的过程包括: 用户佩戴HTCVIVE头戴显示器,用户的拇指放置在手持控制器的触控板,HTCVIVE头戴显示器上的摄像头拍摄嘴部动作视频,同时,所述触控板记录用户绘制的关于声调信息的轨迹,得到声调信息和嘴部动作视频; 其中,所述嘴部动作视频中的图片帧与声调信息中的轨迹坐标一一对应; 对所述用户输入进行预处理得的过程包括对所述声调信息进行预处理,其中,对所述声调信息进行预处理的过程包括: 将所述声调信息的轨迹坐标转换成位图图像; 将所述位图图像输入卷积神经网络进行卷积处理得到卷积特征; 将所述卷积特征映射到声调分类结果得到预处理声调信息; 对所述用户输入进行预处理的过程包括对所述嘴部动作视频进行预处理,对所述嘴部动作视频进行预处理的过程包括: 通过Mediapipe检索所述嘴部动作视频中的嘴部关键点; 基于所述嘴部关键点计算嘴部中心; 基于所述嘴部中心将视频帧切割为96*96的预处理嘴部图像; 将所述预处理数据输入所述多模态中文唇读模型得到唇语识别结果的过程包括: 基于所述预处理嘴部图像提取嘴部动作视频的视频特征向量; 将所述预处理声调信息与所述视频特征向量进行拼接得到声调增强特征向量; 在声调序列引导的引导下,利用所述声调增强特征向量,使得解码器逐步得到唇语识别结果。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人南京大学,其通讯地址为:210000 江苏省南京市鼓楼校区费彝民楼907室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励