Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 重庆邮电大学;重庆市住房公积金管理中心刘歆获国家专利权

重庆邮电大学;重庆市住房公积金管理中心刘歆获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉重庆邮电大学;重庆市住房公积金管理中心申请的专利一种语音识别触发的服务人员手势规范识别及检测方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114596591B

龙图腾网通过国家知识产权局官网在2026-01-30发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210265679.1,技术领域涉及:G06V40/10;该发明授权一种语音识别触发的服务人员手势规范识别及检测方法是由刘歆;杜红力;刘娟;袁华春;韦庆杰;宋阳;宋鹏;吴云松设计研发完成,并于2022-03-17向国家知识产权局提交的专利申请。

一种语音识别触发的服务人员手势规范识别及检测方法在说明书摘要公布了:本发明涉及一种语音识别触发的服务人员手势规范识别及检测方法,属于计算机视觉技术领域。该方法包括以下步骤:S1:采集设备安装位置和安装条件的设置;S2:建立服务人员音色库和人脸库,以及说话人音色及其人脸信息的对应关系,用于识别说话人身份;S3:建立语音识别模型,用于识别说话内容,判定说话内容中是否存在关键词句;S4:建立人脸识别模型,用于识别服务人员人体区域范围;S5:构建服务手势识别模型,用于辨识服务人员规范性。本发明通过建立语音和人体姿态间的事件链关系,从语音关联到行为姿态过程,在视频信息复杂的场景中,快速、准确地定位和识别服务人员手势规范性,以便对其进行监测上报和提示预警。

本发明授权一种语音识别触发的服务人员手势规范识别及检测方法在权利要求书中公布了:1.一种语音识别触发的服务人员手势规范识别及检测方法,其特征在于:包括以下步骤: S1:采集设备安装位置和安装条件的设置; S2:建立服务人员音色库和人脸库,以及说话人音色及其人脸信息的对应关系,用于说话人识别,判定语音的说话人身份;检出工作人员的语音部分,以识别其说话内容; S3:建立语音识别模型,用于说话内容识别;建立特定服务手势姿态所对应的服务用语关键词句库;计算和检索工作人员说话内容中的服务用语关键词句,判断是否存在关键词句,以成为触发视频图像中手势检测和识别的条件;具体包括以下步骤: S31:建立特定姿态所对应的服务用语关键词句库; S32:建立中文语音识别模型ASRT,其识别过程如下:通过采用卷积神经网络CNN和连接性时序分类CTC方法,使用中文语音数据集进行训练,将声音转录为中文拼音,并通过语言模型,将拼音序列转换为中文文本,将步骤S2中识别确认的工作人员声音数据转化成文本,识别其说话内容; S33:使用文本匹配算法ESIM对说话内容和服务用语关键词句进行匹配度计算,将匹配度大于阈值的关键词句和与之对应的匹配度保存在候选数组中;当候选数组为空时,判断该说话内容中不存在关键词句;当候选数组不为空时,遍历候选数组,找出匹配度最大值所对应的关键词句,获取该说话人的人脸信息和识别到关键词句的那一帧的前m2秒到后m2秒的视频段;按照每秒截取三帧的方法,将语音附近的视频段截取成视频帧序列; S4:建立人脸识别模型,用于识别工作人员基于图像的身份信息,根据说话人音色及其人脸信息的对应关系,构建此工作人员从语音到视频图像的事件过程,同时根据人脸和人体的比例,标定出人体区域;具体包括以下步骤: S41:建立人脸识别模型FaceNet,用于人脸识别;将人脸库中的人脸信息放入FaceNet模型中进行训练,训练过程如下:使用CNN对图像进行特征提取,通过L2标准化将特征映射到一个超球面上,再接上嵌入函数,将图像映射到欧式空间,通过不断的训练调优后,欧式空间里的距离用于度量人脸相似度; S42:当步骤S2中确定说话人为某位服务人员时,使用FaceNet对步骤S33获取的视频帧序列中的每一视频帧进行人脸识别,如果视频帧中出现多个人脸信息时,通过说话人音色及其人脸信息的对应关系,找出该服务人员的人脸位置,通过人脸和人体的位置关系和比例,每个视频帧中的服务人员人体区域范围A;对人体区域范围A进行如下处理:将每个视频帧中的人体区域范围A做或运算,得到一个合并后的人体区域范围B,按照人体区域范围B裁剪出视频帧中的人体区域图像,将其保存到该段视频的人体区域图像序列中; S5:构建服务手势规范识别模型,用于辨识服务人员规范;建立服务人员规范行为标签库,根据工作人员从语音到视频图像的事件过程,以及服务手势识别模型结果,确定该工作人员在服务过程中是否符合服务手势规范性要求,如果不符合,则进行提示预警以及违规记录;具体包括:针对服务人员的手势规范性识别,包括:右手引导、左手引导、举手招引、双手服务、其他行为,具体包括以下步骤: S51:建立基于视频图像序列的服务人员规范行为标签库,用于存储图像序列和与之对应的行为类别、关键点位置;对视频帧序列中的服务人员利用打标工具手动标注人体关键点坐标,用于初始模块、精炼模块训练;从服务人员行为规范中,选择适当的标签来描述人体区域图像序列的行为,用于分类模块训练,其中标签包括右手引导、左手引导、双手服务、举手招引、其他行为;将人体区域图像序列,行为标签,人体关键点坐标组合起来,建立不同行为的图像库和行为标签库; S52:服务手势规范识别模型,包含特征提取网络、分类模块两个部分,所述特征提取网络用于提取图像中的关键点特征图像,所述分类模块根据关键点特征图像对待识别图像进行行为分类;所述特征提取网络由VGG19特征提取模块、初始模块、精炼模块组成,特征提取步骤如下: S5211:将步骤S4中获取的人体区域图像序列中的第k张图像放入VGG19特征提取模块进行特征提取,生成其对应的特征图像Fk,k=1,…,3m; S5212:所述的初始模块由三个3*3的卷积和两个1*1的卷积构成,模块末尾使用L2loss损失函数来计算预测值和真实值之间的误差;所述预测值为关键点热力图中相似度最大的点的位置,所述真实值为实际关键点的位置,希望获取到误差最小,拟合度最高时的关键点热力图特征;将步骤S5211得到的特征图像Fk放入初始模块中进一步提取特征,得到与之对应的19个关键点热力图信息,体现各个像素点与该关键点的相似程度; S5213:所述的精炼模块由五个7*7的卷积和两个1*1的卷积构成,精炼模块末尾使用L2loss损失函数来计算预测值和真实值之间的误差,所述预测值为关键点热力图中相似度最大的点的位置,所述真实值为实际关键点的位置;将特征图像Fk和19个关键点热力图信息串联放入精炼模块中,通过扩大感受野的方式,获取到感受野更大的19个关键点热力图信息;获取到19个关键点热力图中热力值最高点的坐标,将它们组合成关键点集合 {x1,y1,x2,y2,,,x19,y19},xi,yi表示第k张图像中第i个人体关键点热力图中热力值最高点的坐标;计算x1…x19的最大值xmax和最小值xmin,y1…y19的最大值ymax和最小值ymin,xmax-xmin和ymax-ymin的最大值L;依次从关键点热力图中截取xmax+xmin2-L2xxmax+xmin2+L2amp;amp;ymax+ymin2-L2yymax+ymin2+L2区域的图像,对截取后的图像进行按比例缩放,得到第k张图像的19张224*224大小的关键点特征图像序列Rk{Rk,1,,,,Rk,j,,,,Rk,19},j=1,…,19,Rk,j表示第k张图像的第j个关键点特征图像;从R1…R3m中选择R1,1,,,,R3m,1构成一个关键点特征集合S1,以此类推,从R1…R3m中选择R1,j,,,,R3m,j构成一个关键点特征集合Sj,最终得到关于人体区域图像序列的关键点特征图像集合SS1,,,,Sj,,,,S19; 所述分类模块由19个瓶颈层、一个全连接层和一个激活函数Softmax构成,其中瓶颈层由两个全连接层和一个Relu激活层构成,每一个瓶颈层对应一个关键点,用于减少之后运算的参数量;将S5213中获取到的关键点特征图像集合S中的关键点特征集合Sj输入到对应的瓶颈层中,再通过全连接层将这19个瓶颈层的输出进行连接,再经过Softmax层处理,最终得到一个5维向量,代表右手引导、左手引导、举手招引、双手服务、其他行为分别对应的概率,选取最大概率值对应的行为作为最终的识别结果;根据工作人员语音与行为的对应关系和行为分类模块结果,确定该工作人员在服务过程中是否符合服务手势规范性要求。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人重庆邮电大学;重庆市住房公积金管理中心,其通讯地址为:400065 重庆市南岸区黄桷垭崇文路2号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。