Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 湖南大学蔡敏捷获国家专利权

湖南大学蔡敏捷获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉湖南大学申请的专利一种基于视听融合聚类的说话人日志生成方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119964596B

龙图腾网通过国家知识产权局官网在2025-11-21发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510077271.5,技术领域涉及:G10L25/48;该发明授权一种基于视听融合聚类的说话人日志生成方法是由蔡敏捷;黄河;陈浩文设计研发完成,并于2025-01-17向国家知识产权局提交的专利申请。

一种基于视听融合聚类的说话人日志生成方法在说明书摘要公布了:本发明公开了一种基于视听融合聚类的说话人日志生成方法,旨在解决多说话人场景中的“谁在何时说话”问题。该方法通过以下步骤实现:首先,采用重叠感知的语音分段模型进行音频片段的分段,解决重叠语音问题;其次,利用先进的说话人验证模型提取每段音频的说话人声纹特征以及通过面部跟踪和说话人检测生成的说话分数矩阵;然后,通过音视频联合聚类方法,根据音频特征和视觉信息优化聚类数目,并利用K均值聚类完成说话人聚类;实验结果表明,采用该方法的系统在Ego4D验证集上取得了最低的日志错误率DER。

本发明授权一种基于视听融合聚类的说话人日志生成方法在权利要求书中公布了:1.一种基于视听融合聚类的说话人日志生成方法,其特征在于,本方法中的输入信号为采集的视频信号,视频信号包括视频的图像序列帧和对应的音频帧; 本方法包括以下步骤: S1.采用重叠感知说话人分割模型获取各说话人的语音段; 针对所述的音频帧,通过重叠感知说话人分割模型检测说话人的语音段;所述的语音段还记录有该语音段的开始时间和结束时间; S2.说话人音频嵌入的提取: 将步骤S1获得的语音段送入说话人验证模型以提取音频嵌入,即提取说话人的声纹特征向量; S3.主动说话人检测: 通过人脸检测和追踪算法和主动说话人检测模型对视频信号进行处理,得到每个说话人的说话分数矩阵A[i][j],即视觉嵌入; 说话分数矩阵A[i][j]代表ID为i的说话人在第j个视频帧中说话的概率; S4.视听聚类: 将音频嵌入和视觉嵌入均送入聚类模块进行处理; 聚类模块采用以下步骤实施: 4.1.说话人数量预测:利用视觉嵌入计算关于总说话人数的概率pnumber,通过所述概率预测潜在的说话人数量; 4.2.优化聚类数量:基于优化算法,结合说话人数的概率pnumber和音频嵌入得到的特征值差向量egap,确定最佳说话人数量Kav; 4.3.K-means聚类:根据确定的最佳说话人数量Kav,应用K-means聚类算法将音频片段分配到Kav个聚类中,形成日志; 最终日志结果为以[说话人ID,开始时间,结束时间]数据结构表征的三元组列表;在步骤4.1中,对S3中得到的说话分数矩阵A求出每行的最大值pspk作为每个说话人在视频中说过话的概率,所述说话人数量预测步骤通过如下公式计算概率 其中pnumber[n]∈[0,1]表示总共有n个说话人的概率,表示从N个体中选择n个个体的所有可能组合的集合;通过使用该概率,能够对潜在的说话人数量进行预测;在步骤4.2中,所述的优化算法为基于归一化最大特征值差的自适应谱聚类说话人日志方法; 采用基于归一化最大特征值差的自适应谱聚类说话人日志方法,以所有片段的说话人音频嵌入E的余弦相似度构造相似性矩阵Esim;将Esim与Esim的转置求平均,得到平均值矩阵然后,以平均值矩阵构建拉普拉斯矩阵L,并进行奇异值分解以获得特征值Σ和特征向量U,最后,从Σ得到特征值差向量egap,所述优化聚类数量步骤通过权重系数λ对pnumber和特征值差向量egap进行加权平均,确定最佳说话人数量Kav;优化算法的计算公式如下: argmax表示找出给定函数或数组中取得最大值的索引位置,softmax函数用于将一个向量映射为一个概率分布,使得输出值在[0,1]之间,且所有输出的和为1。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人湖南大学,其通讯地址为:410082 湖南省长沙市岳麓区麓山南路麓山门;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。