蜜度科技股份有限公司刘益东获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉蜜度科技股份有限公司申请的专利视频文字位置定位方法、系统、介质及装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119763023B 。
龙图腾网通过国家知识产权局官网在2025-08-19发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510258584.0,技术领域涉及:G06V20/40;该发明授权视频文字位置定位方法、系统、介质及装置是由刘益东;孔欧;刘玉龙设计研发完成,并于2025-03-06向国家知识产权局提交的专利申请。
本视频文字位置定位方法、系统、介质及装置在说明书摘要公布了:本申请提供一种视频文字位置定位方法、系统、介质及装置,包括:获取包含文字的参考帧和待定位视频帧;提取参考帧的跨模态特征;提取待定位视频帧的帧特征矩阵;基于跨模态特征和帧特征矩阵构建输入特征矩阵,输入特征矩阵包括跨模态特征和帧特征矩阵和位置向量;将输入特征矩阵输入大语言模型,获取输出特征矩阵;获取输出特征矩阵中位置向量对应的输出向量的均值和方差;基于均值和方差获取一个高斯分布样本;获取高斯分布样本的掩码,以根据掩码确定待定位视频帧的文字位置。本申请能够通过对视频文字所有的帧进行特征提取、融合以及掩码的获取等技术,实现了视频中文字定位的准确性。
本发明授权视频文字位置定位方法、系统、介质及装置在权利要求书中公布了:1.一种视频文字位置定位方法,其特征在于,包括以下步骤: 获取包含文字的参考帧和待定位视频帧; 提取所述参考帧的跨模态特征;包括:对所述参考帧进行文字识别,获取文本行内容和位置掩码;基于CLIP文本编码器提取所述文本行内容的文本特征矩阵;提取所述位置掩码的掩码特征矩阵;将所述文本特征矩阵作为K向量和V向量,将所述掩码特征矩阵作为Q向量,基于交叉注意力机制获取融合特征;将所述融合特征经过多层感知机获取所述跨模态特征; 提取所述待定位视频帧的帧特征矩阵; 基于所述跨模态特征和所述帧特征矩阵构建输入特征矩阵,所述输入特征矩阵包括所述跨模态特征和所述帧特征矩阵和位置向量;包括:获取参考帧起始符、参考帧结束符、定位帧起始符、定位帧结束符和位置字符;将所述参考帧起始符、所述参考帧结束符、所述定位帧起始符、所述定位帧结束符和所述位置字符分别经过多层感知机,获取参考帧起始向量、参考帧结束向量、定位帧起始向量、定位帧结束向量和位置向量;将所述参考帧起始向量、所述跨模态特征、所述参考帧结束向量、所述定位帧起始向量、所述帧特征矩阵、所述定位帧结束向量和所述位置向量依次串接,获取所述输入特征矩阵;其中,所述位置向量为定位帧中文字的位置信息,包括文字的起始位置和结束位置;所述位置字符是指在定位帧中的直接描述位置的数据; 将所述输入特征矩阵输入大语言模型,获取输出特征矩阵; 获取所述输出特征矩阵中所述位置向量对应的输出向量的均值和方差; 基于所述均值和方差获取一个高斯分布样本; 获取所述高斯分布样本的掩码,以根据所述掩码确定所述待定位视频帧的文字位置。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人蜜度科技股份有限公司,其通讯地址为:201204 上海市浦东新区中国(上海)自由贸易试验区张衡路198弄10号301AB室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。