杭州经纬信息技术股份有限公司黄晶获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉杭州经纬信息技术股份有限公司申请的专利基于文本和图像共同编辑的视频编辑模型及其构建方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120390124B 。
龙图腾网通过国家知识产权局官网在2025-10-24发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510874153.7,技术领域涉及:H04N21/472;该发明授权基于文本和图像共同编辑的视频编辑模型及其构建方法是由黄晶;钟宜国;吴风景;陈坤琦设计研发完成,并于2025-06-27向国家知识产权局提交的专利申请。
本基于文本和图像共同编辑的视频编辑模型及其构建方法在说明书摘要公布了:本方案提供了一种基于文本和图像共同编辑的视频编辑模型及其构建方法,视频编辑模型在去噪扩散隐式模型中引入光流引导掩码融合模块和多模态特征识别与分割模块;原视频输入到去噪扩散隐式模型中进行前向扩散加噪得到多帧潜空间生成帧,多帧潜空间生成帧输入到光流引导掩码融合模块进行帧间特征对齐得到时间一致性潜空间生成帧;文本提示、图像提示和原始视频输入到多模态特征识别与分割模块进行对齐定位得到条件向量,条件向量和时间一致性潜空间生成帧进行迭代去噪生成目标编辑视频,且在每次去噪过程进行动态特征调制,基于文本和图像共同编辑的视频编辑模型在文本和图像提示的联合引导下高效编辑视频。
本发明授权基于文本和图像共同编辑的视频编辑模型及其构建方法在权利要求书中公布了:1.一种基于文本和图像共同编辑的视频编辑模型的构建方法,其特征在于,包括以下步骤: 包括以下步骤: 将原视频,文本提示和图像提示和目标视频作为训练数据集对; 将多组训练数据集对输入到视频编辑框架中进行训练得到视频编辑模型,其中视频编辑模型在去噪扩散隐式模型中引入光流引导掩码融合模块和多模态特征识别与分割模块;原视频输入到去噪扩散隐式模型中进行前向扩散加噪得到多帧潜空间生成帧,多帧潜空间生成帧输入到光流引导掩码融合模块进行帧间特征对齐得到时间一致性潜空间生成帧;文本提示和图像提示输入到多模态特征识别与分割模块的CLIP编码器中分别进行编码得到文本特征向量和图像特征向量,原视频输入到多模态特征识别与分割模块中,多模态特征识别与分割模块中的骨干网络、RPN候选区域网络和区域对齐构成针对于原视频的检测与分割模块,原视频的每一视频帧输入到骨干网络中进行特征提取后输入到RPN候选区域网络中进行物体定位并生成对应的分割掩码,不同视频帧中的分割掩码进行区域对齐得到物体特征向量,物体特征向量、文本特征向量和图像特征向量共同输入到多层全连接进行拼接得到条件向量,条件向量和时间一致性潜空间生成帧进行迭代去噪生成目标编辑视频,且在每次去噪过程进行动态特征调制,其中去噪扩散隐式模型的迭代去噪是以条件向量为条件,对时间一致性潜空间生成帧进行去噪处理以生成与图像提示和文本提示一致的目标编辑视频; 其中去噪扩散隐式模型包括噪音预测模型和解码器,其中噪音预测模型的每个下采样和上采样内插入自注意和深度可分离卷积和交叉注意力模块,其中自注意力和深度可分离卷积对输入的特征进行全局结构特征和局部细节特征的关注以生成融合特征,融合特征和条件向量输入到交叉注意力模块中进行注意力关注得到输出特征;自注意和深度可分离卷积包括并行的自注意力机制路径和卷积路径,每个时间步的时间一致性潜空间生成帧的潜在特征作为残差特征输入到自注意和深度可分离卷积中分别进入自注意力机制路径中通过三个1×1卷积层生成查询特征Q、键特征K、值特征V,查询特征Q、键特征K、值特征V进行全局自注意力权重计算后输出全局结构特征,输入到自注意和深度可分离卷积中的残差特征分别进入卷积路径中进行深度可分离卷积后输出局部细节特征,将局部细节特征和全局结构特征进行动态权重融合后得到融合特征,融合特征作为交叉注意力模块的查询特征,条件向量作为交叉注意力模块的键特征、值特征。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人杭州经纬信息技术股份有限公司,其通讯地址为:310000 浙江省杭州市余杭区良渚古墩路1899号A1幢6楼626-628室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励