南京理工大学舒祥波获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉南京理工大学申请的专利基于频域和文本语义信息联合优化的动作生成方法及装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119920005B 。
龙图腾网通过国家知识产权局官网在2026-04-07发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411978494.0,技术领域涉及:G06V40/20;该发明授权基于频域和文本语义信息联合优化的动作生成方法及装置是由舒祥波;马运国;李成建;唐金辉设计研发完成,并于2024-12-30向国家知识产权局提交的专利申请。
本基于频域和文本语义信息联合优化的动作生成方法及装置在说明书摘要公布了:本申请提供了一种基于频域和文本语义信息联合优化的动作生成方法及装置,涉及动作生成技术领域,该方法包括:将所述初始潜在空间运动特征分解为低频分量和高频分量;根据所述低频分量和所述高频分量得到所述时域动作特征;将所述时域动作特征和所述待处理的文本特征进行拼接,得到融合特征;将所述融合特征作为输入,利用预训练的动作生成模型输出动作序列。通过设计频率状态空间模型,有效结合低频信息和高频信息,提升了模型对静态姿势和动态细节动作的建模能力。与传统方法相比,本申请能够生成更加自然、连贯的动作序列,尤其在处理复杂多阶段动作时表现出色,显著减少了动作间过度生硬或缺乏细节的现象。
本发明授权基于频域和文本语义信息联合优化的动作生成方法及装置在权利要求书中公布了:1.一种基于频域和文本语义信息联合优化的动作生成方法,其特征在于,所述基于频域和文本语义信息联合优化的动作生成方法包括: 获取待处理的文本特征和对应的初始潜在空间运动特征,其中,所述待处理的文本特征是通过对待处理的文本描述进行特征提取得到的变量,所述初始潜在空间运动特征是从高斯分布中随机采样得到的变量; 将所述初始潜在空间运动特征作为输入,利用预训练的频率空间状态模型输出时域动作特征,具体包括: 将所述初始潜在空间运动特征分解为低频分量和高频分量,其中,所述低频分量用于捕捉动作的全局静态动作特征,所述高频分量用于捕捉动作的动态动作细节特征; 根据所述低频分量、所述高频分量和比例参数构造频域状态转移矩阵,其中,所述比例参数是通过所述低频分量和所述高频分量之间的时间动态关系确定的变量; 根据所述频域状态转移矩阵更新隐藏状态,其中,初始隐藏状态为零向量; 根据更新的隐藏状态、所述低频分量和所述高频分量,重建所述时域动作特征; 将所述时域动作特征和所述待处理的文本特征进行拼接,得到融合特征,具体包括: 根据所述时域动作特征和所述文本特征,具体对所述时域动作特征和所述文本特征进行残差连接,得到第一融合特征; 根据所述文本特征和动作状态矩阵,得到文本引导的状态矩阵; 根据所述第一融合特征、所述文本引导的状态矩阵和所述更新的隐藏状态,得到语义对齐的动作特征; 将所述时域动作特征和所述语义对齐的动作特征进行融合,得到所述融合特征; 将所述融合特征作为输入,利用预训练的动作生成模型输出动作序列,具体包括: 将所述融合特征输入至核心去噪器,得到去噪特征,其中,所述核心去噪器是基于UNet的去噪网络; 利用解码器对所述去噪特征解码,得到所述动作序列,其中,所述预训练的动作生成模型包括所述核心去噪器和所述解码器; 所述频域状态转移矩阵的表达式为: ; 其中,为频域状态转移矩阵;为状态转移矩阵的初始值,具体设置为遵循标准高斯分布的随机值;和为比例参数;为低频分量;为高频分量; 采用卷积操作提取低频分量和高频分量之间的时间动态关系,为和的值提供了调整依据,其中卷积核的大小和步长根据动作数据的帧率动态调整。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人南京理工大学,其通讯地址为:210094 江苏省南京市玄武区孝陵卫200号南京理工大学;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励