清华大学深圳国际研究生院毛忆南获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉清华大学深圳国际研究生院申请的专利基于强化学习的动态多媒体数据部署方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115269890B 。
龙图腾网通过国家知识产权局官网在2025-11-04发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210880715.5,技术领域涉及:G06F16/48;该发明授权基于强化学习的动态多媒体数据部署方法是由毛忆南;周仕佶;路荣伟;王智;朱文武设计研发完成,并于2022-07-25向国家知识产权局提交的专利申请。
本基于强化学习的动态多媒体数据部署方法在说明书摘要公布了:本发明公开了一种基于强化学习的动态多媒体数据部署方法,包括:建立元学习模型,获取动态多媒体数据;元预训练过程:从动态多媒体数据中选取要进行元预训练的天数N、用来进行在线元自适应的天数i、要进行动态适应的任务环境序列;对于不同的顺序对任务环境选取初始化模型参数;输入状态变量,产生动作和奖励后根据元学习模型的损失函数进行训练,得到动态元知识;在线元自适应过程:输入新的动态任务环境,用动态元知识进行模型初始化;在新任务环境上进行元学习模型的更新,进行动态元知识的泛化训练,得到新的模型和元知识。本发明能够在不断变化的视频流行度下,避免边缘内容缓存命中率因为动态请求模式导致的性能下降。
本发明授权基于强化学习的动态多媒体数据部署方法在权利要求书中公布了:1.基于强化学习的动态多媒体数据部署方法,其特征在于,包括以下步骤: S0、建立元学习模型,获取动态多媒体数据; S1、元预训练过程: S11、从所述动态多媒体数据中选取要进行元预训练的天数N、用来进行在线元自适应的天数i、要进行动态适应的任务环境序列T1到TN+i; S12、对于不同的顺序对任务环境选取初始化模型参数;其中,使用从任务Ti的模型参数θ适应得到的模型更新参数φ来收集任务Ti+1的轨迹; S13、输入状态变量,产生动作和奖励后根据所述元学习模型的损失函数进行训练,得到动态元知识;所述元学习模型的损失函数由以下公式表示: 其中,τ指由状态statet,动作actiont,奖励Rt,状态statet+1组成的轨迹,其中所采用的模型参数是φ,元知识参数为θ,学习率为α,任务环境是Ti,1:K表示有K条轨迹,M表示更新的步数,P表示轨迹服从概率P的数据分布; S2、在线元自适应过程: S21、输入新的动态任务环境TN+i+1,并用所述动态元知识进行模型初始化; S22、在新任务环境上进行元学习模型的更新,同时进行动态元知识的泛化训练,得到新的模型和元知识;其中,使用元学习模型的Regret函数 进行动态元知识的泛化训练;其中,找到一些作为元知识的通用特征,并获得可转移的元知识θ,以帮助模型获得更好的适应规则;通过基于重新初始化的近端策略优化得到快速调整,该优化由在线获取的元知识控制; 其中,使用在线的方式更新元知识,并保持其长期影响进行在线元适应,刷新元知识,通过多步在线梯度下降更新元知识旨在找到一些通用特征,并获得可迁移的元知识以帮助智能体获得更好的适应规则。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人清华大学深圳国际研究生院,其通讯地址为:518055 广东省深圳市南山区西丽街道深圳大学城清华校区A栋二楼;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励