山东大学李峰获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉山东大学申请的专利通算一体的多模态联邦学习任务资源调度方法及介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120416051B 。
龙图腾网通过国家知识产权局官网在2025-09-23发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510896395.6,技术领域涉及:H04L41/0896;该发明授权通算一体的多模态联邦学习任务资源调度方法及介质是由李峰;陈旭;胡鹏飞;吴思设计研发完成,并于2025-07-01向国家知识产权局提交的专利申请。
本通算一体的多模态联邦学习任务资源调度方法及介质在说明书摘要公布了:本申请属于联邦学习领域,具体涉及一种通算一体的多模态联邦学习任务资源调度方法及介质,包括如下步骤:搭建多任务多模态联邦学习环境,完成初始信息探索,使用预设提示词技术调用大模型生成奖励建模函数,由两层强化学习智能体进行每个客户端参与任务与分配带宽资源的决策。由客户端完成本地训练并收集训练过程参数,奖励建模函数根据训练过程参数计算奖励,并指导更新两层强化学习智能体,直至完成收敛既定目标或到达最大通信轮次。本发明所公开的方法能够支持数据分布不均、数据模态缺失、带宽资源有限等多种复杂场景,最小化多任务多模态联邦学习收敛时延。
本发明授权通算一体的多模态联邦学习任务资源调度方法及介质在权利要求书中公布了:1.一种通算一体的多模态联邦学习任务资源调度方法,其特征在于,包括如下步骤: S1.搭建多任务多模态联邦学习环境,设置各任务收敛的目标正确率;服务器调用大语言模型生成奖励预测函数,各客户端完成一个轮次的本地训练,得到各个任务的损失值与训练时间,并将结果反馈给服务器; S2.服务器将每个客户端对应的状态提交给高层智能体;由高层智能体决策客户端在当前轮次是否参与任务或参与何种任务; 通过强化学习的动作决策过程,决策得到所有客户端的动作集合;客户端的状态集合包括,其中代表轮次结束之后客户端在全部任务上的损失值的记录;代表轮次结束后客户端在全部任务上的训练时间预测;代表各个任务的收敛目标与轮次结束时测试正确率的差;代表客户端在第轮完成时的剩余参与时间;代表客户端在前轮各个任务累计参与的次数,在时均为0;状态集合在每轮次步骤S4完成更新,强化学习智能体决策出客户端的动作集合为,代表客户端在第个轮次执行的任务编号:其中当时代表不参与本次训练,代表本轮次执行任务;代表客户端在第个轮次的带宽分配比例;为了加速强化学习智能体的收敛,采用分层强化学习: 假设智能体对每个客户端的决策相互独立,因此每次智能体只读入一个客户端的状态信息,决策动作,并得到一个奖励,同时强化学习智能体解耦合为高层智能体与低层智能体,其中,高层智能体读入状态,决策动作,当客户端被服务器选择参与轮次的任务时,低层智能体才会参与决策带宽分配比例;低层智能体读入状态,决策动作; 由于两层智能体互相独立,设置高层智能体的演员网络的输出为离散动作且,并通过对进行采样得到动作;低层智能体的演员网络采用高斯策略,其输出为两个实值参数:和,分别表示客户端在第轮的带宽分配策略的期望值不确定性;由此构造正态分布,并从中进行采样以获得连续动作,表示客户端在本轮的带宽占比,在所有低层智能体决策完带宽占比后,服务器会收集所有客户端的带宽占比并归一化; S3.服务器在决策参与任务的客户端中随机选择一部分实际参与本轮次训练;低层智能体输入每个被选择参与任务的客户端的状态,输出决策的分配通信带宽占比; S4.服务器向参与任务的客户端下发对应的全局模型参数,客户端开始本轮本地训练,训练完毕后将训练时间、本地训练损失值和模型参数的更新上传给服务器,客户端传递后等待下一个轮次的任务信息,服务器在接收到客户端传递来的训练结果后,更新各个客户端的状态与各任务对应的全局模型; S5.服务器将训练结果反馈给奖励预测函数,由奖励预测函数生成两个智能体对应的子奖励,并输入给奖励生成模型,得到两个智能体对应的最终的奖励,两组智能体根据奖励值分别完成更新; S6.重复步骤S2至S6,直至到达各任务的收敛目标或到达最大通信轮次。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人山东大学,其通讯地址为:266200 山东省青岛市即墨区滨海路72号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。